1.3 常用数据挖掘工具

数据挖掘是一个反复探索的过程,只有将数据挖掘工具提供的技术及实施经验与企业的业务逻辑及需求紧密结合,并在实施过程中不断地磨合,才能取得好的效果。常用的数据挖掘建模工具如下。

1.Python

Python是一种面向对象的解释型计算机程序设计语言,它拥有高效的高级数据结构,并且能够用简单又高效的方式进行面向对象编程。但Python并不提供一个专门的数据挖掘环境,而是提供众多的扩展库。例如,NumPy、SciPy和Matplotlib这3个十分经典的科学计算扩展库分别为Python提供了快速数组处理、数值运算和绘图功能,scikit-learn库中包含很多分类器的实现以及聚类相关的算法。这些扩展库使Python成为数据挖掘的常用语言。

2.IBM SPSS Modeler

IBM SPSS Modeler原名Clementine,在2009年被IBM收购后对产品的性能和功能进行了大幅度改进和提升。它封装了最先进的统计学和数据挖掘技术,以获得预测知识并将相应的决策方案部署到现有的业务系统和业务过程中,从而提高企业的效益。IBM SPSS Modeler拥有直观的操作界面、自动化的数据准备和成熟的预测分析模型,结合商业技术可以快速建立预测性模型。

3.KNIME

KNIME(Konstanz Information Miner)是基于Java开发的,可以扩展使用WEKA中的挖掘算法。KNIME采用类似数据流(Data Flow)的方式来建立挖掘流程。挖掘流程由一系列功能节点组成,每个节点有输入和输出端口,用于接收数据、模型或导出结果。

4.RapidMiner

RapidMiner也叫YALE(Yet Another Learning Environment),它提供图形化界面,采用类似Windows资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(operator)。YALE提供了大量的运算符,涉及数据处理、变换、探索、建模、评估等各个环节。YALE是用Java开发的,基于WEKA来构建,可以调用WEKA中的各种分析组件。RapidMiner有拓展的套件Radoop,可以与Hadoop集成,在Hadoop集群上运行任务。

5.TipDM大数据挖掘建模平台

TipDM大数据挖掘建模平台是基于Python引擎开发的,用于数据挖掘建模的开源平台,它采用B/S结构,用户无须下载客户端,可通过浏览器进行访问。平台支持数据挖掘流程所需的主要过程:数据探索(相关性分析、主成分分析、周期性分析等),数据预处理(特征构造、记录选择、缺失值处理等),模型构建(聚类模型、分类模型、回归模型等),模型评价(R-Squared、混淆矩阵、ROC曲线等)。用户可在没有Python编程基础的情况下,通过拖曳的方式进行操作,将数据输入/输出、数据预处理、模型构建、模型评估等环节通过流程化的方式进行连接,以达到数据分析与挖掘的目的。