种数据挖掘工具分析比较.docx
- 文档编号:9411450
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:15
- 大小:27.29KB
种数据挖掘工具分析比较.docx
《种数据挖掘工具分析比较.docx》由会员分享,可在线阅读,更多相关《种数据挖掘工具分析比较.docx(15页珍藏版)》请在冰豆网上搜索。
种数据挖掘工具分析比较
数据挖掘工具调查与研究
姓名:
马蕾
5种数据挖掘工具分别为:
1、IntelligentMiner
2、SASEnterpreiseMiner
3、SPSSClementine
4、马克威分析系统
5、GDM
IntelligentMiner
一、综述:
IBM的ExterpriseMiner简单易用,是理解数据挖掘的好的开始。
能处理大数据量的挖掘,功能一般,可能仅满足要求.没有数据探索功能。
与其他软件接口差,只能用DB2,连接DB2以外的数据库时,如Oracle,SAS,SPSS需要安装DataJoiner作为中间软件。
难以发布。
结果美观,但同样不好理解。
二、基本内容:
一个挖掘项目可有多个发掘库组成;每个发掘库包含多个对象和函数
对象:
数据:
由函数使用的输入数据的名称和位置。
离散化:
将记录分至明显可识别的组中的分发操作。
名称映射:
映射至类别字段名的值的规范。
结果:
由函数创建的结果的名称和位置。
分类:
在一个项目的不同类别之间的关联层次或点阵。
值映射:
映射至其它值的规范。
函数:
发掘:
单个发掘函数的参数。
预处理:
单个预处理函数的参数。
序列:
可以在指定序列中启动的几个函数的规范。
统计:
单个统计函数的参数。
统计方法和挖掘算法:
单变量曲线,双变量统计,线性回归,因子分析,主变量分析,分类,分群,关联,相似序列,序列模式,预测等。
处理的数据类型:
结构化数据(如:
数据库表,数据库视图,平面文件)和半结构化或非结构化数据(如:
顾客信件,在线服务,传真,电子邮件,网页等)。
架构:
它采取客户/服务器(C/S)架构,并且它的API提供了C++类和方法
IntelligentMiner通过其独有的世界领先技术,例如自动生成典型数据集、发现关联、发现序列规律、概念性分类和可视化呈现,可以自动实现数据选择、数据转换、数据挖掘和结果呈现这一整套数据挖掘操作。
若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。
三、现状:
现在,IBM的IntelligentMiner已形成系列,它帮助用户从企业数据资产中识别和提炼有价值的信息。
它包括分析软件工具——IntelligentMinerforData和IBMIntelligentMinerforText,帮助企业选取以前未知的、有效的、可行的业务知识——如客户购买行为,隐藏的关系和新的趋势,数据来源可以是大型数据库和企业内部或Internet上的文本数据源。
然后公司可以应用这些信息进行更好、更准确的决策,获得竞争优势。
四、挖掘案例:
(客户细分)
1.商业需求:
:
客户细分
2.数据理解:
根据用户基本信息(实际上还包括客户消费行为,人口统计信息等,本示例为简单起见,只在这个表的数据基础上进行挖掘)进行客户细分
3.数据准备:
4.建模:
选择挖掘模型(比如是分群,还是分类)
确定模型输入,需要做的处理,结果分析
选择模型输入字段:
挖掘模型选择:
神经分群发掘函数使用了一个Kohonen特征映射神经网络。
Kohonen特征映射使用一个称作自组织的进程来将相似的输入记录组合在一起。
您可以指定群集的数目和遍数。
这些参数控制进程时间和将数据记录分配到群集时使用的粒度程度。
分群的主任务是为每个群集查找中心。
此中心也称为称为原型。
对于每个在输入数据中的每个记录,神经分群发掘函数计算和记录计分最近的群集原型。
每个数据记录的计分是用到群集原型的欧几里得距离表示的。
计分越靠近0,与群集原型的相似性程度就越高。
计分越高,记录与群集原型就越不相似。
输入数据的每个遍历,中心被调整来达到更好的整个分群模型质量。
在发掘函数运行时,进度指示器显示每次遍历的质量改进状况。
4.建模:
选择模型:
指定输入数据:
选择分群方式:
分群模型设置概要:
5.运行模型:
点击蓝色按钮运行模型,运行模型进程:
6.模型结果分析:
运行结果(群):
运行结果,统计:
从上面两个图中我们可以看出一些有意义的分群,根据consume_level和online_duration分群有一定意义。
而比如用gender进行的分群我们可以直接观察出来,意义不大,只有两个大类,可以直观地看出男女比例:
consume_level(消费层次)的群特征信息:
可以看出在第2、3类消费层次占的比重较大。
在线通话时长的一点分析:
从上面图中可以看出,大部分客户每一个月消费是50元以下的。
50-200各区间逐步递减;而一个月消费300以上的,也从3%,8%,12%逐渐递增的态势。
挖掘的这些消费分群信息,对有针对性的营销,提前对客户进行细分是很有意义的。
6.保存调出模型:
客户分类挖掘示例(待续):
采用一样的数据,对客户消费水平进行分类预测(consume_level)
混淆矩阵:
分类百分率:
SASEnterpriseMiner
一、综述:
SAS完仝以统计理论为基础,功能强大,有完备的数据探索功能。
但难以掌握,要求是高级统计分析专业人员.结果难以理解。
价格也极其昂贵,而且是租赁模式。
二、基本内容:
支持SAS统计模块,使之具有杰出的力量和影响,它还通过大量数据挖掘算法增强了那些模块。
SAS使用它的SEMMA方法学以提供一个能支持包括关联、聚类、决策树、神经元网络和统计回归在内的广阔范围的模型数据挖掘工具。
SASEntelpriseMiner设计为被初学者和有经验的用户使用。
它的GUI界面是数据流驱动的,且它易于理解和使用。
它允许一个分析者通过构造一个使用链接连接数据结点和处理结点的可视数据流图建造一个模型。
另外,此界面允许把处理结点直接插入到数据流中。
由于支持多种模型,所以EnterpriseMiner允许用户比较(评估)不同模型并利用评估结点选择最适合的。
另外,EnterpriseMiner提供了一个能产生被任何SAS应用程序所访问的评分模型的评分结点。
三、用户配置:
SASEnterpriseMiner能运行在客户/服务器上或(计算机的外围设备)能独立运行的配置上。
此外,在客户/服务器模式下,EnterpriseMiner允许把服务器配置成一个数据服务器、计算服务器或两者的综合。
EntepnseMiner被设计成能在所有SAS支持的平台上运行。
该结构支持胖客户机配置(要求客户机上的完全SAS许可证)以及瘦客户机(浏览器)版本。
四、数据挖掘技术、算法和应用程序:
SASEntelpriseMiner支持关联、聚类、决策树、神经元网络和经典的统计回归技术。
五、前景:
它在统计分析软件上的丰富经验,所以SAS开发出了一个全功能、易于使用、可靠和易于管理的系统。
模型选项和算法所覆盖的广阔范围、设计良好的用户界面、现存数据商店的能力和在统计分析市场所占的巨大份额(允许一个公司获得一个增加的SAS部件而不是一个新的工具)都可能使SAS在数据挖掘市场上取得领先位置。
由于它最近刚投放市场,所以在写此书时只能获得少数公布的用户基推测试。
这些结果表明EnterpriseMiner在可伸缩性、预测准确性和处理时间上都表现得很好。
总的来说,此工具适合于企业在数据挖掘方面的应用以及CBM的全部决策支持应用。
六、案例:
SAS软件成就安利(中国)高效物流
安利(中国)透过库存优化系统提升服务效率20%,客户满意率指标达到97%
安利是国际上知名的直销企业,1992年进入中国市场。
目前,中国是安利在全球最大的市场,安利(中国)2008年的销售业绩达179亿元人民币,占安利全球收入的1/3强,并且保持着强劲的增长势头。
目前,安利(中国)拥有1000多种产品,全国共有229间店铺、29个配送中心、22个外仓和1个4万平方米的物流中心,仓库总面积达10万平方米,存储量达5.6万个卡板,每年的运输里程1,396万公里,相当于绕地球349圈。
安利(中国)特有的“店铺+直销+经销”的多元化营销模式和频繁而快速的的市场促销活动,加大了库存管理的难度,要求运营流程和相关人员具有更高的灵活应变能力。
为了更好地配合安利业务的高速发展,使得信息流的发展能够与未来企业供应链的飞速发展相适应并具有一定的前瞻性,安利(中国)管理层决定进一步深化当前的商业分析应用,在供应链管理方面引入SAS技术,建立“库存优化系统(InventoryOptimizationSystem,缩写IOS)”,统筹考虑各种相互约束的条件,将“正确的产品”以“正确的成本”在“正确的时间”送达“正确的地点”,实现对复杂市场环境的快速反应,从而进一步提高企业的市场竞争力。
库存优化系统(IOS)的主要功能
IOS是一种极为有效的库存管理工具,它提供了基于服务水平、交货时间和成本等用户指定的约束条件测算最佳库存水平和模式的能力。
具体功能如下:
1.多层次的产品需求预测
通过业内领先的SAS时间序列分析技术,根据过往历史上的相关销售数据,对不同层次的商品、地区进行自动诊断、建模、执行以及调整预测,可以精密到具体产品、店铺级别的需求数据,预测未来的客户需求量。
IOS采集了安利(中国)历史三年、超过7千万张订单的数据进行分析。
预测的结果由于考虑了需求的变动趋势、季节性波动、产品促销、产品属性等因素,并基于最为健壮的模型库,因此生成的预测数据更为准确。
并且具有高可扩展性、灵活变动等特点。
2.考虑全面的智能排车
系统根据预测的需求量,运用优化模型计算出每个地区的补货频率。
同时,结合车型、运载量、运输成本等相关运输数据,计算出未来一周最优的排车计划。
排车计划会结合各补货计划人员负责的区域,以均衡各人的工作安排,及更妥善的人力分配。
系统中直观、清晰地展现出当前的排车计划、车辆信息等。
排车计划由于受到公司策略安排、产品促销、库存调配、人手安排等因素的影响,具有一定的变动性。
计划人员可以灵活方便地对其进行变动,而这些变动又被系统纪录起来,并区分成计划调整和临时变动两种状态,以作为日后排车的依据和对排车效果分析的数据源。
3.最优化的库存补货策略
库存补货策略首先要基于多层次的补货网络,从成品生产的工厂到物流中心到外仓,从外仓到店铺。
综合考虑各个产品的预测需求量和需求的变动性、运输时间、包装规格、库存成本、运输成本、运输频率、客户服务水平、库存策略、最小订货量等影响因素后,更精细地动态制定库存补货策略,包括重订购水平以及订购至水平。
这些补货策略能细致到具体每个仓库、每间店铺中的每个产品,而且能随着时间的推移动态适应市场变化,并进行相应的调整。
4.指标分析和预警功能
此功能为整个库存管理提供日常所需的KPI(KeyPerformanceIndication)报表和紧急状态预警。
包括库存水平分析、采购建议分析、存货预警、暂时缺货EAS(EmergingAlertSystem)分析、运输空载率、产品销售监控等一系列分析数据和报表。
SPSS(StatisticalProductandServiceSolutions)
一、综述:
“统计产品与服务解决方案”软件。
最初软件全称为“社会科学统计软件包”。
但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”。
SPSS是世界上最早采用图形菜单驱动界面的统计软件,该软件应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。
迄今SPSS软件已有30余年的成长历史。
全球约有25万家产品用户,它们分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业,是世界上应用最广泛的专业统计软件。
二、特点:
它最突出的特点就是操作界面极为友好,输出结果美观漂亮。
它将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。
用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。
SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。
其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。
输出结果十分美观,存储时则是专用的SPO格式,可以转存为HTML格式和文本格式。
对于熟悉老版本编程运行方式的用户。
SPSS还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴”按钮就可以自动生成标准的SPSS程序。
极大的方便了中、高级用户。
SPSS输出结果虽然漂亮,但不能为WORD等常用文字处理软件直接打开,只能采用拷贝、粘贴的方式加以交互。
这可以说是SPSS软件的缺陷。
三、功能:
增强的数据管理功能。
完善的结果报告功能。
从10版起,对数据和结果的图表呈现功能一直是SPSS改进的重点。
ComplexSamples模块增加统计建模功能。
ComplexSamples是12版中新增的模块,用于实现复杂抽样的设计方案,以及对相应的数据进行描述。
一般线形模型将会被完整地引入复杂抽样模块中,以实现对复杂抽样研究中各种连续性变量的建模预测功能。
ClassificationTree模块。
这个模块实际上就是将以前单独发行的SPSSAnswerTree软件整合进了SPSS平台。
ClassificationTree模块基于数据挖掘中发展起来的树结构模型对分类变量或连续变量进行预测,可以方便、快速的对样本进行细分,不需要用户有太多统计专业知识。
更好的SPSS系列产品兼容。
能够针对市场细分工作提供更为完整的方法体系。
四、前景:
通过对SPSS在质量信息管理中的应用进行了初步探讨,不难发现尽管SPSS是一种通用的社会科学统计软件,但非常适用于质量数据的处理和分析,广大质量工作者可以逐步探索SPSS在质量管理中的新用途,大幅度改善质量管理的效率和效果,帮助管理者做出最优决策,最大限度地提高产品和服务质量。
它的前景十分可观。
五、案例:
机械设备维护保障预测性分析-Sikorsky航空公司
公司介绍:
位于Stratford,Conn,是一家世界领先的直升机设计、制造和服务公司。
该公司的直升机业务涵盖了商业、工业及军事等行业,美国空军所有5个分支机构、世界上40多个国家的军事及商业机构均选择采购使用Sikorsky公司的直升机。
该公司的愿景反映了其对安全和创新的长期承诺:
“我们先进的飞机及技术把任何时间任何地点的人们安全地送回家。
”自从1944年全世界第一起直升机营救事例起,Sikorsky的直升机估计已经拯救了200多万条生命。
Sikorsky公司是位于Hartford,Conn的美国联合技术集团的下属公司之一。
美国联合技术集团是一家为航天航空及建筑系统行业提供高技术产品和支持服务的集团。
面临的问题
如何预测机器零件损耗并及时更新以保证安全生产
如何管理机器设备库存以保证及时供货的同时又使管理成本降到最低
如何降低机器设备的损耗,延长机器设备使用寿命的同时又保证安全生产
如何摸清机器设备使用的各种成本,进行成本管理并直接降低成本
如何充分分析挖掘企业现有所有数据源,包括结构性数据及非结构性数据(文本数据),并进行预测性分析
产品选择
Sikorsky提供客户各种各样的维护保障项目帮助客户以可知的成本运营飞机及提高飞机的可利用性。
其中的全面保障项目(TAP),涵盖了飞机相关零件及服务中98%的成本费用。
Sikorsky公司寻求一种软件及解决方案帮助直升机客户识别和预测飞机设备的维护保障并最终提高客户的满意度。
Sikorsky航空公司已选择了使用SPSS公司市场领先的预测性分析软件及解决方案,该软件通过积极主动地预测直升机客户的预期需求极大地提高了客户的忠诚度。
应用产品:
SPSS统计分析产品;Clementine数据挖掘产品(包括数据挖掘和文本挖掘);SPSS企业级预测平台PES;
解决方案:
项目的解决方案按照行业内公认的方法论—CRISP-DM分为六个步骤:
业务理解,数据理解,数据准备,建模,评估以及部署。
商业理解
预测飞机零部件损耗并及时更新零部件保证安全飞行
管理飞机零部件库存,降低库存成本,但保证及时供货
摸清飞机设备成本,成本管理,降低成本
规范飞行员的驾驶操作降低零部件损耗并保证安全飞行
整合各种资源,提高飞机的可利用性
数据理解及数据准备
正常飞行时飞机监测系统所收集到的数据
飞行员驾驶操作日志记录,包括错误操作记录及正确操作记录
机务人员操作日志记录,包括错误操作记录及正确操作记录
飞机零部件损耗数据
飞机各零部件成本
飞行器维护保障数据
根据数据的结构化程度可分为结构性数据如每架直升机的历史数据和现今数据,非结构性数据包括飞行日志和机务人员错误日志记录
数据颗粒度:
日、月、季、年
总之,从所有数据源收集信息,并通过Clementine进行数据清理及数据审核,分析缺失值并填补之,形成可供建模的清洁完整数据。
数据审核及缺失值填补界面数据的标准化及转换界面
数据建模
关联规则:
飞行员的驾驶操作方法(包括正确操作方法和错误操作方法)与飞机零部件损耗之间的关系,飞行员日志与零部件损耗之间的关系,机务人员日志与零部件损耗之间的关系。
如什么样的驾驶操作方法会使零部件损耗特别快,什么样的驾驶操作方法可降低零部件的损耗。
对这些关系的深入理Sikorsky公司可预先采取行动措施降低飞机的直接维护成本
时间序列分析:
飞机各种零部件使用的生命周期,根据时间序列的分析,发现飞机各种零部件该更换的信息,及时更换零部件,保障飞行安全
异常监测:
对零部件及机务人员的异常情况进行侦测,发出预警信息,提高飞行的安全性
回归分析:
通过回归建模包括logistic回归和多元回归,拟合飞机成本消耗的模型,包括各个组成成本的消耗及影响因素,降低成本。
同时也可对库存管理进行拟合,探讨影响库存的各个因素,降低库存成本。
聚类与分类:
零部件运营状态细分,飞机维护保障状态细分等。
时间序列分析图和关联规则分析图
模型评估及发布:
结合飞机业务知识及商业知识,使用SPSS企业级预测平台PES进行模型评估及发布。
评估模型:
使用累积图或准确性;多个模型使用竞争方式评估;自动报表发布
结果部署
实施效果及结果反馈:
通过SPSS预测性分析软件和解决方案,Sikorsky飞机预先性地保障了客户飞机的安全,降低了零部件的损耗,合理地控制了成本,提高了飞机的可利用性,提高了客户的满意度和忠诚度,达到了可观的社会效益和经济效益。
马克威分析系统(单机版V5.0)
一、综述:
上海天律信息技术有限公司产品品牌,旗下产品包括马克威分析系统单机版、网络版,马克威决策支持平台。
马克威分析系统单机版V5.0是一套集分析、挖掘、预测、决策支持及展现于一体的知识发现工具,通过构建工作流方式对海量数据进行分析和挖掘,建立概念模型,从海量信息和数据中寻找规律和知识,并通过新颖、独特的展现方式为决策者提供科学有效的数据参考。
它适用于企业、政府、科研教育、军队等单位和机构。
马克威分析系统是中国信息化过程中不可缺少的工具。
马克威分析系统5.0(单机版)是马克威分析系统系列产品中全新的一代企业级统计分析和数据挖掘产品,也是全球第一套准三维操作环境的统计分析和数据挖掘软件产品。
它融合了先进的软件开发技术和强大的算法库,能使用户更为轻松、高效、准确地对数据进行处理和分析。
二、特点:
全球第一套准三维操作环境的统计分析和数据挖掘软件产品完全基于工作流的软件应用高度图形化的操作方式,无需任何编程基础高性能运行,支持海量数据和多种数据源,突破传统Java速度限制个性化动态报表和新颖的展示可重复性使用的分析流程,图形化的批量处理模式跨平台运行支持多国语言
1.全球第一套以工作流模式在准三维操作环境下运作的统计分析和数据挖掘系统产品
2.完全基于工作流的软件应用
3.高度图形化的操作方式,无需任何编程基础
4.高性能运行,支持海量数据和多种数据源,突破传统Java速度限制
5.个性化动态报表和新颖的展示
6.可重复性使用的分析流程,图形化的批量处理模式
7.跨平台运行8、支持多国语言
三、功能特点:
企业指标分析、定制和管理模型构建和管理体系预警预测数据分析和挖掘平台经营管控、绩效分析、管理驾驶舱平台展现平台(包括定制报表、报表展现,图表及OLAP展现等)系统权限管理企业数据仓库建设和管理
四、案例:
上海市外贸出口时间序列分析
外贸出口是上海市经济发展的一个很重要的方面,尤其是近年来江浙一带
出口加工贸易的蓬勃发展,使得上海市外贸出口呈现出快速变化的特点,为了分析上海市外贸出口额的变化规律,并进行预测,可以选用马克威分析系统的时间序列分析模块,进行建模和预测。
使用马克威分析系统进行建模的步骤为:
1.模型识别:
描绘数据图形,对数据进行变换、检验平稳性。
2.计算基本序列的自相关关系,以决定是否要进行差分。
3.利用自相关和偏相关系数进行数据的调整和模型的定阶。
4.使用时间序列算法(ARIMA等)估计模型参数和相关统计量。
5.对模型进行检验。
6.利用模型进行预测。
使用时间序列模型对上海市外贸出口额进行预测的效果为:
GDM(博通数据挖掘分析系统)
一、简述:
GDM,是天才博通科技有限公司自主研发的一款基于B/S架构的、分布式数据挖掘系统,采用了较之“数据挖掘交叉行业标准过程”CRISP-DM(Cross-IndustryStandardProcessforDataMining)更为科学的分析流程,并提供了易用的图形化用户界面和强大的图形可视化技术。
GDM使分析人员能够快速构建各类数据挖掘模型,并以WebService形式进行发布,方便其它企业级应用系统中快速调用模型,并进行灵活封装。
该系统目前最新版本GDM4.2包含21种经典的数据挖掘方法、14种统计分析方法。
二、特点:
(1)B/S架构——便捷、高效、低成本、高集成性
(2)闭环分析流程——降低分析流程各角色的协调成本,缩短模型部署周期,强化模型的自学习能力,确保模型的可持续性使用
(3)完善的分析方法——包含特征压缩、分类预测、回归预测、聚类分析、关联分析、时间序列6大类20多种数据挖掘算法,及相关分析、谱系聚类等6种实用的统计分析方法
(4)较高的预测准确率——预测性算法预测准确率大多高于传统数据挖掘产品的同类算法
(5)强大的数据承载能力——目前客户已测试通过千万级数据建模;通过充分利用客户硬件资源,理论上数据承载能力无上限
(6)任务式建模——支持定时调度策略,方便资源合理、有效利用
(7)并行及分布式架构——有效利用硬件资源,加快建模速度
(8)灵活的打分机制——除了提供批量打分机制,还通过WebService实时打分,为用户提供同使用业务系统一样的用户体验,降低数据挖掘技术使用壁垒
(9)模型任务可视化监管——方便管理员合理分配各计算节点资源,调整任务执行顺序
三、优势:
为解决传统数据挖掘产品面临的问题,GDM除了吸收传统数据挖掘产品的优势之外,采用了如下策略对产品进行设计,以弥补传统产品的缺陷:
(1)易用性
(2)闭环分析流程(3)数据承载能力(4)执行效率(5)数据安全(6)快速发布
四、案例:
电力负荷预测案例:
欧洲电力负荷大赛
为了考察系统对电力负荷预测的精度,我们采用了2001年欧洲电力负荷大赛的数据。
2001年欧洲电力负荷大赛是
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 种数 挖掘 工具 分析 比较