数据挖掘概念与核心技术.docx
- 文档编号:25136363
- 上传时间:2023-06-05
- 格式:DOCX
- 页数:12
- 大小:21.71KB
数据挖掘概念与核心技术.docx
《数据挖掘概念与核心技术.docx》由会员分享,可在线阅读,更多相关《数据挖掘概念与核心技术.docx(12页珍藏版)》请在冰豆网上搜索。
数据挖掘概念与核心技术
数据挖掘概念与技术
一.什么是数据挖掘,数据挖掘知识体系及应用范畴
1.定义:
又称数据中知识发现,从大量数据中挖掘有趣模式和知识过程。
知识发现过程:
1).数据清理:
除噪声和删除不一致数据
2).数据集成:
各种数据源组合
3).数据选取:
取和分析与任务有关数据
4).数据变换:
数据变换和统一成适合挖掘形式
5).数据挖掘:
使用智能办法提取数据格式
6).模式评估:
辨认代表知识有趣模式
7).知识表达:
使用可视化和知识表达技术,向顾客提供挖掘知识
2.为什么要进行数据挖掘
将来将是大数据时代,IDC(国际数据公司)研究报告指出全球信息资料量为2.8ZB(240次方GB),而在预测会达到40ZB,平均每人拥有5247GB数据。
庞大数据量背后隐藏着巨大潜在价值,人们手握巨量数据却没有较好手段去充分挖掘其中价值,因而对数据挖掘研究可以协助咱们将数据转化成知识。
3.数据挖掘知识体系
数据挖掘作为一种应用驱动领域,吸纳了许多应用领域技术,涉及:
记录学、机器学习、模式辨认、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。
数据挖掘任务分类:
描述性任务:
刻画目的数据普通性质
预测性任务:
归纳及做出预测
数据挖掘功能:
1).数据特性化与数据区别
2).频繁模式
3).关联和有关性挖掘
4).分类和回归
5).聚类分析
6).离群点分析
4.数据挖掘应用领域
1.金融数据分析
2.零售与电信业:
例如分析零售数据有助于做出对的决策;产品推荐;顾客保有及促销方略
3.科学与工程数据挖掘
4.网络数据挖掘:
社交网络顾客行为分析,多媒体、文本和web数据分析
5.信息检索:
搜索引擎、云计算、数据仓库
二.结识数据
1.属性总结:
标称属性:
某些符号和事物名称,如头发颜色和学历是描述人属性。
二元属性:
只有0、1两种状态
序数属性:
也许值具备故意义序,如教师职称
数值属性:
定量,用实数值表达
2.度量数据相似性和相异性(即数据邻近性)
非对称二元属性:
Jaccard属性
数值属性:
欧几里得距离、曼哈顿距离、闵可夫斯基距离、上确界距离
相似性评估:
余弦相似性(用于比较文档)、Tanimoto系数
3.数据预解决
1).数据清理:
弥补缺失值、光滑噪声、辨认离群点、纠正数据不一致性,普通是一种两步迭代过程,涉及偏差检测盒数据变换
解决缺失值:
有忽视元组、人工填写、全局常量填充、
均值或中位数填充、同类均值或中位数填充、最也许值填充六种办法。
噪声数据解决:
分箱(考察近邻数据值,有箱均值、箱中位数、箱边界光滑办法)
回归、离群点分析
2).数据集成:
将来自各种数据源数据整合成一致数据存储
实体辨认问题:
模式集成和对象匹配。
如在一种系统中discount用于订单,而在另一种系统中用于商品,集成不对的导致商品不对的打折
冗余和有关分析:
冗余指一种属性能由另一种或另一组属性导出,则这个属性是冗余,可用有关分析检测到。
标称数据使用卡方检查,数值属性用有关系数和协方差
3).数据规约:
简化数据集表达,涉及维规约和数值规约
维规约:
数据压缩技术(如小波变换和主成分分析),属性子集选取,属性构造
数值规约:
参数模型(如回归),非参数模型(聚类、抽样、直方图)
4).数据变换:
将数据变换成适于挖掘形式
变换方略涉及:
光滑,属性构造,汇集,规范化,离散化,由标称数据产生概念分层。
三.数据仓库与数据立方体技术
1.数据仓库基本概念:
1).数据仓库定义:
一种面向主题、集成、时变、非易失数据集合,支持管理者决策过程。
2).数据库与数据仓库区别:
重要区别在于数据库是面向事务操作解决,而数据仓库是面向分析信息解决。
数据库顾客为数据库专业人员、解决寻常操作,而数据仓库为主管和分析人员,为决策提供支持。
3).数据仓库体系架构:
底层数据,中间层OLAP服务器,顶层前端工具
4).数据仓库模型:
公司仓库:
提供公司范畴内数据集成,公司范畴
数据集市:
包括公司范畴数据一种子集,对特定顾客群,咸鱼选定主题,部门范畴。
虚拟仓库:
操作数据库上视图集合
2.数据仓库建模
数据立方体:
容许以多维数据建模和观测,由维(属性)和事实(数值)定义
方体:
给定诸维每个也许自己产生一种方体,成果形成方体格,方体格称作数据立方体。
多维模型:
星形模式:
涉及一种大中心表(事实表)、一组小附属表(维表),维表环绕中心表
雪花模式:
是星形表变种,某些维表被规范化费解到附加表中,用于数据集市
事实星座:
各种事实表分享维表,用于复杂应用,惯用于公司数据仓库
3.典型OLAP操作:
上卷:
沿一种维概念分层向上攀升或通过维规约进行汇集,如由city上卷到country
下钻:
沿维概念分层向下或引入附加维来实现,如由季度数据到更详细月数据
切片:
在立方体一种维上进行选取,定义一种子立方体,如选取季度一数据
切块:
在立方体两个或各种维上进行选取,定义子立方体,如选取季度为一和商品类型为计算机数据
转轴:
转动数据视角,或将3D立方变换成2D平面序列
物化:
完全物化(完全立方体):
计算定义数据立方体格中所有方体,需要过多存储空间,导致维劫难某些物化:
选取性计算子立方体
冰山立方体:
一种数据立方体,只存储其汇集值不不大于某个最小支持度阈值立方体单元。
立方体外壳:
只预测算涉及少数维方体,这些方体形成相应数据立方体。
4.数据立方体计算办法:
1).多路数组聚焦:
基本思想:
使用多维数组作为基本数据构造,使用数组直接寻址,其中维值通过位置或相应数组位置下标访问。
也许产生稀疏数组构造,可以采用chunkID+offset作为单元寻址机制来压缩数组。
长处:
比老式基于关系记录计算办法快
缺陷:
由于维数增长,计算方体数指数增长,因而该办法仅对具备较少维立方体有效;
不能计算冰山立方体,由于该办法从基本方体开始计算,逐渐向上泛化,因而不能运用先验剪枝,导致即时单元不满足冰山条件指定最小支持度,也无法剪掉。
2). BUC:
基本思想:
以相反顺序观测方体格,顶点方体在底部,而基本方体在顶部,因而事实上市自底向上,BUC可以分担数据划分开销,在构造立方体是可以使用先验性质进行剪枝。
长处:
可以计算冰山立方体,可以分担数据划分开销
缺陷:
易受维顺序和倾斜数据影响。
抱负地,应当先解决最有区别能力为,维应当以基数递减序解决。
3).Star-Cubing:
基本思想:
运用自底向上和自顶向下模式计算模式。
在全局计算顺序上,使用自底向上,而它下面有一种基于自顶向下模式子层,运用共享维概念。
这种集成容许算法在各种维上汇集,而依然划分父母分组并剪裁不满足冰山条件子女分组。
如果共享维上汇集值不满足冰山条件,则沿共享维向下所有单元也不满足冰山条件,这样单元和它们所有后裔都可以剪枝。
长处:
计算完全立方体,速度比BUC快,可以与MultiWay相媲美;计算冰山立方体速度比BUC快。
4).外壳片段立方体:
冰山立方体计算和存储开销虽然比完全立方体小,但是依然很高,一种也许解决方案是计算一种很薄立方体外壳,但是这种立方体外壳不支持高维OLAP,它不支持在4维或更多维上OLAP,并且它甚至不支持沿3个维下钻,因而取代计算立方体外壳可以只计算它一某些或片段。
外壳片段立方体基本思想:
给定一种高维数据集,把维划提成互不相交维片段,把每个片段转换成倒排索引表达,构造立方体外壳片段,使用预测算立方体外壳片段,计算所需要数据立方体方体单元,这可以通过倒排索引上集合交操作完毕。
四.挖掘频繁模式、关联和有关性
1.基本概念
1).一种典型例子:
购物篮分析
顾客也许会在一次购物同步购买哪些商品?
分析成果可以用于营销筹划和商店布局。
2).规则兴趣度度量:
支持度和置信度
支持度:
两种商品同步被购买占事务总数比例,反映发现该规则有用性
置信度:
购买一种商品顾客中同步购买另一种商品顾客所占比例,反映规则拟定性。
项集:
项集合,如集合{computer,antivirus_software}是一种2项集
支持度计数:
项集事务数
频繁项集:
相对支持度满足最小支持度阈值项集
闭频繁项集:
项集X在数据集D中是闭,如果不存在真超项集Y使得Y与X在D中具备相似支持度计数,如果X在D中是闭和频繁,则X是数据集闭频繁项集。
极大频繁项集:
X是频繁,并且不存在超项集Y使得Y在D中是频繁。
关联规则挖掘包括两步:
(1).找出所有频繁项集
(2).由频繁项集产生强关联规则(同步满足最小支持度阈值和最小置信度阈值规则)
2.频繁项集挖掘办法
可以分为三类:
类Apriori算法,基于频繁模式增长算法(如FP-growth算法),使用垂直数据格式算法
1).Apriori算法(数据挖掘十大典型算法)
频繁项集先验性质:
频繁项集所有非空子集也一定是频繁。
基本思想:
使用逐级搜索迭代办法,其中k项集用于摸索(k+1)项集,使用先验性质压缩搜索空间。
如何使用L(k-1)找到L(k):
通过连接步和剪枝步完毕。
连接步通过将L(k-1)与自身连接产生候选k项集集合。
剪枝步从候选k项集拟定L(k)。
提高Apriori算法效率:
基于散列技术:
将事务产生k项集散列到散列表不同桶中,并增长相应桶计数,相应桶计数不大于支持度阈值不也许是频繁,可以从候选集中删除。
这一技术可以明显地压缩需要考察k项集
事务压缩:
不包括任何频繁k项集事务不也许包括任何频繁(k+1)项集,因而在其后考虑时,可以加上标记或删除。
划分:
分两个阶段,阶段一把D划提成n个分区,找出每个分区局部频繁项集,组合所有局部频繁项集形成候选项集;阶段二评估每个候选实际支持度,找出候选项集中全局频繁项集。
整个过程只需要两次数据库扫描。
抽样:
基本思想是选用数据库D随机样本S,然后再S中搜索频繁项集。
这种办法牺牲了某些精度换取了有效性,也许会丢失某些全局频繁项集
动态项集计数:
基本思想是奖数据库划分为用开始点标记块。
不像Apriori算法仅在每次完整数据库扫描前拟定新候选,这种变形中,可以再任何开始点添加新候选集。
该变形需要数据库扫描笔Apriori算法少。
Apriori算法优缺陷
长处:
明显压缩了候选项集规模,产生较好性能
缺陷:
仍需要产生大量候选项集,需要重复扫描整个数据库
2).频繁模式增长(FP-growth)
目的:
挖掘所有频繁项集而无需代价昂贵候选产生过程
基本思想:
采用分治方略,一方面将频繁项集数据库压缩到一棵频繁模式树(FP树),该树仍保存项集关联信息。
然后把压缩后数据库划提成一组条件数据库,每个数据库关联一种频繁项或模式段,并分别挖掘每个条件数据库。
随着被考察模式增长,这种办法明显地压缩被搜索数据集大小。
概括起来可分为构造FP树和挖掘FP树两个环节。
当数据库很大时,构造FP数也许太大而不能放进主存,可以递归地将数据库划提成投影数据库集合。
FP-growth办法对于挖掘长频繁模式和短频繁模式,都是有效和可伸缩,并且大概比Apriori算法快一种数量级。
3).使用垂直数据格式挖掘频繁项集
Apriori算法和FP-growth算法都是使用水平数据格式,即{TID:
itemset},其中TID为事务标记符,itemset是TID中购买商品。
垂直数据格式:
{item:
TID}
基本思想:
通过扫描一次数据库,把水平格式数据转换成垂直格式,依照先验性质,使用频繁k项集来构造候选k+1项集,通过去频繁k项集TID集交,计算相应k+1项集TID集,重复该过程,懂得不能找到频繁项集或候选项集。
长处:
运用先验性质,不需要扫描数据库来拟定k+1项集支持度。
缺陷:
TID集也许很长,需要大量内存,长集合交运算还需要大量计算时间。
3.模式评估
并非所有强关联规则都是有趣,例如项集计算机游戏和录像也许满足强关联规则,但是它们是负有关。
提高度:
一种有关性度量,成果值不不大于1是正有关,为1表达独立,不大于1表达负有关。
有关性度量尚有最大置信度和余弦。
五.挖掘频繁模式、关联和有关性
1.高档模式形式:
多层关联、多维关联、量化关联规则、稀有模式、负模式
2.基于约束挖掘:
模式剪枝约束、数据剪枝约束
模式搜索空间剪枝:
检查候选模式,使用先验性质,剪掉一种模式,如果它超模式都不也许产生。
数据搜索空间剪枝:
检查数据集,判断特定数据片段与否对其后可满足模式产生有贡献。
模式剪枝约束分为五类:
反单调:
如果一种项集不满足规则约束,则它任何超集不也许满足该约束
单调:
如果一种项集满足这个规则约束,则它所有超集也满足。
简洁:
可以枚举并且仅枚举可以保证该约束所有集合,该类约束不必迭代检查
可转变:
不属于以上三类,但该约束在项集一特定顺序排列时也许成为单调或反单调。
不可转变:
大某些都属于以上四类。
3.挖掘高维数据和巨型模式:
涉及运用垂直数据格式扩充模式增长办法和模式融合办法。
垂直数据格式模式增长:
将具备较少行但具备大量维数据集变换成具备大量航少量维数据集。
模式融合:
基本思想:
融合少量较短频繁模式,形成巨型模式候选。
一方面,她以有限宽度遍历树,只使用有限大小候选池中模式作为模式树向下搜索开始结点,避免了指数搜索空间问题。
它产生巨型模式近似解,可以找出大某些巨型模式。
环节:
1.池初始化:
一种短长度(长度不超过3)频繁模式完全集。
2.迭代模式融合:
从当前池中随机选用k个种子,对每个种子找出直径为T球内所有模式,将这些球融合成超模式集。
由于每个超模式支集随迭代而收缩,因而迭代过程终结。
模式融合合并打魔石小子模式,而不是用单个项增量地扩展模式。
4.挖掘压缩或近似模式:
1.基于聚类压缩:
采用一种好相似性度量,把相似对象聚合到一种簇中,代表模式从每个簇中选用,从而提供频繁模式集一种压缩版本。
模式距离:
闭模式之间距离度量。
包括模式支持度信息。
感知冗余top-k模式:
具备低冗余k个代表模式小集合。
一种减少挖掘返回模式数量方略。
5.模式挖掘应用:
1).作为预解决,用于噪声过滤盒数据清理
2).发现隐藏在数据中固有构造和簇
3).基于模式分类
4).高维空间中子空间有效聚类
5).对时间空间、序列、图像、视频数据进行分析
6).序列与构造数据分析,如图、树、子序列和网络分析
7).作为基本索引构造
8).推荐系统
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 核心技术