最新北京工业大学数据挖掘.docx
- 文档编号:27588772
- 上传时间:2023-07-03
- 格式:DOCX
- 页数:14
- 大小:1.05MB
最新北京工业大学数据挖掘.docx
《最新北京工业大学数据挖掘.docx》由会员分享,可在线阅读,更多相关《最新北京工业大学数据挖掘.docx(14页珍藏版)》请在冰豆网上搜索。
最新北京工业大学数据挖掘
数据挖掘老师范围最简知识点
第一章
数据仓库:
是一个面向主题的,集成的,时变的,非易失的的数据集合
数据挖掘:
就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘分析方法:
分类、估值、预言、相关性分组或关联规则、聚集、描述和可视化
数据挖掘的过程:
第二章
数据属性:
是一个数据字段,表示数据对象的一个特征
属性类别:
标称的二元的序数的数值的
数据的中心趋势度量方法:
均值、中位数、众数
数据相似性和异度量方法:
欧式距离:
它是在m维空间中两个点之间的真实距离
曼哈顿距离:
切比雪夫距离:
例子
上下为一题
闵可夫斯基距离:
第三章
数据预处理:
是指在主要的处理以前对数据进行的一些处理。
比如缺项,噪声(工资=-100),不匹配(年龄和出生日期不匹配),冗余等等。
原因:
●不完备:
丢失属性,缺少某个感兴趣的属性,或仅含累计值。
●噪声:
包含错误点和离群点
●不一致:
存在代码或者名称的分歧
数据预处理中的主要任务:
数据清理、数据集成、数据归纳、数据变换
处理缺失值数据的方法:
●忽略:
删除带有缺失值的属性或者案例、适用于错误率低的数据
●手工填充缺失值
●自动填充缺失值(根据推理得到)
离群点分析的方法:
通过如聚类来检测离群点
聚类将类似的值组织成群或“簇”,落在簇集合之外的值被视为离群点
如何对数据进行分箱:
分箱方法通过考察数据的“临近”来光滑有序数据值
●箱均值光滑
●箱中位数光滑
●箱边界光滑。
第四章
数据仓库与OLAP技术
数据仓库概念:
数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程
数据仓库特点:
面向主题的、集成的、随时间而变化的(反映历史变化)、不容易丢失(相对稳定)
数据仓库的组成:
●数据库
●数据抽取工具(ETL)
●元数据
●访问工具
●数据集市
●数据仓库管理工具
●信息发布系统
数据仓库的体系结构:
三层数据仓库模型
联系分析处理OLAP:
概念:
即联机分析处理,是数据仓库的核心部心,所谓数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库,用于处理商业智能、决策支持等重要的决策信息
OLAP特点:
●快速性:
快速反应能力
●可分析性:
OLAP系统应能处理与应用有关的任何逻辑分析和统计分析
●多维性:
系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。
●信息性:
不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。
第五章
关联规则基本概念
频繁模式:
是频繁地出现在数据集中的模式(如项集、子序列或子结构)
频繁集项:
根据特征提取器得到的特征向量给一个被测对象附一个类别标记。
支持度(support)
支持度:
{X,Y}同时出现的概率,例如:
{尿布,啤酒}同时出现的概率
{尿布,啤酒}的支持度=800/10000=0.08
{尿布,面包}的支持度=100/10000=0.01
**{尿布,啤酒}的支持度等于{啤酒,尿布}的支持度,支持度没有先后顺序之分
置信度(confidence)
置信度:
购买X的人,同时购买Y的概率,例如:
购买尿布的人,同时购买啤酒的概率,而这个概率就是购买尿布时购买啤酒的置信度
(尿布->啤酒)的置信度=800/1000=0.8
(啤酒->尿布)的置信度=800/2000=0.4
支持度与置信度
规则的支持度和置信度是两个规则兴趣度度量,它们分别反映发现规则的有用性和确定性
Apriori算法:
原理:
Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)-项集。
首先,找出频繁1-项集的集合。
该集合记作L1。
L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。
找每个Lk需要一次数据库扫描。
步骤简化:
1.连接
2.剪枝
3.验证
4.回到1,直到没有频繁集生成
FP-tree算法:
原理:
FPTree算法改进了Apriori算法的I/O瓶颈,巧妙的利用了树结构来提高算法运行速度。
利用内存数据结构以空间换时间。
步骤:
5.扫描数据,得到所有频繁一项集的的计数。
然后删除支持度低于阈值的项,将1项频繁集放入项头表,并按照支持度降序排列。
6.扫描数据,将读到的原始数据剔除非频繁1项集,并按照支持度降序排列。
7.读入排序后的数据集,插入FP树,插入时按照排序后的顺序,插入FP树中,排序靠前的节点是祖先节点,而靠后的是子孙节点。
如果有共用的祖先,则对应的公用祖先节点计数加1。
插入后,如果有新节点出现,则项头表对应的节点会通过节点链表链接上新节点。
直到所有的数据都插入到FP树后,FP树的建立完成。
8.从项头表的底部项依次向上找到项头表项对应的条件模式基。
从条件模式基递归挖掘得到项头表项项的频繁项集。
9.如果不限制频繁项集的项数,则返回步骤4所有的频繁项集,否则只返回满足项数要求的频繁项集。
第六章
分类概念:
根据特征提取器得到的特征向量给一个被测对象赋一个类别标记。
基本任务:
分类的基本任务就是根据给定的一系列属性集,最后去判别它属于的类型
常见的分类方法:
●决策树分类
●贝叶斯分类
●最近邻分类
●支持向量机(SVM)
●多层感知机与人工神经网络(NN)
●组合多分类器(ensemble)
决策树:
决策树又称为判定树,是运用于分类的一种树结构,其中的每个内部节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。
决策树的决策过程需要从决策树的根节点开始,待测数据与决策树中的特征节点进行比较,并按照比较结果选择选择下一比较分支,直到叶子节点作为最终的决策结果。
BP神经网络:
网络结构:
特点:
层间无反馈、有监督学习
步骤:
10.工作信号正向传递子过程
11.误差信号反向传递子过程
主要思想:
在外界输入样本的刺激下不断改变网络的连接权值,以使网络的输出不断地接近期望的输出。
两环节组成:
信息的正向传递与误差的反向传播
SVM:
一条非常完美的直线~*******(其他一律看不懂)*******
朴素贝叶斯:
朴素贝叶斯是一种基于概率理论的分类算法。
原理基于贝叶斯公式
朴素贝叶斯详解
第七章:
聚类分析的概念:
聚类分析(ClusterAnalysis)是根据给定的一组对象的描述信息,按照相似程度划分为多个簇(Cluster)的过程。
聚类的任务
●发现内部结构:
作为一个独立的工具来获得数据集中数据的分布情况;
●数据压缩:
作为其他数据挖掘算法的预处理步骤。
●作为一个独立的工具来获得数据集中数据的分布情况;
首先,对数据集执行聚类,获得所有簇;
然后,根据每个簇中样本的数目获得数据集中每类数据的大体分布情况。
●作为其他数据挖掘算法的预处理步骤。
首先,对数据进行聚类——粗分类;
然后,分别对每个簇进行特征提取和细分类,可以有效提高分类精度。
聚类与分类的区别
●分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。
●聚类是一种无指导学习。
也就是说,聚类是在预先不知道欲划分类(无标识)的情况下,根据信息相似度原则进行信息聚类的一种方法。
聚类常见聚类算法及原理:
(二)大学生对DIY手工艺品消费态度分析K-means(k均值算法):
1、购买“女性化”算法思路:
事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定初始点为质心,并通过计算每一个样本与质心之间的相似度(这里为欧式距离),将样本点归到最相似的类中,接着,重新计算每个类的质心(即为类中心),重复这样的过程,知道质心不再改变,最终就确定了每个样本所属的类别以及每个类的质心。
中式饰品风格的饰品绝对不拒绝采用金属,而且珠子的种类也更加多样。
五光十色的水晶珠、仿古雅致的嵌丝珐琅珠、充满贵族气息的景泰蓝珠、粗糙前卫的金属字母珠片的材质也多种多样。
K-means
1、随机选取K个质心的值
合计50100%2、计算各个点到质心的距离
培养动手能力□学一门手艺□打发时间□兴趣爱好□3、将点的类划分为离他最近的质心,形成K个cluster
4、根据分类好的cluster,在每个cluster内重新计算质心(平均每个点的值)
6、你购买DIY手工艺制品的目的有那些?
5、重复迭代2-4步直到满足迭代次数或误差小于指定的值
但这些困难并非能够否定我们创业项目的可行性。
盖茨是由一个普通退学学生变成了世界首富,李嘉诚是由一个穷人变成了华人富豪第一人,他们的成功表述一个简单的道理:
如果你有能力,你可以从身无分文变成超级富豪;如果你无能,你也可以从超级富豪变成穷光蛋。
K-medoids
1、随机选取K个质心的值(质心必须是某些样本点的值,而不是任意值)
我们从小学、中学到大学,学的知识总是限制在一定范围内,缺乏在商业统计、会计,理财税收等方面的知识;也无法把自己的创意准确而清晰地表达出来,缺少个性化的信息传递。
对目标市场和竞争对手情况缺乏了解,分析时采用的数据经不起推敲,没有说服力等。
这些都反映出我们大学生创业知识的缺乏;2、计算各个点到质心的距离
据统计,上海国民经济持续快速增长。
03全年就实现国内生产总值(GDP)6250.81亿元,按可比价格计算,比上年增长11.8%。
第三产业的增速受非典影响而有所减缓,全年实现增加值3027.11亿元,增长8%,增幅比上年下降2个百分点。
3、将点的类划分为离他最近的质心,形成K个cluster
4、根据分类好的cluster,在每个cluster内重新计算质心:
400-500元1326%4.1计算cluster内所有样本点到其中一个样本点的曼哈顿距离和(绝对误差)
4.2选出使cluster绝对误差最小的样本点作为质心
5、重复迭代2-4步直到满足迭代次数或误差小于指定的值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 北京工业大学 数据 挖掘