书签分享收藏举报版权申诉 / 14

立即下载加入VIP,免费下载

当前位置：首页 > 工程科技 > 纺织轻工业 > 最新北京工业大学数据挖掘.docx

最新北京工业大学数据挖掘.docx

文档编号：27588772
上传时间：2023-07-03
格式：DOCX
页数：14
大小：1.05MB

最新北京工业大学数据挖掘.docx

《最新北京工业大学数据挖掘.docx》由会员分享，可在线阅读，更多相关《最新北京工业大学数据挖掘.docx（14页珍藏版）》请在冰豆网上搜索。

最新北京工业大学数据挖掘.docx

最新北京工业大学数据挖掘

数据挖掘老师范围最简知识点

第一章

数据仓库：

是一个面向主题的,集成的,时变的,非易失的的数据集合

数据挖掘：

就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘分析方法：

分类、估值、预言、相关性分组或关联规则、聚集、描述和可视化

数据挖掘的过程：

第二章

数据属性：

是一个数据字段，表示数据对象的一个特征

属性类别：

标称的二元的序数的数值的

数据的中心趋势度量方法：

均值、中位数、众数

数据相似性和异度量方法：

欧式距离：

它是在m维空间中两个点之间的真实距离

曼哈顿距离:

切比雪夫距离:

例子

上下为一题

闵可夫斯基距离：

第三章

数据预处理：

是指在主要的处理以前对数据进行的一些处理。

比如缺项，噪声（工资=-100），不匹配（年龄和出生日期不匹配），冗余等等。

原因：

●不完备：

丢失属性，缺少某个感兴趣的属性，或仅含累计值。

●噪声：

包含错误点和离群点

●不一致：

存在代码或者名称的分歧

数据预处理中的主要任务：

数据清理、数据集成、数据归纳、数据变换

处理缺失值数据的方法：

●忽略：

删除带有缺失值的属性或者案例、适用于错误率低的数据

●手工填充缺失值

●自动填充缺失值（根据推理得到）

离群点分析的方法：

通过如聚类来检测离群点

聚类将类似的值组织成群或“簇”，落在簇集合之外的值被视为离群点

如何对数据进行分箱：

分箱方法通过考察数据的“临近”来光滑有序数据值

●箱均值光滑

●箱中位数光滑

●箱边界光滑。

第四章

数据仓库与OLAP技术

数据仓库概念：

数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合，支持管理部门的决策过程

数据仓库特点：

面向主题的、集成的、随时间而变化的（反映历史变化）、不容易丢失（相对稳定）

数据仓库的组成：

●数据库

●数据抽取工具（ETL）

●元数据

●访问工具

●数据集市

●数据仓库管理工具

●信息发布系统

数据仓库的体系结构：

三层数据仓库模型

联系分析处理OLAP：

概念：

即联机分析处理，是数据仓库的核心部心，所谓数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库，用于处理商业智能、决策支持等重要的决策信息

OLAP特点：

●快速性：

快速反应能力

●可分析性：

OLAP系统应能处理与应用有关的任何逻辑分析和统计分析

●多维性：

系统必须提供对数据分析的多维视图和分析，包括对层次维和多重层次维的完全支持。

●信息性：

不论数据量有多大，也不管数据存储在何处，OLAP系统应能及时获得信息，并且管理大容量信息。

第五章

关联规则基本概念

频繁模式：

是频繁地出现在数据集中的模式（如项集、子序列或子结构）

频繁集项：

根据特征提取器得到的特征向量给一个被测对象附一个类别标记。

支持度（support）

支持度：

{X,Y}同时出现的概率，例如：

{尿布，啤酒}同时出现的概率

{尿布，啤酒}的支持度=800/10000=0.08

{尿布，面包}的支持度=100/10000=0.01

**{尿布，啤酒}的支持度等于{啤酒，尿布}的支持度，支持度没有先后顺序之分

置信度（confidence）

置信度：

购买X的人，同时购买Y的概率，例如：

购买尿布的人，同时购买啤酒的概率，而这个概率就是购买尿布时购买啤酒的置信度

（尿布->啤酒）的置信度=800/1000=0.8

（啤酒->尿布）的置信度=800/2000=0.4

支持度与置信度

规则的支持度和置信度是两个规则兴趣度度量，它们分别反映发现规则的有用性和确定性

Apriori算法：

原理：

Apriori使用一种称作逐层搜索的迭代方法，k-项集用于探索（k+1）-项集。

首先，找出频繁1-项集的集合。

该集合记作L1。

L1用于找频繁2-项集的集合L2，而L2用于找L3，如此下去，直到不能找到频繁k-项集。

找每个Lk需要一次数据库扫描。

步骤简化：

1.连接

2.剪枝

3.验证

4.回到1，直到没有频繁集生成

FP-tree算法：

原理：

FPTree算法改进了Apriori算法的I/O瓶颈，巧妙的利用了树结构来提高算法运行速度。

利用内存数据结构以空间换时间。

步骤：

5.扫描数据，得到所有频繁一项集的的计数。

然后删除支持度低于阈值的项，将1项频繁集放入项头表，并按照支持度降序排列。

6.扫描数据，将读到的原始数据剔除非频繁1项集，并按照支持度降序排列。

7.读入排序后的数据集，插入FP树，插入时按照排序后的顺序，插入FP树中，排序靠前的节点是祖先节点，而靠后的是子孙节点。

如果有共用的祖先，则对应的公用祖先节点计数加1。

插入后，如果有新节点出现，则项头表对应的节点会通过节点链表链接上新节点。

直到所有的数据都插入到FP树后，FP树的建立完成。

8.从项头表的底部项依次向上找到项头表项对应的条件模式基。

从条件模式基递归挖掘得到项头表项项的频繁项集。

9.如果不限制频繁项集的项数，则返回步骤4所有的频繁项集，否则只返回满足项数要求的频繁项集。

第六章

分类概念：

根据特征提取器得到的特征向量给一个被测对象赋一个类别标记。

基本任务：

分类的基本任务就是根据给定的一系列属性集，最后去判别它属于的类型

常见的分类方法：

●决策树分类

●贝叶斯分类

●最近邻分类

●支持向量机（SVM）

●多层感知机与人工神经网络（NN）

●组合多分类器（ensemble）

决策树：

决策树又称为判定树，是运用于分类的一种树结构，其中的每个内部节点代表对某一属性的一次测试，每条边代表一个测试结果，叶节点代表某个类或类的分布。

决策树的决策过程需要从决策树的根节点开始，待测数据与决策树中的特征节点进行比较，并按照比较结果选择选择下一比较分支，直到叶子节点作为最终的决策结果。

BP神经网络：

网络结构：

特点：

层间无反馈、有监督学习

步骤：

10.工作信号正向传递子过程

11.误差信号反向传递子过程

主要思想：

在外界输入样本的刺激下不断改变网络的连接权值,以使网络的输出不断地接近期望的输出。

两环节组成:

信息的正向传递与误差的反向传播

SVM：

一条非常完美的直线~*******（其他一律看不懂）*******

朴素贝叶斯：

朴素贝叶斯是一种基于概率理论的分类算法。

原理基于贝叶斯公式

朴素贝叶斯详解

第七章：

聚类分析的概念：

聚类分析（ClusterAnalysis）是根据给定的一组对象的描述信息，按照相似程度划分为多个簇（Cluster）的过程。

聚类的任务

●发现内部结构：

作为一个独立的工具来获得数据集中数据的分布情况；

●数据压缩：

作为其他数据挖掘算法的预处理步骤。

●作为一个独立的工具来获得数据集中数据的分布情况；

首先，对数据集执行聚类，获得所有簇；

然后，根据每个簇中样本的数目获得数据集中每类数据的大体分布情况。

●作为其他数据挖掘算法的预处理步骤。

首先，对数据进行聚类——粗分类；

然后，分别对每个簇进行特征提取和细分类，可以有效提高分类精度。

聚类与分类的区别

●分类技术是一种有指导的学习，即每个训练样本的数据对象已经有类标识，通过学习可以形成表达数据对象与类标识间对应的知识。

●聚类是一种无指导学习。

也就是说，聚类是在预先不知道欲划分类（无标识）的情况下，根据信息相似度原则进行信息聚类的一种方法。

聚类常见聚类算法及原理：

（二）大学生对DIY手工艺品消费态度分析K-means（k均值算法）：

1、购买“女性化”算法思路：

事先确定常数K，常数K意味着最终的聚类类别数，首先随机选定初始点为质心，并通过计算每一个样本与质心之间的相似度（这里为欧式距离），将样本点归到最相似的类中，接着，重新计算每个类的质心（即为类中心），重复这样的过程，知道质心不再改变，最终就确定了每个样本所属的类别以及每个类的质心。

中式饰品风格的饰品绝对不拒绝采用金属，而且珠子的种类也更加多样。

五光十色的水晶珠、仿古雅致的嵌丝珐琅珠、充满贵族气息的景泰蓝珠、粗糙前卫的金属字母珠片的材质也多种多样。

K-means

1、随机选取K个质心的值

合计50100%2、计算各个点到质心的距离

培养动手能力□学一门手艺□打发时间□兴趣爱好□3、将点的类划分为离他最近的质心，形成K个cluster

4、根据分类好的cluster，在每个cluster内重新计算质心（平均每个点的值）

6、你购买DIY手工艺制品的目的有那些？

5、重复迭代2-4步直到满足迭代次数或误差小于指定的值

但这些困难并非能够否定我们创业项目的可行性。

盖茨是由一个普通退学学生变成了世界首富，李嘉诚是由一个穷人变成了华人富豪第一人，他们的成功表述一个简单的道理：

如果你有能力，你可以从身无分文变成超级富豪；如果你无能，你也可以从超级富豪变成穷光蛋。

K-medoids

1、随机选取K个质心的值（质心必须是某些样本点的值，而不是任意值）

我们从小学、中学到大学，学的知识总是限制在一定范围内，缺乏在商业统计、会计，理财税收等方面的知识；也无法把自己的创意准确而清晰地表达出来，缺少个性化的信息传递。

对目标市场和竞争对手情况缺乏了解，分析时采用的数据经不起推敲，没有说服力等。

这些都反映出我们大学生创业知识的缺乏；2、计算各个点到质心的距离

据统计，上海国民经济持续快速增长。

03全年就实现国内生产总值（GDP）6250.81亿元，按可比价格计算，比上年增长11.8%。

第三产业的增速受非典影响而有所减缓，全年实现增加值3027.11亿元，增长8%，增幅比上年下降2个百分点。

3、将点的类划分为离他最近的质心，形成K个cluster

4、根据分类好的cluster，在每个cluster内重新计算质心：

400-500元1326%4.1计算cluster内所有样本点到其中一个样本点的曼哈顿距离和（绝对误差）

4.2选出使cluster绝对误差最小的样本点作为质心

5、重复迭代2-4步直到满足迭代次数或误差小于指定的值

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 最新北京工业大学数据挖掘

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：最新北京工业大学数据挖掘.docx
链接地址：https://www.bdocx.com/doc/27588772.html

最新北京工业大学数据挖掘.docx

热门标签