大数据创新课程总结报告Word下载.docx
- 文档编号:16244050
- 上传时间:2022-11-21
- 格式:DOCX
- 页数:9
- 大小:22.36KB
大数据创新课程总结报告Word下载.docx
《大数据创新课程总结报告Word下载.docx》由会员分享,可在线阅读,更多相关《大数据创新课程总结报告Word下载.docx(9页珍藏版)》请在冰豆网上搜索。
三、算法实现
..........................................................................................................5
3.1
随机森林算法
............................................................................................5
3.2
高斯混合模型
............................................................................................6
四、仿真试验结果及分析
......................................................................................7
4.1
............................................................................................7
4.2
............................................................................................8
五、结束语
..............................................................................................................8
参考文献
..................................................................................................................9
摘要
数据(Data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置
进行处理。
数据经过解释并赋予一定的意义之后,便成为信息。
数据处理(data
processing)是对数据的采集、存储、检索、加工、变换和传输。
本文介绍了多种数据分析与处理的方法,数据分析是指用适当的统计分析方
法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研
究和概括总结的过程。
这一过程也是质量管理体系的支持过程。
在实用中,数据
分析可帮助人们作出判断,以便采取适当行动。
数据处理的基本目的是从大量
的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来
说是有价值、有意义的数据。
关键词:
数据处理、数据采集、存储、检索
一、数据分析与处理概述
越来越多的应用涉及到大数据,这些数据的属性,包括数量,速度,多样性
等等都是呈现了数据不断增长的复杂性,所以,数据的分析方法在数据领域就显
得尤为重要,可以说是决定最终信息是否有价值的决定性因素。
基于此,数据分
析的方法理论有哪些呢?
数据分析
PredictiveAnalyticCapabilities(预测性分析能力)
数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可
视化分析和数据挖掘的结果做出一些预测性的判断。
DataQualityandMasterDataManagement(数据质量和数据管理)
数据质量和数据管理是一些管理方面的最佳实践。
通过标准化的流程和工具
对数据进行处理可以保证一个预先定义好的高质量的分析结果。
AnalyticVisualizations(可视化分析)
不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的
要求。
可视化可以直观的展示数据,让数据自己说话,让观众听到结果。
SemanticEngines(语义引擎)
我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要
一系列的工具去解析,提取,分析数据。
语义引擎需要被设计成能够从“文档”
中智能提取信息。
DataMiningAlgorithms(数据挖掘算法)
可视化是给人看的,数据挖掘就是给机器看的。
集群、分割、孤立点分析还
有其他的算法让我们深入数据内部,挖掘价值。
这些算法不仅要处理大数据的量,
也要处理大数据的速度。
1
假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数
据能给我们带来的好处,而不仅仅是挑战。
1.2 数据处理
数据处理时代理念的三大转变:
要全体不要抽样,要效率不要绝对精确,要
相关不要因果。
具体的大数据处理方法其实有很多,但是根据长时间的实践,笔
者总结了一个基本的大数据处理流程,整个处理流程可以概括为四步,分别是采
集、导入和预处理、统计和分析,以及挖掘。
采集
数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通
过这些数据库来进行简单的查询和处理工作。
比如,电商会使用传统的关系型数
据库
MySQL
和
Oracle
等来存储每一笔事务数据,除此之外,Redis
MongoDB
这
样的
NoSQL
数据库也常用于数据的采集。
在数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有
成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访
问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。
并且如
何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的
海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方
面,一些实时性需求会用到
EMC
的
GreenPlum、Oracle
Exadata,以及基于
的列式存储
Infobright
等,而一些批处理,或者基于半结构化数据的需求
可以使用
Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,
其对系统资源,特别是
I/O
会有极大的占用。
导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分
析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者
分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。
也有
一些用户会在导入时使用来自
Storm
来对数据进行流式计算,来满足
2
部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量
大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,
主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实
现一些高级别数据分析的需求。
比较典型算法有用于聚类的
K-Means、用于统计
学习的
SVM
和用于分类的
Naive
Bayes,主要使用的工具有
Hadoop
Mahout
等。
该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计
算量都很大,还有,常用数据挖掘算法都以单线程为主
二、算法理论
2.1 随机森林算法
在机器学习中,随机森林(Random
Forests)是一个包含多个决策树的分类
器,
并且其输出的类别是由个别树输出的类别的众数而定。
由Leo
Breiman和
Adele
Cutler发展、推论出的算法。
这个术语是1995年由贝尔实验室的Tin
Kam
Ho所提出的随机决策森林(random
decision
forests)而来的。
这个方法则是
结合
Breimans
"
Bootstrap
aggregating"
想法和
Ho
的"
random
subspace
method"
以建造决策树的集合。
随机森林算法过程:
根据下列算法而建造每棵树:
1.
用
N
来表示训练例子的个数,M表示变量的数目。
2.
我们会被告知一个数
m
,被用来决定当在一个节点上做决定时,会使用
到多少个变量。
m应小于M
3.
从N个训练案例中以可重复取样的方式,取样N次,形成一组训练集(即
bootstrap取样)。
并使用这棵树来对剩余预测其类别,并评估其误差。
4.
对于每一个节点,随机选择m个基于此点上的变量。
根据这
个变量,
计算其最佳的分割方式。
3
5.
每棵树都会完整成长而不会剪枝(Pruning)(这有可能在建完一棵正常
树状分类器后会被采用)。
2.2 高斯混合模型
高斯混合模型和k-means其实是十分相似的,区别仅仅在于GMM引入了概率。
高斯混合模型属于统计学习的模型中的概率模型。
所谓概率模型,就是指我们要
学习的模型的形式是P(Y|X),这样在分类的过程中,我们通过未知数据X可以获
得Y取值的一个概率分布,也就是训练后模型得到的输出不是一个具体的值,而
是一系列值的概率(对应于分类问题来说,就是对应于各个不同的类的概率),
然后我们可以选取概率最大的那个类作为判决对象(算法分类soft
assignment)高斯混合模型的学习过程就是训练出几个概率分布,对样本中的数
据分别在几个高斯模型上投影,就会分别得到在各个类上的概率,然后我们可以
选取概率最大的类所为判决结果。
三、算法实现
随机森林算法
Training
tree
1/100...
10/100...
20/100...
30/100...
40/100...
50/100...
60/100...
70/100...
80/100...
90/100...
100/100...
4
Classifier
distributions:
18815
nodes
were
empty
and
had
no
classifier.
with
id=1
was
used
at
0
nodes.
id=2
6685
id=3
id=4
高斯混合模型
for(i=0;
i<
K_MODELS;
i++)
//K_MODELS
为预先定义的模型数
{
//
calculate
the
vector,
v
=
(X
-
u)
for(j=0;
j<
3;
j++)
v[j]
pixel[j]
model->
mean[j];
squared
distance,
d
|v|^2
dist2
v[0]*v[0]
+
v[1]*v[1]
v[2]*v[2];
zot:
this
is
only
equal
to
mahalanobis
distance
when
covariance
matrix
vI
(v
scalar
variance
for
all
channels)
mah2
/
var;
//即为马兹距离
see
if
X
close
enough
model
(model->
<
SFSquared)
5
break;
current
pixel
matches
one
of
K
models
//SFSquared
是预定义的值
}
四、仿真试验结果及分析
它是利用bootstrap重抽样方法从原始样本中抽取多个样本,对每bootstrap
样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果。
它具有很高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现过
拟合,在医学、生物信息、管理学等领域有着广泛的应用。
6
所谓高斯混合模型(GMM)就是指对样本的概率密度分布进行估计,而估计的模
型是几个高斯模型加权之和(具体是几个要在模型训练前建立好)。
其中,每个
高斯模型就代表了一个类(一个
Cluster)。
五、结束语
本次课题研究的是数据的分析与处理,在统计学领域,有些人将数据分析划
分为描述性统计分析、探索性数据分析以及验证性数据分析;
其中,探索性数据
分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证
实或证伪。
数据处理是系统工程和自动控制的基本环节。
数据处理贯穿于社会生
产和社会生活的各个领域。
数据处理技术的发展及其应用的广度和深度,极大地
影响着人类社会发展的进程。
通过数据分析与处理我们可以及时改善和纠正不当的生产措施,对生产计划
做到实时跟踪,及时了解成本管制情况和人员思想动态,完善数据分析与处理可
以让管理模式对生产流程进行科学管理。
当然,要做好数据分析与处理是十分困
难的,在未来的学习和工作中我们还需加倍努力,希望能取得好成绩!
7
参考文献
1.JiaweiHan,MichelineKamber(著),范明,孟小峰(译).数据挖掘概念与
技术(第二版)[M]..北京:
机械工业出版社,2007,3
2.《数据分析方法》,北京:
高等教育出版社.
2006,2
8
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 创新 课程 总结报告