大数据技术概述.docx
- 文档编号:781239
- 上传时间:2022-10-13
- 格式:DOCX
- 页数:43
- 大小:13.02MB
大数据技术概述.docx
《大数据技术概述.docx》由会员分享,可在线阅读,更多相关《大数据技术概述.docx(43页珍藏版)》请在冰豆网上搜索。
大数据技术概述
大数据技术
1.什么是数据挖掘,什么是机器学习:
什么是机器学习
关注的问题:
计算机程序如何随着经验积存自动提高性能;
研究计算机如何样模拟或实现人类的学习行为,以猎取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能;
通过输入和输出,来训练一个模型。
2.大数据分析系统层次结构:
应用层、算法层、系统软件层、基础设施层
3.传统的机器学习流程
预处理-》特征提取-》特征选择-》再到推理-》预测或者识不。
手工地选取特征是一件特不费劲、启发式(需要专业知识)的方法,假如数据被专门好的表达成了特征,通常线性模型就能达到中意的精度。
4.大数据分析的要紧思想方法
4.1三个思维上的转变
关注全集(不是随机样本而是全体数据):
面临大规模数据时,依靠于采样分析;统计学习的目的——用尽可能少的数据来证实尽可能重大的发觉;大数据是指不用随机分析如此的捷径,而是采纳大部分或全体数据。
关注概率(不是精确性而是概率):
大数据的简单算法比小数据的复杂算法更有效
关注关系(不是因果关系而是相关关系):
建立在相关关系分析法基础上的预测是大数据的核心,相关关系的核心是量化两个数据值之间的数理关系,关联物是预测的关键。
4.2数据创新的思维方式
可量化是数据的核心特征(将所有可能与不可能的信息数据化);挖掘数据潜在的价值是数据创新的核心;三类最有价值的信息:
位置信息、信令信息以及网管和日志。
数据混搭为制造新应用提供了重要支持。
数据坟墓:
提供数据服务,其他人都比我聪慧!
数据废气:
是用户在线交互的副产品,包括了扫瞄的页面,停留了多久,鼠标光标停留的位置、输入的信息。
4.3大数据分析的要素
大数据“价值链”构成:
数据、技术与需求(思维);数据的价值在于正确的解读。
5.数据化与数字化的区不
数据化:
将现象转变为可制表分析的量化形式的过程;
数字化:
将模拟数据转换成使用0、1表示的二进制码的过程
6.基于协同过滤的推举机制
基于协同过滤的推举(这种机制是现今应用最为广泛的推举机制)——基于模型的推举(SVM、聚类、潜在语义分析、贝叶斯网络、线性回归、逻辑回归)
余弦距离(又称余弦相似度):
表示是否有相同的倾向
欧几里得距离(又称欧几里得相似度):
表示绝对的距离
这种推举方法的优缺点:
它不需要对物品或者用户进行严格的建模,而且不要求物品的描述是机器可理解的;推举是开放的,能够共用他人的经验,专门好的支持用户发觉潜在的兴趣偏好。
数据稀疏性问题,大量的用户只是评价了一小部分的项目,而大多数的项目是没有进行评分;冷启动问题,新物品和新用户依靠于用户历史偏好数据的多少和准确性,一些专门品味的用户不能给予专门好的推举。
7.机器学习:
构建复杂系统的可能方法/途径
机器学习使用场景的核心三要素:
存在潜在模式、不容易列出规则并编程实现、有历史的数据
8.机器学习的基础算法之PLA算法和Pocket算法(贪心PLA)
感知器——线性二维分类器,都属于二分类算法
二者的区不:
迭代过程有所不同,结束条件有所不同;
证明了线性可分的情况下是PLA和Pocket能够收敛。
9.机器什么缘故能学习
学习过程被分解为两个问题:
能否确保Eout(g)与Ein(g)足够相似?
能否使Ein(g)足够小?
规模较大的N,有限的dVC,较低的Ein条件下,学习是可能的。
切入点:
利用具体特征的,基于有监督方式的,批量学习的分析,进行二分类预测。
10.VC维:
11.噪声的种类:
12.误差函数(损失函数)
13.给出数据计算误差
14.线性回归算法:
简单同时有效的方法,典型公式
线性回归的误差函数:
使得各点到目标线/平面的平均距离最小!
15.线性回归重点算法部分:
16.线性分类与线性回归的区不:
17.过拟合:
缘故:
模型复杂太高,噪声,数据量规模有限。
解决方案:
使用简单的模型,数据清洗(整形),正则化,验证。
18.正则化
19.分布式文件系统:
一种通过网络实现文件在多台主机上进行分布式存储的文件系统;分布式文件系统一般采纳C/S模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求;客户端和服务器能够通过设置访问权限来限制请求方对底层数据存储块的访问。
20.计算机集群结构:
分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。
与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布式文件系统所采纳的计算机集群差不多上由一般硬件构成的,因此大大降低了硬件上的开销。
21.分布式文件系统的结构:
分布式文件系统在物理结构上是由计算机集群中的多个节点构成,这些节点分为两类,一类叫“主节点”(MasterNode)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(SlaveNode)或者也被称为“数据节点。
22.HDFS
要紧特性:
兼容廉价的硬件设备、支持大数据存储、流数据读写、简单的文件模型、强大的跨平台兼容性;
局限性:
不适合低延迟数据处理、无法高校存储大量小文件、不支持多用户写入及任意修改文件
块:
hdfs的名称节点存储元数据、元数据保存在内存中、保存文件,block,datanode之间的映射关系;hdfs的数据节点存储文件内容、文件内容保存在磁盘、维护了blockid到datanode本地文件的映射关系。
23.分布式数据库概述:
四类典型的作用于大数据存储和治理的分布式数据库:
并行数据库、NoSQL数据治理系统、NewSQL数据治理系统、云数据治理系统。
并行数据库:
NoSQL数据治理系统:
NewSQL数据治理系统:
云数据治理系统:
Nosql简介:
数据模型灵活、简洁;水平可扩展性强;系统吞吐量高;
关系数据库无法满足大数据表现:
无法满足海量数据的治理需求、无法满足数据高并发的需求、无法满足高可拓展性和高可用性的需求。
Nosql与关系数据库的比较:
NoSQL的四大类型:
键值数据库、
列族数据库、
文档数据库、
图形数据库
NoSQL的理论基础(CAP与ACID、BASE)
CAP:
一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求。
ACID(关系数据库的事务具有的四个特性)
BASE
NoSQL到NewSQL:
大数据应用:
XX大数据引擎的构成:
开放云、数据工厂、XX大脑
开放云:
数据工厂:
XX大脑:
阿里大数据应用:
去IOE
大数据在电信行业的应用:
24.分布式并行编程框架MapReduce
25.
MapReduce的体系结构:
Client、JobTracker、TaskTracker、Task
MapReduce的工作流程:
Split(分片):
Map端的Shuffle过程详解:
Reduce端的shuffle详解:
MapReduce小结:
26.Spark特点:
Hadoop的局限性:
Spark生态系统:
RDD:
RDD的优势:
RDD之间依靠关系的两种类型:
Stage划分:
Sprak小结:
流数据:
流计算处理流程:
数据实时采集(保证实时性、低延迟、可靠稳定)、数据实时计算、实时查询服务(实时查询服务能够不断更新结果,并将用户所需的结果实时推送给用户)。
流处理系统与传统数据处理系统的区不:
开源流计算框架——Storm(免费、开源的分布式实时计算系统):
Storm的工作流程:
流计算小结:
图计算系统——Pregel简介:
BSP模型:
图计算小结:
Pregel计算模型:
Pregel执行过程:
Pregel容错机制:
HBase:
BigTable:
特点:
HBase:
HBase与传统关系数据库的对比:
HBase数据模型:
HBased中的数据坐标:
HBase功能组件:
Region的定位:
HBased系统架构:
Region服务器工作原理:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 概述