书签分享收藏举报版权申诉 / 143

立即下载加入VIP,免费下载

当前位置：首页 > 法律文书 > 辩护词 > 大数据培训.pptx

大数据培训.pptx

文档编号：1165001
上传时间：2022-10-18
格式：PPTX
页数：143
大小：8.06MB

大数据培训.pptx

《大数据培训.pptx》由会员分享，可在线阅读，更多相关《大数据培训.pptx（143页珍藏版）》请在冰豆网上搜索。

大数据培训.pptx

大数据培训,大数据概念Hadoop介绍HDFSMAPREDUCE编程HIVEFLUMESTORMZOOKEEPER,培训内容,大数据定义大小超过常规的数据库工具获取、存储、管理和分析能力的数据集事务所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

四大特征：

大量（Volume）存储大；计算量大；多样（Variety）来源多；格式多；快速（Velocity）增长速度快处理速度要求快价值（Value）浪里淘沙却又弥足珍贵,大数据概念,大数据趋势,BigData,People,Devices,Sensors,移动互联网MobileInternet,物联网InternetofThings,新量级、新处理模式、新企业智能,大数据趋势,对企业数据处理的挑战,对企业数据处理的挑战,每天几百GB、几TB的资料，且持续成长中,储存Storing,在收数据的同时做必要的前置处理（pre-processing），并区分数据处理的优先等级（prioritizing）,计算Processing,如何有效的避免因硬件毁坏所导致的资料损毁,管理Managing,如何从中挖掘出所关注事件的pattern或behavior,分析Analyzing,5,典型互联网大数据应用技术体系,典型互联网大数据应用技术体系,数据存储、计算,规则、业务处理,数据采集,数据服务,高效、智能的数据采集技术,高效数据仓库技术（ETL）,实时计算技术,大数据存储技术,大数据计算技术,机器学习,关键技术,数据分析&可视化技术,数据共享技术,大数据生态圈,Hadoop介绍,Hadoop概况,Hadoop概况,Apache开源项目源于Lucene项目的一部分,2006.1成为子项目,现为Apache顶级项目之一Google的三篇论文MapReduce,GFS,BigTableYahoo!

是最主要的源代码贡献者,其他贡献者:

Powerset,Facebook等已知为接近150家的大型组织实际使用:

Yahoo!

Amazon,EBay,AOL,Google,IBM,Facebook,Twitter,Baidu,Alibaba,Tencent,（http:

/wiki.apache.org/hadoop/PoweredBy）Hadoop核心功能高可靠性,高效率的分布式文件系统一个海量数据处理的编程框架Hadoop特点可扩展性:

Petabytes（1015Bytes）级别的数据量,数千个节点经济性:

利用商品级（commodity）硬件完成海量数据存储和计-高效率：

通过分发数据，可以在数据所在的节点上并行处理，使得处理效率变快可靠性:

在大规模集群上提供应用级别的可靠性,HadoopVS.RDB,Hadoop特性,Hadoop特性,传统并行计算架构,并行计算+分布式存储,运算,储存,传统储存架构,计算与存储一体，计算向数据靠拢，高效专用存储模式为程序员屏蔽通性、并发、同步与一致性等问题任务之间无依赖（share-nothing），具有高系统延展性（scale-out）,HDFS,Hadoop1.XHDFS架构图,NameSpaceState,BlockMap,SecondaryNameNode,Client,DataNode,DataNode,DataNode,DataNode,NameNode,Heartbeat&Blockreport,本地磁盘,元数据,HDFS设计原则,文件以块（block）方式存储每个块带下远比多数文件系统来的大通过副本机制提高可靠度和读取吞吐量每个区块缺省分到三台DataNode上master（NameNode）来协调存储元数据（metadata）客户端对文件没有缓存机制（Nodatacaching）,NameNode（NN）,NameNode主要功能提供名称查询服务NameNode保存metadate信息包括文件owership和permissions文件包含哪些块Block保存在哪个DataNode（由DataNode启动时上报）NameNode的metadate信息在启动后会加载到内存metadata存储到磁盘文件名为”fsimage”Block的位置信息不会保存到fsimage,NameNode,块存储结构,metadata物理存储结构,DataNode（DN）,保存Block启动DN线程的时候会向NN汇报block信息通过向NN发送心跳保持与其联系（3秒一次），如果NN10分钟没有收到DN的心跳，则认为其已经lost，并copy其上的block到其它DN,Block的副本放置策略,第一个副本：

放置在上传文件的DN；如果是集群外提交，则随机挑选一台磁盘不太满，CPU不太忙的节点第二个副本：

放置在于第一个副本不同的机架的节点上第三个副本：

第二个在同一个机架，随机放在不同的node中。

更多副本：

随机节点,再说Block,设置一个Block64MB，如果上传文件小于该值，仍然会占用一个Block的命名空间（NameNodemetadata），但是物理存储上不会占用64MB的空间Block大小和副本数由Client端上传文件到HDFS时设置，其中副本数可以变更，Block是不可以再上传后变更的,数据损坏（corruption）处理,当DN读取block的时候，它会计算checksum如果计算后的checksum，与block创建时值不一样，说明该block已经损坏。

client读取其它DN上的block；NN标记该块已经损坏，然后复制block达到预期设置的文件备份数DN在其文件创建后三周验证其checksum,HDFS文件权限,21,与Linux文件权限类似r:

read;w:

write;x:

execute，权限x对于文件忽略，对于文件夹表示是否允许访问其内容如果Linux系统用户test使用hadoop命令创建一个文件，那么这个文件在HDFS中owner就是testHDFS的权限目的：

阻止好人错错事，而不是阻止坏人做坏事。

HDFS相信，你告诉我你是谁，我就认为你是谁,ACL权限控制,setfacl-mu:

cheng:

wrtest.txtyarmrmadmin-refreshServiceAclhadoopdfsadmin-refreshServiceAcl,HDFS文件写入,HDFS文件读取,MapReduce,Map/Reduce,Map/Reduce,什么是Map/Reduce一种高效,海量的分布式计算编程模型海量:

相比于MPI,Map处理之间的独立性使得整个系统的可靠性大为提高.高效:

用调度计算代替调度数据!

分布式操作和容错机制由系统实现,应用级编程非常简单.计算流程非常类似于简单的Unixpipe:

Pipe:

catinput|grep|sort|uniq-coutputM/R:

Input|map|shuffle&sort|reduce|output多样的编程接口:

Javanativemap/reduce可以操作M/R各细节Streaming利用标准输入输出模拟以上pipelinePig只关注数据逻辑，无须考虑M/R实现,MapReduce编程接口,1）迭代（iteration）。

遍历输入数据，并将之解析成key/value对。

2）将输入key/value对映射（map）成另外一些key/value对。

3）依据key对中间数据进行分组（grouping）。

4）以组为单位对数据进行归约（reduce）。

5）迭代。

将最终产生的key/value对保存到输出文件中。

MapReduce编程模型,用户定义一个map函数来处理一个key/value对以生成一批中间的key/value对，再定义一个reduce函数将所有这些中间的有着相同key的values合并起来。

Map/reduce计算流程,用Java进行Map/Reduce编程,MapReduce,单一Reduce处理,多个Reduce处理,无Reduce处理,MapReduce,MapReduce,物理上,MapReduce,MapReduce处理流程,MapReduce,MapReduce,MapReduce,MapReduce,MapReduce,MapReduce,MapReduce,MapReduce,MapReduce,MapReduce,MapReduce,JobTracker一直在等待JobClient提交作业TaskTracker每隔3秒向JobTracker发送心跳heartbeat询问有没有任务可做，如果有，让其派发任务给它执行这是一道pull过程:

slave主动向master拉生意,MapReduce,特点：

Fault-tolerant容错，很重要！

M/RFailuresTaskfailsTryagain?

Tryagainsomewhereelse?

Reportfailure只有当map处理全部结束后，reduce过程才能够开始,Hadoop开发注意点,1.Hadoop将运行一次Map/Reduce作业叫做运行一个Job2.Hadoop需要计算的源数据都存储在HDFS中。

3.Map阶段计算结果存储在本地文件系统中。

4.Hadoop最终计算的结果也存储在HDFS中。

5.Map/Reduce框架的运作完全基于对，即数据的输入是一批对，生成的结果也是一批对。

6.默认情况下，Key与value之间用t分隔。

WordCount：

MapReduce版HelloWorld，,WordCount代码解析-MappublicstaticclassMapextendsMapReduceBaseimplementsMapperprivatefinalstaticIntWritableone=newIntWritable

（1）;privateTextword=newText（）;/map函数publicvoidmap（LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter）throwsIOExceptionStringline=value.toString（）;StringTokenizertokenizer=newStringTokenizer（line）;while（tokenizer.hasMoreTokens（）word.set（tokenizer.nextToken（）;output.collect（word,one）;,WordCount代码解析-ReducepublicstaticclassReduceextendsMapReduceBaseimplementsReducer/reduce函数publicvoidreduce（Textkey,Iteratorvalues,OutputCollectoroutput,Reporterreporter）throwsIOExceptionintsum=0;while（values.hasNext（）sum+=values.next（）.get（）;output.collect（key,newIntWritable（sum）;,WordCount代码解析Main主函数publicstaticvoidmain（Stringargs）throwsExceptionJobConfconf=newJobConf（WordCount.class）;conf.setJobName（wordcount）;conf.setOutputKeyClass（Text.class）;conf.setOutputValueClass（IntWrit