Hadoop生态系统基本介绍PPT文档格式.pptx
- 文档编号:14311073
- 上传时间:2022-10-22
- 格式:PPTX
- 页数:60
- 大小:1.59MB
Hadoop生态系统基本介绍PPT文档格式.pptx
《Hadoop生态系统基本介绍PPT文档格式.pptx》由会员分享,可在线阅读,更多相关《Hadoop生态系统基本介绍PPT文档格式.pptx(60页珍藏版)》请在冰豆网上搜索。
领导早期的许多Hadoop开发-其他很多公司也接踵而至,Hadoop大事记,2004年DougCuttingMikeCafarella实现了HDFS和MapReduce的初版2005年12月Nutch移植到新框架,Hadoop在20个节点上稳定运行2006年1月DougCutting加入雅虎2006年2月ApacheHadoop项目正式启动,支持MapReduce和HDFS独立发展2006年2月雅虎的网格计算团队采用Hadoop2006年4月在188个节点上(每节点10GB)运行排序测试机需要47.9个小时2006年5月雅虎建立了一个300个节点的Hadoop研究集群2006年5月在500个节点上运行排序测试集需要42个小时(硬件配置比4月份更好)2006年11月研究集群增加到600个节点,Hadoop大事记,2006年12月排序测试记在20个节点上运行1.8个小时,100个节点上运行3.3个小时,500个节点上运行5.2个小时,900个节点上运行7.8个小时2007年1月研究集群增加到900个节点2007年4月研究集群增加到两个集群1000个节点2008年4月在900个节点上运行1TB的排序测试集仅需要209秒,成为全球最快2008年10月研究集群每天状态10TB的数据2009年3月17个集群共24000个节点2009年4月在每分钟排序中胜出,59秒内排序500GB(1400个节点上)和173分钟内排序100TB的数据(在3400个节点上),WhyHadoop?
Hadoop简史Hadoop版本,Hadoop解决的问题,Hadoop版本,http:
/,CDH版本,http:
/2.3.0是社区的hadoop版本cdh5.0.0是cloudera自己的版本CDH3,CDH4,CDH5分别对应了Hadoop0.20hadoop2.0hadoop2.3,HDP版本,http:
/,第二章Hadoop各组件介绍,第二章Hadoop各组件介绍,Hadoop生态系统概述,核心Hadoop组件,Hadoop系统用于大数据处理Hadoop提供了两个主要的组件来实现这个-数据存储:
HDFS-数据处理:
MapReduce加上完成基本功能所需的组件,包括-文件系统功能-作业调度和监控-WebUI,Hadoop生态系统,HDFS特性,高性能容错相对简单的集中管理-主从架构优化了MapReduce处理-数据本地处理可扩展性,经典HDFS架构,HDFS的架构最近有所改进-更有弹性-更好的可扩展性这些变化只是在最近的版本中可用-如Cloudera的CDH4-目前版本CDH5许多人仍然运行在生产之前的版本-我们将首先讨论早期架构-然后我们将讨论它是如何改变的,传统的HDFS架构概述,在“经典”HDFS有三个守护进程NameNode(主节点)SecondaryNameNode(主节点)DataNode(从节点),基于QJM的HDFSHA架构概述,在HA模式的HDFS有如下的守护进程ActiveNameNode(主)standbyNameNode(主)DataNode(从)JournalNode(奇数个)ZKFC(主备),写文件流程,Clientnode,namenode,datanode,datanode,datanode,ClientJVM,Pipelineofdatanodes,读文件流程,5:
read,datanode,datanode,datanode,namenode,client,Hadoop生态系统,如何理解mapreduce过程?
http:
/理解mapreduce,MapReduce是什么?
MapReduce是一个编程模型-既不是平台也不基于特定于语言-面向记录的数据处理(键和值)-多节点共同处理一个任务在可能的情况下,每个节点处理存储在各自节点上的数据包括两个阶段-Map-Reduce在Map和Reduce之间是shuffle和sort阶段-从Mapper向Reducer发送数据,MapReduce是什么?
(contd),数据处理的过程跟Unix的管道比较类似,cat/my/log|grep.html|sort|uniqc/my/outfile,Map,Shuffleandsort,Reduce,MapReducev1架构概述,MapReduce:
流程图,MapReduce:
简单的例子(contd),SampleinputtotheMapper:
thecatsatonthemattheaardvarksatonthesofaIntermediatedataproduced:
(the,1),(cat,1),(sat,1),(on,1),(the,1)(mat,1),(the,1),(aardvark,1),(sat,1)(on,1),(the,1),(sofa,1),MapReduce:
简单的例子(contd),InputtotheReducer(aardvark,1)(cat,1)(mat,1)(on,1,1)(sat,1,1)(sofa,1)(the,1,1,1,1),MapReduce:
简单的例子(contd),OutputfromtheReducer,writtentoHDFS:
(aardvark,1)(cat,1)(mat,1)(on,2)(sat,2)(sofa,1)(the,4),MapReduce2YARN,经典MapReduce架构的问题JobTracker是集群事务的集中处理点,存在单点故障JobTracker需要完成的任务太多,既要维护job的状态又要维护job的task的状态,造成过多的资源消耗在taskTracker端,用map/reducetask作为资源的表示过于简单,没有考虑到CPU、内存等资源情况,当把两个需要消耗大内存的task调度到一起,很容易出现OOM把资源强制划分为map/reduceslot,当只有maptask时,reduceslot不能用;
当只有reducetask时,mapslot不能用,容易造成资源利用不足。
MRv2系统架构(contd),Hadoop生态系统之Hive,Hive,http:
/hive.apache.org/建立在Hadoop基础上的数据仓库架构,它为数据仓库的管理提供了许多功能,包括:
数据ETL(抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力Hive是MapReduce的一个高度抽象实现-最初由Facebook的一个团队创建-避免写JavaMapReduce代码-在HDFS中的数据被非常类似于SQL的语言查询-称为HiveQLHive解释器把HiveQL转成MapReduce任务-表对应存储在HDFS上的一个目录-HiveMetastore包含如何将文件映射到一个表结构的信息,Hive(contd),ExampleHivequery:
SELECTstock.product,SUM(orders.purchases)FROMstockINNERJOINordersON(stock.id=orders.stock_id)WHEREorders.quarter=Q1GROUPBYstock.product;
Hadoop生态系统之zookeeper,Zookeeper简介,在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些应用中使用,因此需要有一种可靠的、可扩展的、分布式的、可配置的协调机制来统一系统的状态。
Zookeeper的目的就在于此。
Zookeeper角色,Zookeeper同步流程,选完leader以后,zk就进入状态同步过程。
1.leader等待server连接;
2.Follower连接leader,将最大的zxid发送给leader;
3.Leader根据follower的zxid确定同步点;
4.完成同步后通知follower已经成为uptodate状态;
5.Follower收到uptodate消息后,又可以重新接受client的请求进行服务了。
Hadoop生态系统之Flume,Flume,人们很容易将现有文件添加到HDFS-hadoopfsputlogfile.txt/tmp但是,如果想要将数据创建在HDFS上-例如,把服务器日志输出到HDFS我们可以用Flume实现Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;
同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
Flume架构,Kafka分布式消息系统,Kafka是Linkedin于2010年12月份开源的消息系统,它主要用于处理活跃的流式数据。
活跃的流式数据在web网站应用中非常常见,这些数据包括网站的pv、用户访问了什么内容,搜索了什么内容等。
这些数据通常以日志的形式记录下来,然后每隔一段时间进行一次统计处理。
Kafka相对其他消息系统,像activemq、rabbitmq在性能方面有很大的优势。
Kafka架构,Hadoop生态系统之Hbase,HBase简介,HBASE-HadoopDatabase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可以在廉价PCServer上搭建起大规模结构化存储集群。
HBase是GoogleBigtable的开源实现,类似GoogleBigtable利用GFS作为其文件存储系统,Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用HadoopMapReduce来处理HBase中的海量数据;
GoogleBigtable利用Chubby作为协同服务,HBase利用Zookeeper作为对应。
HBase的体系架构,HDFS:
每个文件由多个Block组成,分散在多个DataNode上,RegionServer是Hbase集群的物理节点,RegionServer包含多个Region,一个表由多个Region组成,Hmaster负责Region在RegionServer间的Balance,Zooke
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 生态系统 基本 介绍