Hadoop集群初步方案.pptx
- 文档编号:1393587
- 上传时间:2022-10-22
- 格式:PPTX
- 页数:30
- 大小:902.60KB
Hadoop集群初步方案.pptx
《Hadoop集群初步方案.pptx》由会员分享,可在线阅读,更多相关《Hadoop集群初步方案.pptx(30页珍藏版)》请在冰豆网上搜索。
Hadoop集群规划,-初步方案,Hadoop简介,Hadoop是Apache下的一个项目,它是一个开源的可运行于大规模集群上的分布式并行编程框架,由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。
其中,HDFS和MapReduce是两个最基础最重要的成员,他们分别是GoogleGFS和MapReduce的开源实现。
HDFS是一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB级)的大小(通常超过64M),Hadoop简介,HDFS采用Master/Slave架构,一个HDFS集群由一个Namenode和一定数目的Datanodes组成。
Namenode是一个中心服务器,负责管理文件系统的名字空间(Namespace)以及客户端对文件的访问。
集群中的Datanode一般是一个节点一个,负责管理其所在节点上的存储,Hadoop简介,HDFS有如下基本特征:
(1)对于整个集群有单一的命名空间。
(2)数据一致性。
适合一次写入多次读取的模型。
(3)文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置会有复制文件块来保证数据的安全性。
Hadoop集群模块逻辑结构,网络拓扑,网络拓扑,Hadoop简介,Hadoop简介,Hadoop-HA集群运作机制图,集群搭建需要考虑的几点问题,1.选择和规划Hadoop集群的硬件2.Hadoop版本的选取3.Hadoop集群操作系统的选择,1.Hadoop集群硬件,一个基本的Hadoop集群中的节点主要有:
Namenode负责协调集群中的数据存储DataNode存储被拆分的数据块Jobtracker协调数据计算任务TaskTracker执行任务Secondarynamenode(2.2版本以后,实现HA,有StandByNameNode备用,与NameNode配置一样),帮助NameNode收集文件系统运行的状态信息。
NameNode,NameNode要记录HDFS中的元数据,即包括文件名、权限、所有者、所有组、每个文件对应的Block列表,以及每个Block的副本目前存在于哪个机器上。
这些信息会随着集群的使用以及规模而增加。
双路四核CPUDDR3内存24G-36G双千兆以太网网卡至少两块1-2T的SATA硬盘,JBOD配置,DataNode,DataNode是Hadoop集群中主要的工作节点,它承担两种角色:
一将数据存储在HDFS文件系统上;二执行MapReduce任务。
DataNode是Hadoop主要的存储和计算资源。
4个磁盘驱动器(单盘1-2T,3.5寸,7200转),支持JBOD2个4核CPU,至少2.5GHz16-24GB内存千兆以太网,目前数据概况,1、当前存储数据量Mysql库-除去索引,日志数据在1T左右SQLServer-?
其他库-?
2、数据增长1525G/天20*30=600G左右/月600*6=3.6T左右/半年注:
考虑到每月会产生一定量的数据增长,集群规模(存储和计算),Mysql库每天数据增长目前在20G左右采用3备份存储以半年时间为规划期3.6*3T+预留存储等(20%-30%)-15T节点规模:
1主3从节点,2.Hadoop版本,目前流行的Hadoop版本分三个大类ApacheHadoopClouderaHadoopHortonworksHadoop注:
还有其他的版本在国内比较少见,只从以上三个版本选择另外国内比较普遍的是Apache和Cloudera的Hadoop版本,从Hadoop开源社区得到各种问题解决方案比较容易,暂不考虑HortonworksHadoop,2.Hadoop版本,选择版本的考虑主要有以下几个方面:
所需要的稳定程度所需要的功能Hadoop的版本号是很混乱的,而且小分支很多。
就现在情况而言,可以总结为两大分支:
0.201.x0.232.x,2.Hadoop版本,按照功能考虑:
Feature0.200.231.x2.xCDH3CDH4CDH5HDFSappendKerberosHDFSsymlinkYARN(MRv2)MRv1NamenodeFederationNamenodeHASpark,2.Hadoop版本,综合考虑,先暂定选择目前绝大部分公司在使用的版本,ClouderaCDH5.5.0免费版,或者ApacheHadoop2.6.0版本注:
根据从网上和开源社区还有身边朋友了解的信息,大部分都认为CDH的运维、管理、监控及Hadoop相关组件,在使用方面有助于后期的维护管理,CDH版本趋于稳定先对CDH版本在虚拟机上进行安装测试,2.Hadoop版本,Hadoop生态圈其他组件hadoop-2.6.0cdh5.5.0hive-1.1.0hbase-solr-1.5impala2.3.0spark-1.5.0(后期再装)hue3.9.0,3.操作系统,操作系统目前国内企业服务器用的操作系统以RedhatLinux和CentOS为主从免费角度,选CentOS(缺点:
缺少技术支持)从付费角度,选RedhatLinuxCentOS6.5JavaJDK1.8,集群环境,测试环境利用虚拟平台搭建测试环境VMwareWorktation10三节点生产环境服务器部署,集群构建步骤,1、在DSP平台中,运用定时任务根据CTR算法每小时计算一次每个广告位的CTR值存入竞价服务器,供RTB广告进行实时竞价;2、在DSP和SSP平台中,运用MapReduce从Kafka批量提取上一小时的请求、响应、展示、点击广告日志数据,存入规定好的目录结构,根据业务需要,用Hive,Shell脚本等对广告数据进行分类汇总和分析,将处理后的数据存入业务系统Mysql,供广告主和媒体主进行数据查询和展示;3、在DSP平台中,从Kafka提取实时的广告数据,主要运用SparkStreaming,实时统计和计算请求数、响应数、展示数、点击数、点击率、胜出率、广告投放剩余金额,并写入Redis,供广告主实时查询分析各自投放的广告情况;4、每周统计一次每个广告尺寸占比,展示在DSP和SSP业务系统,供运营人员进行分析和投放调整;,离线分析,实时查询,搭建hadoop集群主要分为两种途径:
一种是公司购买服务器自己搭建优点:
便于对集群的管理和维护另一种是使用现成的云平台服务优点:
不需要购买硬件,相当于租用云服务器缺点:
不便于后期的管理,无法接触服务器集群,Q&A,谢谢,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 集群 初步 方案