大数据项目技术选型初稿.docx
- 文档编号:23940485
- 上传时间:2023-05-22
- 格式:DOCX
- 页数:15
- 大小:696.79KB
大数据项目技术选型初稿.docx
《大数据项目技术选型初稿.docx》由会员分享,可在线阅读,更多相关《大数据项目技术选型初稿.docx(15页珍藏版)》请在冰豆网上搜索。
大数据项目技术选型初稿
目录结构
1、主流架构选用技术
2、Hadoop版本选型方案
3、选用的技术与其他工具的对比
4、大数据相关的技术选型版本确定
5、市场上的hadoop发行版厂商资料
6、具体操作
一、主流架构选用技术:
采集层:
flume;sqoop
存储层:
包括文件存储层和数据存储层
文件:
采用hdfs存储
数据:
采用hbase,redis等
模型层:
离线处理:
mr/yarn;实时流式处理sparkstreaming(比storm的优势)
分析层:
hive
管理层:
zookeeper(调度;ha)
2、Hadoop版本选型方案:
Hadoop提供的经典方案:
HDP(HadoopDataPlatform)
管理一体化数据接入
FlumeScriptSQLNosqlStreamSearchIn-MemoryOthers
SqoopPigHiveHbaseStormSolrSparkYARN-ReadyApps
NFS--------------------------------------------------------------------------------------------------------
WebHDFSYARN
Falcon--------------------------------------------------------------------------------------------------------
HDFS
---------------------------------------------------------------------------------------------------------
数据管理
三、选用的技术与其他工具的对比:
选用sqoop的好处:
开源,抽取的数据可以直接传至hive,可操作性和可视性高
选用Flume的好处:
纯Java开发,框架分明,易于开发,可以直接写hdfs且支持对text和sequence压缩
选用Spark的好处:
基于存,适合需要多次迭代计算的算法,在迭代处理计算方面比Hadoop快100倍以上,Spark采用一个统一的技术堆栈解决了云计算大数据的所有核心问题
安全操作
认证,授权,审计,数据保护准备,管理,监控
Storage:
HDFSAmbari
Resource:
YARNZookeeper
Access:
HiveOozie
Pipeline:
Falcon
Cluster:
Knox
Hue的好处:
多应用平台,便捷的操作流程;自动补全;查询结果表格化图像化
4、大数据相关的技术选型版本确定:
操作系统:
CentOS6.X
各个技术版本:
(最新,最稳定,bug少)
Hadoop版本:
hadoop-2.6.4.tar.gz
此版本是一个相对最新且比较稳定的版本,基数版本可能不稳定,最好选用偶数版本
Zookeeper版本:
zookeeper-3.4.8.tar.gz
此版本修复了此前的9个问题,最明显的是在关闭zookeeper时会产生的一个停顿问题。
Flume版本:
apache-flume-1.6.0-bin.tar.gz
Kafka版本:
kafka_2.11-0.8.2.2.tgz
http:
//kafka.apache.org/082/documentation.html
Spark版本:
spark-1.6.0-bin-hadoop2.6.tgz
此版本能支持Hadoop2.6.x以上的版本且相对稳定版
Sqoop版本:
sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
Hive版本:
apache-hive-1.2.1-bin.tar.gz
Hbase版本:
hbase-1.1.3-bin.tar.gz
Mahout版本:
apache-mahout-distribution-0.11.0.tar.gz
五、市场上的hadoop发行版厂商资料:
版本:
除了社区的ApacheHadoop外,Cloudera,Hortonworks,MapR,EMC,IBM,Intel,华为等都提供了自己的商业版本。
版本
容
特点
网址
Cloudera
CDH包括HDFS、YARN、HBase、MapReduce、Hive、Pig、Zookeeper、Oozie、Mahout、Hue和其他开源工具(包括实时查询引擎——Impala)。
CDH完全开源,比ApacheHadoop在兼容性,安全性,稳定性上有所增强;ClouderaManager是集群的软件分发及管理监控平台,可以在几个小时部署好一个hadoop集群,并对集群的节点及服务进行实时监控。
标价为每年每个节点4000美元。
.cloudera./documentation/archive/cdh/4-x/4-7-1/CDH4-Installation-Guide/cdh4ig_topic_11_4.html
Hortonworks
HDP包括HDFS、YARN、HBase、MapReduce、Hive、Pig、HCatalog、Zookeeper、Oozie、Mahout、Hue、Ambari、Tez和Hive的实时版(Stinger)以及其他开源工具。
集成和测试封装;安装方便;管理和监控服务;数据集成服务;元数据服务;高可用性;每10个节点每年为12500美元。
拥有大量的Hadoop专家,对Hadoop的发展起到了重要作用,拥有广泛的合作伙伴支持,专供Hadoop;对专有代码的依赖低于Cloudera
http:
//hortonworks./
MapR
包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和其他开源工具。
还包括直接NFS访问、快照和用于“高可用性”的镜像,有的HBase实现(与ApacheAPI完全兼容),以及MapR管理控制台。
1.构建一个HDFS的私有替代品,这个替代品比当前的开源版本快三倍,自带快照功能,而且支持无NameNode单点故障(SPOF),并且在API上和开源版兼容,所以可以考虑将其作为替代方案。
不再需要单独的NameNode机器,元数据分散在集群中,也类似数据默认存储三份。
2.也不再需要用网络附加存储(NAS)来协助NameNode做元数据备份,提高了机器使用率。
3.还有个重要的特点是可以使用nfs直接访问hdfs,提供了与旧有应用的兼容性。
镜像功能也很适合做数据备份,而且支持跨数据中心的镜像,快照功能对于数据的恢复作用明显。
4.每年每个节点4000美元。
5.在性能方面具备优势。
https:
//.mapr./
EMC
包括HDFS、MapReduce、Hive、Pig、HBase、Zookeeper、Sqoop、Flume和其他开源工具。
兼容SQL;完全兼容ODBC/JDBC;交互式查询;数据管理;深度分析
.emc./zh-/index.htm?
fromGlobalSelector
IBM
基础版包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和一些其他开源工具,以及IBM安装程序和数据访问工具的基础版本。
企业版增加了复杂的作业管理工具、与主要数据源相互集成的数据访问层和BigSheets(类似于电子表格的界面,用于在集群中操作数据)
在平台管理,安全认证,作业调度算法,与DB2及netezza的集成上做了增强。
兼容性好,同时运行多种Hadoop版本的程序,IBM的服务。
.ibm./us-en/
Intel
ApacheHadoopIntel分发版
主要是强调其能提供全面的软硬件解决方案设计,针对硬件具有更好的性能优化,以及提供集群管理工具和安装工具简化了Hadoop的安装和配置,能够提供项目规划到实施各阶段专业的咨询服务,实际中采购Intel版本貌似动力不足。
性能好,最先进入中国市场。
http:
//ark.intel./
华为
FunsionlnsightHadoop
基于ApacheHadoop,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对Hadoop的小修补,远不如MapR解决的彻底。
.huawei.//
当为公司/部门选取特定发行版时,需要考虑如下因素:
技术细节——应该包括Hadoop版本、包含的组件、涉及所有权的功能组件等。
易于部署——应该有可用的工具包来管理部署、版本更新、补丁等。
易于维护——涉及集群管理、多中心支持、灾难恢复支持等。
成本——包括实现某个特定版本所需要的费用、计费模式和许可证。
企业应用集成支持——包括对Hadoop应用与企业的其他应用进行集成的支持。
选用Cloudera的方案:
Cloudera:
最成型的发行版本,拥有最多的部署案例。
提供强大的部署、管理和监控工具。
Cloudera开发并贡献了可实时处理大数据的Impala项目。
优点:
1.基于Apache协议,100%开源。
2.版本管理清晰。
比如Cloudera,CDH1,CDH2,CDH3,CDH4等,后面加上补丁版本,如CDH4.1.0patchlevel923.142,表示在原生态ApacheHadoop0.20.2基础上添加了1065个patch。
3.比ApacheHadoop在兼容性、安全性、稳定性上有增强。
第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。
4.版本更新快。
通常情况,比如CDH每个季度会有一个update,每一年会有一个release。
5.基于稳定版本ApacheHadoop,并应用了最新Bug修复或Feature的patch
6.提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时部署好集群。
7.运维简单。
提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。
缺点:
1.涉及到厂商锁定的问题。
(可以通过技术解决)
六、具体操作:
Hadoop2.6HA搭建
至少四台机器:
hadoop1,hadoop2,hadoop3,hadoop4
NN
DN
ZK
ZKFC
JN
RM
NM(任务管理)
Hadoop1
Y
Y
Y
Hadoop2
Y
Y
Y
Y
Y
Y
Y
Hadoop3
Y
Y
Y
Y
Hadoop4
Y
Y
Y
1.core-site.xml
//zhjy
2181,hadoop2:
2181,hadoop3:
2181
2.hdfs-site.xml
8020
8020
50070
50070
//hadoop2:
8485;hadoop3:
8485;hadoop4:
8485/zhjy
>
3.准备zookeeper
a)三台zookeeper:
hadoop1,hadoop2,hadoop3
b)编辑zoo.cfg配置文件
i.修改dataDir=/opt/zookeeper
ii.server.1=hadoop1:
2888:
3888
server.2=hadoop2:
2888:
3888
server.3=hadoop3:
2888:
3888
c)在dataDir目录中创建一个myid的文件,文件容为1,2,3
4.配置hadoop中的slaves
5.启动三个zookeeper:
./zkServer.shstart
6.启动三个JournalNode:
./hadoop-daemon.shstartjournalnode
7.在其中一个namenode上格式化:
hdfsnamenode-format
8.把刚刚格式化之后的元数据拷贝到另外一个namenode上
a)启动刚刚格式化的namenode
b)在没有格式化的namenode上执行:
hdfsnamenode-bootstrapStandby
c)启动第二个namenode
9.在其中一个namenode上初始化zkfc:
hdfszkfc-formatZK
10.停止上面节点:
stop-dfs.sh
全面启动:
start-dfs.sh
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 项目 技术 选型 初稿