容器化大数据云平台技术架构PPT文件格式下载.pptx
- 文档编号:13061561
- 上传时间:2022-10-04
- 格式:PPTX
- 页数:31
- 大小:6.57MB
容器化大数据云平台技术架构PPT文件格式下载.pptx
《容器化大数据云平台技术架构PPT文件格式下载.pptx》由会员分享,可在线阅读,更多相关《容器化大数据云平台技术架构PPT文件格式下载.pptx(31页珍藏版)》请在冰豆网上搜索。
Salesforce(SaaS),2016:
OpenWhisk(FaaS),Fission(FaaS)2014:
Kubernetes(CaaS),AWSLambda(FaaS)2013:
Docker(CaaS),Marathon(CaaS)2012:
OracleCloud(Iaas/PaaS/SaaS)2011:
CloudFoundry(PaaS),2009:
CDH,Avro,Chukwa2008:
Hive,Pig,ZooKeeper2007:
HBase2006:
Hadoop(HDFS+MapReduce),Solr,2015:
Kudu2014:
Spark,Flink2012:
YARN,Impala,Storm2011:
MapR,Hcatalog,HDP,Kafka2010-11:
Crunch,Sqoop,Flume,Oozie,大数据的目标是充分挖掘海量数据中的信息,以发现数据中的价值,云计算的目标是通过资源共享的方式更好地调用、扩展和管理计算和存储等方面的资源和能力,以提高资源利用率,降低企业的IT成本云计算可以为大数据平台的计算和存储提供资源层的灵活性,大数据组件部署到云平台上,作为通用PaaS能力,为用户带来使用上的便利和高效,1.1大数据与云计算的发展历程,TechvendorsinternaldevelopmentMapReduce,BigTable,GFS,Cassandra,SinglevendorplatformAzure,AWS,Google,Databricks,BigData2.0HadoopecosystemHortonworks,Cloudera,MapR,Specialization,Simplicity,BigData1.0,S,ep,ic,ila,az,it,no,miS,ilp,ic,yt,A,imd,n,Development,美国知名分析机构Wikibon把大数据技术发展大致分为3个阶段:
Bigdata1.0:
以海量数据存储、处理为主BigData3.0,平台难以维护,数据开发困难Bigdata2.0:
Hadoop商业版出现SQLonHadoop逐渐成熟以批处理、流处理为主Bigdata3.0:
客户需求多元化技术栈复杂化ABC走向融合,1.2技术发展趋势:
走向AI+Bigdata+Cloud融合,1.3中国联通构建了业界领先的大数据平台,通信网络,业务平台,外部合作伙伴,互联网,向下完成5大类、全域数据汇聚,孵化,统一数据模型,对外变现(大数据公司),技术引领,全域贯穿,顶层架构设计,资产化管理,能力化输出,价值化运营,数据服务能力开放对内应用向上服务对内生产,同时支撑价值开放运营数据中心,数据应用.,能力流量查询.,计算日志解析.,存储资料数据.,IT系统,中国联通拥有集中的,企业级全域数据的存储中心、计算中心、能力中心和孵化中心,数据规模(PB),X86服务器(台),98.6,108.06,62.3,6097,6551,4289,2017年,2018年,2019年,2017年,2018年,2019年,海量的计算能力、存储能力PB级数据吞吐能力、统一数据服务能力企业核心数据资产管理能力助力数字化转型的服务型数据应用可价值变现的产品型数据应用,国内领先的大数据平台,IaaS基础设施,PaaS,数据中台,SaaS,应用,数据治理,基于容器云的数据中心操作系统主机资源存储资源,网络资源,大数据对内应用,大数据对外应用,数据服务能力封装/开放,人工业务,生产服务平台智能空空间间数能力开放平台,A引I能擎力数据据能库力(智见)(智图),数(据智能算力)(资智源汇能)力开发测试,1.3中国联通构建了业界领先的大数据平台,全域数据汇聚和管理中心,沉淀了海量的计算能力、存储能力、数据能力。
面临着如何实现资源智能调度、最大化利用、能力共享,进一步赋能各类合作伙伴应用创新、促进数据价值变现的发展瓶颈。
1.4联通痛点,计算/存储资源使用不均衡,资源弹性调度不足技术组件支撑不全手工运维效率低,基于容器云的数据中心操作系统,IaaS,PaaS,SaaS,应用,主机资源,存储资源,网络资源,开发测试,数据治理,大数据对内应用,大数据对外应用,数据服务能力封装/开放,人工业务,生产服务平台智能空空间间数能力开放平台,A引I能擎力数据据能库力(智见)(智图),数(据智能算力)(资智源汇能)力,自身优化创新驱动,构建能力共享生态急需支持租户自助使用云化大数据相关资源,赋能创新保障数据安全开放,通过持续研究和探索,构建中国联通容器化大数据云平台,解决痛点问题,一、建设背景,二、探索历程三、平台实践四、总结与展望,2016年至今,中国联通持续在大数据云平台建设方面投入力量完成了资源管理从无到有,资源调度及运维从“体力”到“脑力”的演变,逐步实现智能化管理和运营,为企业数据生产与服务起到了降本提效的作用。
serverserverserverserver,HiveStormSparkHadoopHbaseMPP,Yarn,MysqlRedis,server,server,server,server,最初阶段物理部署人工划配系统运维,优化提升半自动化部署半人工划配系统运维,简单监控,飞跃阶段一键部署按需自动分配、弹缩组件逐步丰富统一监控、智能运维,Kubernetes+Docker,2.1历程回顾,serverserverserverserver,StormSpark,HiveHadoop,HbaseMPP,Yarn,SparkStormmysqlKafka,HiveHadoop,HbaseMPPRedis,时序数据库,tensorflowCaffe,MysqlRedis,Mesos,2014年二级调度(基于predicates和priorities两阶段算法)活跃且社区关注逐步上升web应用,中间件及数据库,有状态服务,其他支持类型飞速发展高,2014年二级调度(FIFO,capacityscheduler,fairscheduler)活跃,社区关注逐步下降通用性高,混合场景高,Google、AWS、Redhat、Oracle、Intel、IBM、华为、阿里、Twitter、Apple、Airbnb、Yelp等,技术出现时间调度级别生态活跃适用场景成熟度应用案例分析技术生态支持技术实现,百度等CNCF组织,由Google公司牵头组织开源产品种类繁多,实现难度低,成熟度较高,主要由Mesosphere公司贡献原生框架实现难度高编排Docker需要Marathon实现调度功能,通过研究、探索和实践,我们发现Kubernetes+Docker的技术路线更契合联通的实际需求。
它几乎支持了所有的容器业务类型,包含长期伺服型(long-running)、批处理型(batch)、节点后台支撑型(node-daemon)和有状态应用型(statefulapplication),也正是因为这个特点,k8s能够支持当前大多数常见的大数据处理场景,如分布式数据存储(HDFS、Hbase)、离线分析(hive/Spark)、实时处理(Sparkstreaming)、数据挖掘(SparkMLlib),及深度学习框架(Tensorflow)等。
KubernetesMesos,2.2Kubernetesvs.Mesos,2.3与Rancher的合作,中国联通在搭建Kubernetes+Docker的容器化平台过程中,引入了Rancher的产品部署和管理多个Kubernetes集群。
RancherServer,图形化,RKE,部署/管理,中国联通的微服务开发运维管理平台使用了RancherServer,通过图形化和RKE两种方式对多个租户的kubernetes集群进行部署和管理:
图形化部署和扩展集群图形化节点、资源和容器监控备份和容灾,提高集群可靠性,一、建设背景,二、探索历程三、平台实践四、总结与展望,3.1整体介绍,2018年,基于Kubernetes+Docker,构建了中国联通容器化大数据云平台。
基于统一服务集成框架KubernetesServiceCatalog,集中管理、部署多类PaaS能力,包括大数据基础服务能力、中间件及数据库能力、数据集成工具能力、容器云能力、深度学习框架能力等,并支持灵活扩展。
面向省分公司、子公司及内外部合作伙伴,实现大数据云化资源能力的自助开放,支持租户进行大数据平台建设、大数据加工处理、模型训练及应用的开发部署。
资源管理,负载均衡,统一服务集成框架(KubernetesServiceCatalog)Kubernetes+Docker资源调度资源隔离弹性伸缩安全管控,大数据即服务,中间件/数据库即服务,RedisKafka,数据集成工具即服务,云化ETL,容器云服务,深度学习即服务,租户,某省大数据生产平台,某省经营分析系统(数据加工),创新孵化模型训练,应用/微服务开发部署,+平台+集约管理智能调度动态弹缩,+租户+自助申请租户隔离应用持续集成/部署,3.2主要PaaS能力,Hive开源SQL引擎组件,能够将普通SQL语法转化成MapReduce作业,执行批处理任务。
HBaseNosql数据库,支持结构化、半结构化以及非结构化数据存储。
Hbase表动态可扩展,支持高并发的检索查询。
Spark基于内存的分布式计算引擎,大大提高了海量数据加工处理的性能。
HadoopHadoop基础服务,包括HDFS分布式文件系统、统一资源管理框架YARN等组件。
01大数据基础服务组件(原子组件+场景化组合),实时计算云上的流处理分析服务,对流数据进行实时采集和处理,构建实时数据仓库和实时应用,挖掘流式数据价值。
包括HDFS、SparkStreaming、Hbase等组件。
数据仓库构建一站式数据仓库服务,提供数据整合、加工、分析等全套数仓构建服务,帮助打造数据核心。
包括HDFS、Hive、Spark等组件。
数据挖掘数据挖掘开发平台,可进行机器学习和AI应用的开发和训练,支持对各类数据实现高度智能化的处理。
包括Tensorflow、MxNet等组件。
数据集市适用于面向部门级的数据分析业务,提供包括交互式分析引擎、OLAPCube引擎,支持自动化的报表应用构建。
包括HDFS、Hive、Spark、Rubik等组件。
Storm基于事件驱动模式的实时处理框架,实时数据处理延时能够低至10ms级别。
ZooKeeperApache分布式应用程序协调服务组件,主要用于大数据分布式组件的配置、状态、元数据等信息的存储。
信息检索PB级别高速全文检索服务,提供高并发支持,冷热数据隔离,以及字段精确、模糊检索和快速统计功能。
包括ElasticSearch等组件。
IMPALA高性能SQL查询引擎,将MPP与Hadoop架构进行融合;
数据查询性能远高于Hive。
3.2主要PaaS能力,03数据集成工具,高吞吐的分布式消息队列。
02中间件及数据库服务组件KafkaRedis,基于K-V的内存数据库,具有极高的数据查
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 容器 数据 平台 技术 架构