大数据体系结构_精品文档.ppt
- 文档编号:2563863
- 上传时间:2022-11-01
- 格式:PPT
- 页数:97
- 大小:11.30MB
大数据体系结构_精品文档.ppt
《大数据体系结构_精品文档.ppt》由会员分享,可在线阅读,更多相关《大数据体系结构_精品文档.ppt(97页珍藏版)》请在冰豆网上搜索。
大数据科学与工程系列大数据科学与工程系列大数据体系结构大数据体系结构陈志成陈志成中国科学院大学中国科学院大学2014年06月主要内容主要内容一、大数据时代的新命题一、大数据时代的新命题二、大数据的体系结构二、大数据的体系结构三、大数据的关键技术三、大数据的关键技术四、物联网与云计算架构四、物联网与云计算架构五、知名企业大数据架构五、知名企业大数据架构六、大数据系统设计案例六、大数据系统设计案例u总结、交流、作业总结、交流、作业一、大数据时代的新命题一、大数据时代的新命题谷歌大数据中心:
谷歌大数据中心:
全球主要全球主要DC有有8个个大数据表象概念:
大数据表象概念:
百度数据规模百度数据规模大数据表象概念:
大数据表象概念:
对系统要求对系统要求大数据时代的新命题大数据时代的新命题:
n数据在爆炸式增长数据在爆炸式增长互联网海量大数据互联网海量大数据物联网各类型数据物联网各类型数据n发数据处理能力要求提高发数据处理能力要求提高大规模数据存取方式大规模数据存取方式大数据并行技术能力大数据并行技术能力n数据间关联性分析加强数据间关联性分析加强社交网络关系社交网络关系多业务关联性多业务关联性用户行为分析用户行为分析n网络数据的实时同步网络数据的实时同步一切营销都线下线上一切营销都线下线上多业务跨地域数据同步多业务跨地域数据同步n“数据结构化数据结构化”本身是最本身是最具挑战性的一个环节具挑战性的一个环节.n海量数据与快速处理是一海量数据与快速处理是一对悖论对悖论.信息社会需求:
信息社会需求:
信息化信息化-智能化智能化-现代化现代化农业社会工业社会信息社会人力工具-镰刀-锄头动力工具-机车-机床智能工具-推理机-智能网信息时代的大数据需求信息时代的大数据需求信息时代数据大爆炸,信息时代数据大爆炸,推动智能技术发展推动智能技术发展信息时代,软件编程模型发展信息时代,软件编程模型发展n“面向信息处理面向信息处理”的智能化编程模型,编程简化为数据配置与管理大数据技术架构大数据技术架构数据数据智能智能二、大数据的系统架构二、大数据的系统架构传统数据库技术架构传统数据库技术架构:
nOracle数据库体系架构数据库体系架构大数据架构:
分层架构大数据架构:
分层架构u从从数数据据在在生生命命周周期期看看,大大数数据据从从数数据据源源经经过过分分析析挖挖掘掘到到最最终终获获得得价价值值需需要要经经过过5个环节,包括个环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。
数据准备、数据存储与管理、计算处理、数据分析和知识展现。
大数据的系统架构:
大数据的系统架构:
整体系统架构整体系统架构新一代编程语言大数据架构:
大数据架构:
整体逻辑功能架构整体逻辑功能架构大数据架构理解:
搜索引擎大数据架构理解:
搜索引擎大数据架构理解:
网页内容抓取大数据架构理解:
网页内容抓取大数据系统架构大数据系统架构HadoopuHadoop分布式系统组成分布式系统组成大数据系统架构大数据系统架构Hadoop在图中,在图中,Hadoop主要的功能组件有:
主要的功能组件有:
nHadoopCommon:
包含包含HDFS、MapReduce和其他项目公共内容;和其他项目公共内容;nHDFS:
Hadoop分布式文件系统;分布式文件系统;nMapReduce:
一个用于并行处理大数据集的软件框架。
:
一个用于并行处理大数据集的软件框架。
Map函数接受一组数据函数接受一组数据并将其转换为一个键并将其转换为一个键/值对列表,输入域中的每个元素对应一个键值对列表,输入域中的每个元素对应一个键/值对。
值对。
Reduce函数接受函数接受Map函数生成的列表,然后根据它们的键(为每个键生成一个键函数生成的列表,然后根据它们的键(为每个键生成一个键/值对)值对)缩小键缩小键/值对列表;值对列表;nHBase:
类似类似GoogleBigTable的分布式的分布式NoSQL列数据库;列数据库;nHive:
是基于:
是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的张数据库表,并提供完整的sql查询功能,可以将查询功能,可以将sql语句转换为语句转换为MapReduce任任务进行运行;务进行运行;nZookeeper:
分布式锁,提供类似:
分布式锁,提供类似GoogleChubby的功能;的功能;nAvro:
新的数据序列化格式与传输工具,将逐步取代:
新的数据序列化格式与传输工具,将逐步取代Hadoop原有的原有的IPC机制;机制;nPig:
大数据数据流分析平台,为用户提供多种接口;:
大数据数据流分析平台,为用户提供多种接口;nSqoop:
在:
在HADOOP与传统的数据库间进行数据的传递。
与传统的数据库间进行数据的传递。
大数据系统架构大数据系统架构Hadoop:
功能定位功能定位1.大数据系统架构大数据系统架构Hadoop:
层次对应层次对应大数据:
分布式计算架构大数据:
分布式计算架构大数据架构大数据架构:
MapReduce工作原理工作原理1大数据架构大数据架构:
MapReduce工作原理工作原理2三、大数据的关键技术三、大数据的关键技术大数据关键技术到底有哪些?
大数据关键技术到底有哪些?
核心问题是:
核心问题是:
(计算、存储、分析计算、存储、分析)算法算法大数据:
恐怖的大数据大数据:
恐怖的大数据(生活示例生活示例)智能性:
数据分析、自然语言理解智能性:
数据分析、自然语言理解逻辑推理逻辑推理(演示演示)艺术性:
分形算法、视频动画艺术性:
分形算法、视频动画(演示演示)大数据关键技术大数据关键技术1:
大数据存储技术大数据存储技术u数数据据的的海海量量化化和和快快增增长长特特征征、以以及及数数据据格格式式的的多多样样化化是是大大数数据据对对存存储储技技术术提提出出的的首首要要挑挑战战。
要要求求底底层层硬硬件件架架构构和和文文件件系系统统在在性性价价比比上上要要大大大大高高于于传传统技术,并能够弹性扩展存储容量。
统技术,并能够弹性扩展存储容量。
大数据关键技术大数据关键技术2:
并行计算能力并行计算能力u大数据的分析挖掘是数据密集型计算,需要巨大的计算能力。
u针对不同计算场景发展出特定分布式计算框架。
Yahoo提提出出的的S4系系统统、Twitter的的Storm,谷谷歌歌2010年年公公布布的的Dremel系系统统,MapReduce内存化以提高实时性的内存化以提高实时性的Spark框架框架.数据爆炸,知识贫乏数据爆炸,知识贫乏苦恼:
淹没在数据中;不能制定合适的决策!
数据数据知识知识决策决策n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期大数据关键技术大数据关键技术3:
数据分析技术数据分析技术u基基于于计计算算流流体体力力学学的的三三维维呈呈现现:
如如用用能能场场所所3D场场景景及及CFD温温度度及及能能效效云场呈现如下图。
云场呈现如下图。
大数据关键技术大数据关键技术4:
数据显示技术数据显示技术大数据分析大数据分析u世界杯:
英格兰世界杯:
英格兰vs意大利意大利1:
2。
数据热图。
数据热图大数据关键技术大数据关键技术5:
数据挖掘算法数据挖掘算法代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一代第一代数数据据挖挖掘掘作作为为一一个个独独立立的的应应用用支持一个或者支持一个或者多个算法多个算法独立的系独立的系统统单个机单个机器器向量数据向量数据第二代第二代和和数数据据库库以以及及数据仓库集成数据仓库集成多多个个算算法法:
能能够够挖挖掘掘一一次次不不能能放放进内存的数据进内存的数据数数据据管管理理系系统统,包包括括数数据据库库和和数数据据仓库仓库同质同质/局局部区域部区域的计算的计算机群集机群集有有些些系系统统支支持持对对象象、文文本本、和和连连续续的媒体数据的媒体数据第三代第三代和预言模型系和预言模型系统集成统集成多个算法多个算法数数据据管管理理和和预预言言模模型型系系统统intranet/extranet网网络计算络计算支支持持半半结结构构化化数数据据和和webweb数据数据第四代第四代和移动数据和移动数据/各种计算数据各种计算数据联合联合多个算法多个算法数数据据管管理理、预预言言模模型型、移动系统移动系统移移动动和和各各种种计计算算设设备备普普遍遍存存在在的的计计算算模模型型Debt$40KQQQQQQQQII123456factor1factor2factorn神经网络神经网络NeuralNetworksNeuralNetworks聚类分析聚类分析ClusteringClusteringOpenAccntAddNewProductDecreaseUsage?
Time序列分析序列分析SequenceAnalysisSequenceAnalysis决策树决策树DecisionTreesDecisionTrees倾向性分析客户保留客户生命周期管理目标市场价格弹性分析客户细分市场细分倾向性分析客户保留目标市场欺诈检测关联分析关联分析AssociationAssociation市场组合分析套装产品分析目录设计交叉销售大数据关键技术大数据关键技术5:
数据挖掘算法数据挖掘算法数据挖掘的主要方法分类(分类(Classification)聚类聚类(Clustering)相关规则相关规则(AssociationRule)回归回归(Regression)其他其他知识发现系统需要一个前处理知识发现系统需要一个前处理过程过程数据抽取数据抽取数据清洗数据清洗数据选择数据选择数据转换数据转换知识发现系统是一个自动知识发现系统是一个自动/半自半自动过程动过程知识发现系统要有很好的性能知识发现系统要有很好的性能知识发现KDD系统特征数据挖掘主要方法:
数据挖掘主要方法:
ETLuETLProcessFrameworkETL工工具具有有:
OWB(OracleWarehouseBuilder)、ODI(OracleDataIntegrator)、InformaticPowerCenter、AICloudETL、DataStage、DataSpider,等。
等。
ApplicationApplication&Operations&OperationsServicesServicesTransportTransportServicesServicesLoadLoadTransformTransformExtractExtractTargetadaptorsTargetadaptorsSourceadaptorsSourceadaptorsETLDataimport/ETLDataimport/RuleimportRuleimportETLDataExportETLDataExportRuntimeRuntimeMatadataMatadataServicesServicesDesignDesignmanagementmanagementMetadataMetadataImport/Import/exportexportMetadataMetadatamanagementmanagement四、物联网与云计算架构四、物联网与云计算架构互联网上的物联网:
概念互联网上的物联网:
概念互联网上的物联网:
发展互联网上的物联网:
发展u2009年年8月月7日日,温温家家宝宝视视察察中中科科院院嘉嘉兴兴无无线线传传感感网网工工程程中中心心无无锡锡研研发发分分中中心心,提提出出“在在传传感感网网发发展展中中,要要早早一一点点谋谋划划未未来来,早早一一点点攻
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 体系结构 精品 文档