大数据技术专题研究.pptx
- 文档编号:1726666
- 上传时间:2022-10-23
- 格式:PPTX
- 页数:31
- 大小:2.47MB
大数据技术专题研究.pptx
《大数据技术专题研究.pptx》由会员分享,可在线阅读,更多相关《大数据技术专题研究.pptx(31页珍藏版)》请在冰豆网上搜索。
大数据技术专题研究,2017.3.3,目录,大数据概述,大数据概念,大数据(bigdata)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据概述,体量大Volume,类型多Variety,价值密度低Value,速度快Velocity,非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍,大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义,大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效,大数据的4V特性,文件存储,数据分析数据计算数据存储,平台管理,数据集成,数据源,DatabaseWebLog,现代数据处理能力组件,现代数据处理框架,计算存储,容错,大数据概述,大数据的三大关键问题存储、计算、容错,大数据概述,大数据产业,大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合,大数据概述,大数据与云计算、物联网的关系,云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别,云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
云计算关键技术包括:
虚拟化、分布式存储、分布式计算、多租户等。
云计算,大数据概述,大数据与云计算、物联网的关系,云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别,物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制。
物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等。
物联网,大数据概述,大数据与云计算、物联网的关系,目录,大数据主要技术,技术体系,数据安全技术,系统运维技术,大数据主要技术,技术分类,大数据主要技术,两大核心技术,分布式存储,分布式处理,GFSHDFSBigTableHBaseNoSQL(键值、列族、图形、文档数据库)NewSQL(如:
SQLAzure),MapReduce,大数据,大数据主要技术,关键技术介绍,大数据主要技术,关键技术介绍-Hadoop,一个分布式系统基础架构,由Apache基金会所开发。
Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。
HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。
HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。
Hadoop的框架最核心的设计就是:
HDFS和MapReduce。
HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。
充分利用集群的威力进行高速运算和存储。
大数据主要技术,关键技术介绍-HDFS,HadoopDistributedFileSystem,简称HDFS1,是一个分布式文件系统。
HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。
而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。
HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streamingaccess)文件系统中的数据。
HDFS开始是为开源的apache项目nutch的基础结构而创建,HDFS是hadoop项目的一部分,而hadoop又是lucene的一部分。
大数据主要技术,关键技术介绍-NoSQL,NoSQL(NoSQL=NotOnlySQL),意即“不仅仅是SQL”,是一项全新的数据库革命性运动,早期就有人提出,发展至2009年趋势越发高涨NoSQL的拥护者们提倡运用非关系型的数据存储,相对于铺天盖地的关系型数据库运用,这一概念无疑是一种全新的思维的注入。
可以处理超大量的数据。
NoSQL对大型企业来说还不是主流。
大数据主要技术,关键技术介绍其他,大数据厂商及产品,大数据厂商及产品,1.大数据基础设施类,1)硬件类主要厂商有华为、中兴、联想、浪潮、IBM、HP、戴尔等。
2)软件类基于大数据基础设施提供云服务的有AmazonWebServiceElasticMapReduce、GoogleBigQuery、Infochimps、MicrosoftWindowsAzure,阿里云等。
软件类主要厂商有达梦、南大通用、人大金仓、博晓通等。
大数据厂商及产品,2.大数据分析类,1)分析解决方案在这里,最耀眼的明星当属Hadoop,Hadoop已被公认为是新一代的大数据处理平台,Cloudera、Hortonworks、MapR、Informatica、Microsoft以及Oracle都纷纷投入了Hadoop的怀抱。
其他还包括HP的Vertica、EMC的GreenplumHD、IBM的BigInsights、用友、久其、永洪科技、星图数据、北斗天成、智慧图等。
2)数据可视化主要厂商有TeraDataAster、SAS、TableauSoftware、Tibco、EMCGreenplum、海云数据、国云数据、数字冰雹、曼恒数字等。
3)精准营销有腾讯、新浪、搜狐、网易、微众、迅雷、今日头条、博易智讯等。
4)分析服务提供舆情分析的服务主要有方正、Talkingdata、中科数据、红麦、拓尔思等。
大数据厂商及产品,2.大数据分析类-分析解决方案,平台解决方案厂商除去IBM、SAP、Oracle、微软、惠普国外代表厂商,在国内有星环科技、帆软软件、用友、永洪等等。
星环科技星环信息科技主要从事大数据时代核心平台数据库软件的研发与服务,被Gartner列为国际主流Hadoop发行版厂商。
其产品TranswarpDataHub提供高速SQL引擎TranswarpInceptor,NoSQL搜索引擎TranswarpHyperbase、流处理引擎TranswarpStream和数据挖掘组件TranswarpDiscover。
帆软软件帆软软件由报表软件FineReport起家,目前已成为报表领域的权威者,拥有10年企业数据分析的行业经验。
后发布的商业智能自助式BI工具FineBI,提供包括Hadoop、分布式数据库、多维数据库的大数据可视化分析;提供PC端、移动端、大屏的可视化方案,广泛应用于银行、电商、地产、医药、制造、电信、制造、化工等行业,拥有成熟的行业化解决方案。
大数据厂商及产品,2.大数据分析类-数据可视化,数字冰雹数字冰雹主营大数据可视化业务,提供集设计、程序开发、硬件集成为一体的解决方案,广泛应用于航天战场、智慧城市、网络安全、企业管理、工业监控等领域。
海云数据海云数据的产品图易能够集成用户内部系统大量结构化、非结构化数据,在真实的数据源上,将行业大数据进行多维度的可视分析。
目前主要应用于公安、航空、快消、制造、金融、医疗、信息安全等领域。
星图数据星图数据是互联网大数据服务公司,涉及线上零售、线上娱乐、线上教育等领域。
基于分布式大数据获取与存储系统进行大数据处理及分析,具有自有的大数据分析体系和云计算处理技术。
大数据厂商及产品,2.大数据分析类-精准营销分析,大数据技术使得用户在互联网的行为,得到精准定位,从而细化营销方案、快速迭代产品。
这方面的厂商有GrowingIO、神策数据等。
GrowingIOGrowingIO是基于互联网的用户行为数据分析产品,具有无埋点的数据采集技术,可以通过网页或APP的浏览轨迹、点击记录和鼠标滑动轨迹等行为数据,进行实时的用户行为数据分析,用于优化产品体验,实现精益化运营。
神策数据与GrowingIO类似,也是基于用户网络行为,采集数据进行分析。
技术上提供开放的查询API和完整的SQL接口,同时与MapReduce和Spark等计算引擎无缝融合,随时以最高效的方式来访问干净、规范的数据。
大数据厂商及产品,2.大数据分析类-分析服务,提供舆情分析的有百度统计、品友互动、Talkingdata、友盟、中科数据等等。
百度统计百度统计是专业的网站流量分析工具,和GA类似,提供免费的流量分析、来源分析、网站分析等多种统计分析服务,能够告诉用户访客是如何找到并浏览用户的网站,在网站上做了些什么,以此来改善访客在用户的网站上的使用体验。
TalkingDataTalkingData是独立的第三方移动数据服务品牌。
其产品及服务涵盖移动应用数据统计、移动广告监测、移动游戏运营、公共数据查询、综合数据管理等多款极具针对性的产品及服务。
在银行、互联网、电商行业有广泛的数据服务应用。
友盟+第三方全域大数据服务提供商,通过全面覆盖PC、手机、传感器、无线路由器等多种设备数据,打造全域数据平台。
提供全业务链数据应用解决方案,包括基础统计、运营分析、数据决策和数据业务等,帮助企业实现数据化运营和管理。
大数据厂商及产品,3.大数据应用类,1)商业智能产品BI产品主要有Oracle的Hyperion、SAPBusinessObjects,MicrosoftBusinessIntelligence、IBMCongnos,SAS,HP的Autonomy、QlikView等这些产品通常具有分析和可视化能力。
2)日志应用主要产品有Splunk、Loggly、SumoLogic。
其中Splunk是一个可运行于各种平台的IT数据、日志分析软件。
3)广告媒体应用主要产品有MediaScience、BlucefinLaps、RocketFuelDataXu,RecordedFuture、AdMaster、Adtime.其中RocketFuel是一家广告优化公司,每天处理15亿次品牌广告展示,广告效果完全基于数据来改善。
4)垂直行业应用主要有PredictivePliciing、BloomReach,Myrrix,Atigeo、360、高德、超图、广联达、科大讯飞、1号店、思特奇、美林数据、万卷科技等。
其中BloomReach公司面向市场开发大数据应用(BDA),通过机器学习,网络爬虫和搜索技术来挖掘数据,对网站的数据进行分析,然后为网站带来更多的流量,从而给他们的客户带来更多的利润。
大数据厂商及产品,4.大数据数据源类,此类厂商主要有数据堂和聚合数据。
目录,能力储备分析,数据安全技术,系统运维技术,目录,讨论,1.技术2.现有能力积累3.项目机会4.其他,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 专题研究