大数据-商业智能挑战.ppt
- 文档编号:953857
- 上传时间:2022-10-14
- 格式:PPT
- 页数:32
- 大小:7.48MB
大数据-商业智能挑战.ppt
《大数据-商业智能挑战.ppt》由会员分享,可在线阅读,更多相关《大数据-商业智能挑战.ppt(32页珍藏版)》请在冰豆网上搜索。
1,大数据,商业智能的挑战,搬运大数据的亨利2019.4.20,2,目录,1.大数据背景2.开源大数据生态圈和商用大数据生态圈3.开源前端生态圈和商用前端生态圈4.大数据BI系统的底层技术5.大数据BI系统的演变过程6.建设大数据BI系统的思考,3,大数据背景,大数据的4V1.数据量大(Volume)2.速度快(Velocity)3.类型多(Variety)4.价值密度低(Value),4,大数据背景,更多的数据?
谷歌自始至终都认为数据是越多越好,用谷歌产品研发总监PeterNorvig的话就是:
更多的数据胜过更好的算法,5,开源大数据生态圈,诞生:
谷歌大数据领袖谷歌,于2019年起发布一系列论文:
1.TheGoogleFileSystem2.MapReduce:
SimplifiedDataProcessingonLargeClusters3.Bigtable:
ADistributedStorageSystemforStructuredData战火被点燃,从此进入大数据时代,6,开源大数据生态圈,诞生:
开源大数据生态圈1.HadoopHDFS、HadoopMapReduce,HBase、Hive渐次诞生,早期Hadoop生态圈逐步形成2.Hypertable是另类。
它存在于Hadoop生态圈之外,但也曾经有一些用户,7,开源大数据生态圈,HadoopMapReduce不适合实时计算?
1.任务分配Server不会将信息Push到计算Node,而是让计算Node通过心跳去Pull任务2.基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行3.类似的JVM进程启停有5、6次之多4.ReduceTask只能在所有MapTask完成之后才能启动,8,开源大数据生态圈,中期:
谷歌.为了高扩展性,我们容忍了高延迟.2019年,谷歌又发布了论文:
Dremel:
InteractiveAnalysisofWebScaleDatasets.论文撰写于2019年.平静再次被打破,9,开源大数据生态圈,中期:
开源在HadoopMapReduce框架之外,衍生出了一批低延迟的大数据分析项目:
ClouderaImpala,MapRDrill,HBaseCoprocessor,Spark,etc.,Caution!
10,开源大数据生态圈,后来:
谷歌NoSQL引领着IT界时尚圈,几乎家喻户晓;低延迟的大数据分析项目在开源界刚出现没多久,谷歌又烧了第三把火。
这次它发表的两篇论文是:
1.F1-TheFault-TolerantDistributedRDBMSSupportingGooglesAdBusiness2.Spanner:
GooglesGlobally-DistributedDatabase,.多年以来,很多人以NoSQL为时尚。
到后来才发现,原来谷歌早就在用SQL语句自如地访问自己的MPP数据库:
F1和Spanner了.NoSQL定义曾经有很多版本,谷歌的最新定义是:
NoTimetoSupportSQL,11,开源大数据生态圈,后来:
开源界整体失声这里的黎明静悄悄.,12,开源大数据生态圈,总结:
开源大数据生态圈落后,努力!
基本套路:
1.2019年,谷歌点燃了大数据战火2.2019年,谷歌又给大数据放了一把火3.2019年,谷歌再给大数据放了第三把火,13,开源大数据生态圈,几个另类:
MySQL,MonetDB,PostgreSQL,想过打造属于自己的MPP数据仓库吗?
14,商用大数据生态圈,一体机数据库/数据仓库:
Scale-out数据仓库:
Scale-up数据集市:
Scale-out数据集市:
15,开源前端生态圈,开源:
16,商用前端生态圈,统计分析和数据挖掘:
展现分析:
17,大数据BI系统的底层技术,必要的底层技术1.分布式计算2.分布式通信3.内存计算4.列存储5.库内计算,18,大数据BI系统的底层技术,分布式计算1.OfflineMPP2.OnlineMPP,Dremel,2.Online,1.Offline,Map,RedI,RedII,Group/AggrQuery,Map,Map,RedI,Map,Caution!
19,大数据BI系统的底层技术,分布式通信1.Performance2.Load3.Variance,Average(a)是相同值5,但是Variance(a)差距很大,20,大数据BI系统的底层技术,内存计算1.AllData2.HotData,1.Initializing,2.Computing,1.Initializing,2.Computing,Caution!
21,大数据BI系统的底层技术,列存储1.Compact(RunLength,Dict,Range,LZW,Delta,etc.)2.PartialI/O3.BlockCopy,SelectOrder.SalesFromOrder,1.OnlyLoadSales,2.BlockCopySales,22,大数据BI系统的底层技术,库内计算-条件查询,条件能否压下去?
BRANCH,23,大数据BI系统的底层技术,库内计算-聚集查询,Sum,1.Map:
Sum,2.Reduce:
Sum_Sum,Count,1.Map:
Count,2.Reduce:
Sum_Count,Variance,1.Map:
Count,Sum,SumSQ,2.Reduce:
Sum_Count,Sum_Sum,Sum_SumSQ,0.Formula:
(n*x2(x)2)/(n*(n1),Covariance,1.Map:
Sum_x,Sum_y,SumWT_xy,Count_x,2.Reduce:
Sum_Sum_x,Sum_Sum_y,Sum_SumWT_xy,Sum_Count,0.Formula:
1/n*xy-x*y,24,大数据BI系统的底层技术,库内计算子查询,子查询怎么转化为MapReduce?
有一些论文专门研究子查询的改写。
例如:
WonKim:
OnOptimizinganSQL-likeNestedQuery例如:
CesarA.GalindoLegaria&MilindM.Joshi:
OrthogonalOptimizationofSubqueriesandAggregation,子查询大致可以分为以下几类:
1.Type-A,2.Type-N,3.Type-J,4.Type-JA例如,Type-J子查询可改写为Join(关联):
Selectt1.col1fromt1wheret1.col2in(selectt2.col2fromt2wheret1.jcol=t2.jcol)1.Mergethetablesinthesubquerytothefromclauseofthemainquery.2.Addsubqueryconditions(includingjoins)tothemainqueryswhereclause.TheconditionsshouldbecombinedusinganANDoperator.3.ReplaceRi.Ciop(selectRj.Cj)withajoin:
Ri.CinopRj.Cj,andANDitwiththeentirecondition.IfopisIN,theconditionisRi.Ci=Rj.CjIfopisNOTIN,theconditionisNOT(Ri.Ci=Rj.Cj),25,大数据BI系统的演变过程,第一阶段1.OLAPonOLTP,第二阶段1.MaterializedView2.Stage,ODS,DWD,DWA3.ROLAP,MOLAP,HOLAP,第三阶段1.开源社区2.一体机,MPPDW,MPPDM,这也是几乎每个BI研发人员的进化之旅,直到.,26,建设大数据BI系统的思考,大数据BI系统并不仅仅是数据展现1.要能够掌握情况、分析问题、找到答案2.前端系统的交互和分析能力要强大:
过滤(Filter)、钻取(Drill)、刷取(Brush)、缩放(Zoom)、关联(Associate)、变换(Transform)、动态计算(DynamicCalculation)、链接(Link)3.数据挖掘、预测将变成重要的需求,中美日BI系统建设目的,27,建设大数据BI系统的思考,性能最重要的功能?
1.性能需要衡量交付一个BI应用的整体周期及难易程度2.谨慎采用Cache、Preaggregation等不合乎直觉的技术:
优化效果不稳定;难以管理,可能失去控制3.性能最好不以牺牲粒度(Granularity)达到:
粒度越细越好4.海量数据,实时处理,28,建设大数据BI系统的思考,建设方向1.业务驱动优于数据驱动2.自助式(Self-Service)的大数据BI系统,29,建设大数据BI系统的思考,建设原则1.敏捷开发原则(ADP):
AgileDevelopmentPrinciple.好系统不是一蹴而就,先切入进去再持续迭代2.开闭原则(OCP):
OpentoExtension,ClosetoModification.减少BI应用对数据层的污染3.依赖倒置原则(DIP):
DependencyInversionPrinciple.合理架构,降低数据与应用之间的依赖度4.里氏替换原则(LSP):
LiskovSubstitutionPrinciple.开放标准,使各模块的替换性好,30,建设大数据BI系统的思考,产品选型,Scale-out,Scale-up,x86Server,Non-x86Server,31,建设大数据BI系统的思考,常见架构,+,PB,TB,传统的BI系统架构并非一无是处,同样值得我们学习借鉴,+,32,谢谢!
欢迎莅临,2019中国数据库技术大会,搬运大数据的亨利henryhe.bigmail,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 商业 智能 挑战