书签分享收藏举报版权申诉 / 32

立即下载加入VIP,免费下载

当前位置：首页 > 总结汇报 > 学习总结 > 大数据-商业智能挑战.ppt

大数据-商业智能挑战.ppt

文档编号：953857
上传时间：2022-10-14
格式：PPT
页数：32
大小：7.48MB

大数据-商业智能挑战.ppt

《大数据-商业智能挑战.ppt》由会员分享，可在线阅读，更多相关《大数据-商业智能挑战.ppt（32页珍藏版）》请在冰豆网上搜索。

大数据-商业智能挑战.ppt

1,大数据，商业智能的挑战,搬运大数据的亨利2019.4.20,2,目录,1.大数据背景2.开源大数据生态圈和商用大数据生态圈3.开源前端生态圈和商用前端生态圈4.大数据BI系统的底层技术5.大数据BI系统的演变过程6.建设大数据BI系统的思考,3,大数据背景,大数据的4V1.数据量大（Volume）2.速度快（Velocity）3.类型多（Variety）4.价值密度低（Value）,4,大数据背景,更多的数据？

谷歌自始至终都认为数据是越多越好，用谷歌产品研发总监PeterNorvig的话就是：

更多的数据胜过更好的算法,5,开源大数据生态圈,诞生：

谷歌大数据领袖谷歌，于2019年起发布一系列论文:

1.TheGoogleFileSystem2.MapReduce:

SimplifiedDataProcessingonLargeClusters3.Bigtable:

ADistributedStorageSystemforStructuredData战火被点燃，从此进入大数据时代,6,开源大数据生态圈,诞生：

开源大数据生态圈1.HadoopHDFS、HadoopMapReduce,HBase、Hive渐次诞生，早期Hadoop生态圈逐步形成2.Hypertable是另类。

它存在于Hadoop生态圈之外，但也曾经有一些用户,7,开源大数据生态圈,HadoopMapReduce不适合实时计算？

1.任务分配Server不会将信息Push到计算Node，而是让计算Node通过心跳去Pull任务2.基于框架的通用性，MapReduce代码也会在HDFS中传送，在各计算Node展开，再通过启动新JVM进程装载并运行3.类似的JVM进程启停有5、6次之多4.ReduceTask只能在所有MapTask完成之后才能启动,8,开源大数据生态圈,中期：

谷歌.为了高扩展性，我们容忍了高延迟.2019年，谷歌又发布了论文:

Dremel:

InteractiveAnalysisofWebScaleDatasets.论文撰写于2019年.平静再次被打破,9,开源大数据生态圈,中期：

开源在HadoopMapReduce框架之外，衍生出了一批低延迟的大数据分析项目：

ClouderaImpala,MapRDrill,HBaseCoprocessor,Spark,etc.,Caution!

10,开源大数据生态圈,后来：

谷歌NoSQL引领着IT界时尚圈，几乎家喻户晓；低延迟的大数据分析项目在开源界刚出现没多久，谷歌又烧了第三把火。

这次它发表的两篇论文是：

1.F1-TheFault-TolerantDistributedRDBMSSupportingGooglesAdBusiness2.Spanner:

GooglesGlobally-DistributedDatabase,.多年以来，很多人以NoSQL为时尚。

到后来才发现，原来谷歌早就在用SQL语句自如地访问自己的MPP数据库：

F1和Spanner了.NoSQL定义曾经有很多版本，谷歌的最新定义是：

NoTimetoSupportSQL,11,开源大数据生态圈,后来：

开源界整体失声这里的黎明静悄悄.,12,开源大数据生态圈,总结：

开源大数据生态圈落后，努力！

基本套路：

1.2019年，谷歌点燃了大数据战火2.2019年，谷歌又给大数据放了一把火3.2019年，谷歌再给大数据放了第三把火,13,开源大数据生态圈,几个另类：

MySQL,MonetDB,PostgreSQL,想过打造属于自己的MPP数据仓库吗？

14,商用大数据生态圈,一体机数据库/数据仓库:

Scale-out数据仓库:

Scale-up数据集市:

Scale-out数据集市:

15,开源前端生态圈,开源:

16,商用前端生态圈,统计分析和数据挖掘:

展现分析:

17,大数据BI系统的底层技术,必要的底层技术1.分布式计算2.分布式通信3.内存计算4.列存储5.库内计算,18,大数据BI系统的底层技术,分布式计算1.OfflineMPP2.OnlineMPP,Dremel,2.Online,1.Offline,Map,RedI,RedII,Group/AggrQuery,Map,Map,RedI,Map,Caution!

19,大数据BI系统的底层技术,分布式通信1.Performance2.Load3.Variance,Average（a）是相同值5，但是Variance（a）差距很大,20,大数据BI系统的底层技术,内存计算1.AllData2.HotData,1.Initializing,2.Computing,1.Initializing,2.Computing,Caution!

21,大数据BI系统的底层技术,列存储1.Compact（RunLength,Dict,Range,LZW，Delta,etc.）2.PartialI/O3.BlockCopy,SelectOrder.SalesFromOrder,1.OnlyLoadSales,2.BlockCopySales,22,大数据BI系统的底层技术,库内计算-条件查询,条件能否压下去？

BRANCH,23,大数据BI系统的底层技术,库内计算-聚集查询,Sum,1.Map:

Sum,2.Reduce:

Sum_Sum,Count,1.Map:

Count,2.Reduce:

Sum_Count,Variance,1.Map:

Count,Sum,SumSQ,2.Reduce:

Sum_Count,Sum_Sum,Sum_SumSQ,0.Formula:

（n*x2（x）2）/（n*（n1）,Covariance,1.Map:

Sum_x,Sum_y,SumWT_xy,Count_x,2.Reduce:

Sum_Sum_x,Sum_Sum_y,Sum_SumWT_xy,Sum_Count,0.Formula:

1/n*xy-x*y,24,大数据BI系统的底层技术,库内计算子查询,子查询怎么转化为MapReduce？

有一些论文专门研究子查询的改写。

例如：

WonKim:

OnOptimizinganSQL-likeNestedQuery例如：

CesarA.GalindoLegaria&MilindM.Joshi:

OrthogonalOptimizationofSubqueriesandAggregation,子查询大致可以分为以下几类：

1.Type-A,2.Type-N,3.Type-J,4.Type-JA例如，Type-J子查询可改写为Join（关联）:

Selectt1.col1fromt1wheret1.col2in（selectt2.col2fromt2wheret1.jcol=t2.jcol）1.Mergethetablesinthesubquerytothefromclauseofthemainquery.2.Addsubqueryconditions（includingjoins）tothemainqueryswhereclause.TheconditionsshouldbecombinedusinganANDoperator.3.ReplaceRi.Ciop（selectRj.Cj）withajoin:

Ri.CinopRj.Cj,andANDitwiththeentirecondition.IfopisIN,theconditionisRi.Ci=Rj.CjIfopisNOTIN,theconditionisNOT（Ri.Ci=Rj.Cj）,25,大数据BI系统的演变过程,第一阶段1.OLAPonOLTP,第二阶段1.MaterializedView2.Stage,ODS,DWD,DWA3.ROLAP,MOLAP,HOLAP,第三阶段1.开源社区2.一体机,MPPDW,MPPDM,这也是几乎每个BI研发人员的进化之旅，直到.,26,建设大数据BI系统的思考,大数据BI系统并不仅仅是数据展现1.要能够掌握情况、分析问题、找到答案2.前端系统的交互和分析能力要强大：

过滤（Filter）、钻取（Drill）、刷取（Brush）、缩放（Zoom）、关联（Associate）、变换（Transform）、动态计算（DynamicCalculation）、链接（Link）3.数据挖掘、预测将变成重要的需求,中美日BI系统建设目的,27,建设大数据BI系统的思考,性能最重要的功能？

1.性能需要衡量交付一个BI应用的整体周期及难易程度2.谨慎采用Cache、Preaggregation等不合乎直觉的技术：

优化效果不稳定；难以管理，可能失去控制3.性能最好不以牺牲粒度（Granularity）达到：

粒度越细越好4.海量数据，实时处理,28,建设大数据BI系统的思考,建设方向1.业务驱动优于数据驱动2.自助式（Self-Service）的大数据BI系统,29,建设大数据BI系统的思考,建设原则1.敏捷开发原则（ADP）：

AgileDevelopmentPrinciple.好系统不是一蹴而就，先切入进去再持续迭代2.开闭原则（OCP）：

OpentoExtension,ClosetoModification.减少BI应用对数据层的污染3.依赖倒置原则（DIP）：

DependencyInversionPrinciple.合理架构，降低数据与应用之间的依赖度4.里氏替换原则（LSP）：

LiskovSubstitutionPrinciple.开放标准，使各模块的替换性好,30,建设大数据BI系统的思考,产品选型,Scale-out,Scale-up,x86Server,Non-x86Server,31,建设大数据BI系统的思考,常见架构,+,PB,TB,传统的BI系统架构并非一无是处，同样值得我们学习借鉴,+,32,谢谢！

欢迎莅临,2019中国数据库技术大会,搬运大数据的亨利henryhe.bigmail,