MongoDBSpark大数据解决方案资料下载.pdf
- 文档编号:16119065
- 上传时间:2022-11-20
- 格式:PDF
- 页数:31
- 大小:4.07MB
MongoDBSpark大数据解决方案资料下载.pdf
《MongoDBSpark大数据解决方案资料下载.pdf》由会员分享,可在线阅读,更多相关《MongoDBSpark大数据解决方案资料下载.pdf(31页珍藏版)》请在冰豆网上搜索。
50:
50,host:
xyz,error:
404,.body:
ts:
49:
23,host:
def,error:
019,.body:
22,host:
null,body:
.ts:
2016-07-0102:
04:
12,host:
abc,error:
500,body:
.使用场景使用场景HDFSMongoDB7月1日到31日所有页面的点击量统计OKOK每日HTTP404错误日志数量统计低效:
需要扫描所有文件行可利用索引秒级响应对日志行增加自定义字段保存分析结果不支持OK索引error:
1Spark+MongoDBSpark工作方式ParellelizeParellelizeParellelizeParellelizeTransformTransformTransformTransformActionActionActionActionmapfilterunionintersectResultResultResultResultEXECUTORWORKERSparkMasterDriverEXECUTORWORKEREXECUTORWORKEREXECUTORWORKERSTORAGEPROCESSINGSparkMongoDB架构任务调度原始数据计算结果连接器EXECUTORWORKERSparkMasterDriverEXECUTORWORKEREXECUTORWORKEREXECUTORWORKERSTORAGEPROCESSINGSparkMongoDBHDFS混合架构任务调度原始数据计算结果连接器MongoSparkConnector连接器双向支持:
读出与写入条件下推本地数据访问https:
/Spark+MongoDB成功案例客戶客戶案例案例实现价值实现价值乘客行为大数据分析,客戶360度视图改善的客户体验,降低客户流失实时监控分析跨国银行所有客户交易行为降低客户资金风险,提高合规性运价计算集群及缓存,降低机票查询响应时间改善用户使用体验,提高直销率东方航空的挑战260,000?
50%?
130,000每天需支持运价查询数量,基于12000:
1查定比16亿思路:
空间换时间目前运价实现为实时计算,可以支持每天1000多万QPS空间换时间实时运算?
MongoDB?
LAXNYCStayDurationDateLAXBOSStayDurationDateNYCLAXStayDurationDateBOSLAXStayDurationDateBOSNYCStayDurationDatePVGSZX26仓位Date365x1000+DISMISSED!
365天x1000航班x26仓位x100渠道xN类型=数十亿运价Spark+MongoDB方案TEXTB2TIB2CB2MCallCenterMobileB2CSparkMasterSparkMaster.SparkSubmitDRVInvAPIFareAPIFareInvImplDRV批处理计算运价查询SeatInventoryFareCacheDRVInvAPIFareAPIFareInvImplDRVSubmitBatchJobENDLoadReferenceDataCollectResultsBroadcastVariablesParallelComputeMasterSTARTParallelComputeCollectResultsSplitJobs准备任务到MongoDB读出计算任务Spark并发计算结果存入MongoDBInputjobInputjoboutputoutputvarsvars批处理计算流程Vars:
FlightscheduleBasepricePriceRules/initializationdependenciesincludingbaseprices,pricingrulesandsomereferencedataMapdependencies=MyDependencyManager.loadDependencies();
/broadcastingdependenciesjavaSparkContext.broadcast(dependencies);
/createjobrddcabinsRDD=MongoSpark.load(javaSparkContext).withPipeline(pipeline)/foreachcabin,date,airportpair,calculatethepricecabinsRDD.map(functioncalc_price);
/collecttheresult,whichwillcausethedatatobestoredintoMongoDBcabinsRDD.collect()cabinsRDD.saveToMongo()Spark任务入口程序?
0500100015002000250030003500LegacySpark+MongoThroughput050100150200250300350LegacySpark+MongoLatency处理能力和响应时间比较SparkMongoDB演示安装Spark#curl-OLhttp:
/MongoSpark.load(sc).map(doc=(doc.getString(flight),doc.getLong(seats).reduceByKey(x,y)=(x+y).take(10).foreach(println)数据:
365天,所有航班库存信息,500万文档任务:
按航班统计一年内所有余票量简单分组统计加条件过滤importorg.bson.DocumentMongoSpark.load(sc).withPipeline(Seq(Document.parse($match:
orig:
KMG).map(doc=(doc.getString(flight),doc.getLong(seats).reduceByKey(x,y)=(x+y).take(10).foreach(println)数据:
按航班统计一年内所有库存,但是只处理昆明出发的航班结语性能优化事项?
CPU?
SparkTotaldatasize/chunksize=chunks=RDDpartitions=sparktasks?
1-2?
core?
spark+mongo?
IO?
chunksize(MB)+?
Spark个性化,产品推荐机器学习流处理能力?
Hadoop?
MongoDB需要支持数据随机更新操作分析结果需用于交互型APP对数据使用有灵活查询需求Questions?
更快!
更敏捷!
Questions?
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MongoDBSpark 数据 解决方案
![提示](https://static.bdocx.com/images/bang_tan.gif)