开源力量公开课第二十六期大数据的实时分析与应用案例分享图文档格式.docx
- 文档编号:18797112
- 上传时间:2023-01-01
- 格式:DOCX
- 页数:17
- 大小:24.88KB
开源力量公开课第二十六期大数据的实时分析与应用案例分享图文档格式.docx
《开源力量公开课第二十六期大数据的实时分析与应用案例分享图文档格式.docx》由会员分享,可在线阅读,更多相关《开源力量公开课第二十六期大数据的实时分析与应用案例分享图文档格式.docx(17页珍藏版)》请在冰豆网上搜索。
用户会有更多全面数据分析需求,包括SQL、挖掘算法,以及以DeepLearning为代表机器学习技术。
什么是大数据实时分析?
}就是在几秒或者一秒内完成对亿万级数据的处理和分析;
}快:
10秒以内,100毫秒为佳;
}大:
数据应该是10亿/TB以上级别;
}分析操作多样:
可以是简单的查询,也可以是逻辑复杂的算法和数据分析;
大数据实时分析的目的}实时决策能力;
}提高业务效率;
}快速智能发现新观点和商业机会;
}提供业务产出;
}提升IT效率;
大数据实时分析场景
金融证券
高频交易
量化交易
互联网与电商用户行为分析商品模型分析信用分析
电信
业务支撑系统
统一营帐
商业智能
能源
电厂电网监控
用电信息采集分析
其他行业
智慧城市
物联网
大数据资产
大数据实时分析所需的技术支撑}大数据秒级,甚至毫秒级的处理;
}上千人的并发访问;
}支持SQL标准,特别是OLAP相关的语句;
}数据的安全和集群的稳定型;
大数据实时分析的技术选型}Hadoop系列:
Hive,Impala;
}NoSQL类别:
MongoDB,HBase;
}传统关系型数据库:
Oracle,DB2,MySQL;
}传统列式数据库:
Infobright,SybaseIQ;
}新一代基于内存计算的数据库?
技术选型的对比图
秒级处理并发SQL支持安全和稳定HadoopNoDependsDependsYesNoSQLYesYesDependsDepends
DependsYesYesYes
传统关系型数据
库
传统列式数据库YesDependsYesDepends
?
基于内存技术的
新一代数据库
YunTable
YunTable是在从分布式MPP数据库的基础上发展而来,同时加入一些NoSQL的基因的新一代用于大数据实时分析的分布式数据库,并且支持内存计算,比较接近SAPHANA,也可以认为是新一代的数据仓库;
整体架构
核心特性
}大数据,秒级内存计算;
}采用廉价的x86硬件;
}自动线性动态扩展至数百台集群;
}每秒GB级别吞吐量,PB级别存储量;
}SQL92特性覆盖,并提供多平台的SQL驱动,还支持R;
核心技术
并行处理
内存计算行列混合存储
压缩
并行处理:
数据复制分布存储在不同的节点上并行处理内存本地化:
把大数据量和计算量分散到不同处理器
高可用性:
任何节点宕机将不影响数据完整和业务连续性核心技术(一:
数据源
C1C2C3C4
C1‘压缩C2‘压缩C3‘压缩C4‘压缩C1‘复制C2‘复制C3‘复制C4‘复制节点1节点2节点3
}行分区}保留数据关联}列式数据组织}高效的数据压缩}快速的数据聚合}独特的索引结构
赵25男钱25男
孙24男李30男周31女赵钱孙李周2525243031男男男
男女内存地址
行式的数据组织
列式的数据组织
赵
25男钱
25男孙
24男李
30男周31女数据源原始结构
映射到内存
核心技术(二:
行列混合存储开源力量|让我们一起向最牛的IT技术专家们学习!
核心技术(三:
高效压缩}多种无损压缩算法;
}加上前面的列式数据组织,整体压缩率高达7~20倍以上
核心技术(四:
内存计算
硬件性能的提升
64位地址空间—单台服务器内存容量可达2TB100GB/秒数据吞吐量价格迅速下降,性能迅速提升
多核架构(每块CPU8CoreX86服务器成本较低
可采用多服务器或多刀片大规模并行扩展
行列混合存储
极高的压缩效率
YunTable的软件技术创新
数据分片
高效索引
增量插入
硬件性能提升结合YunTable软件技术创新,使原来通过大量磁盘读写处理的海量数据,可以在服务器的主内存中实时处理,提供实时统计分析结果!
出色的性能
因为经过强大的数据压缩,使的数据规模小很多,大都会在内存中。
场景一:
互联网
主要业务应用:
电商交易分析,社交网络,位置信息服务,广告交易、跟踪分析等
典型用户:
互联网广告投放效果实时监测
场景:
广告投放效果实时分析数据规模:
100亿条记录
投放网站
投放平台监测平台
广告源,
投放代码
购买广告位
嵌入代码
Python(Cookie
logcsv
分析引擎,
模型和算法
统计报表
广告业主
项目YunTable指标(秒频次分析
9.492重合度分析
16.625多维度分析11.408
具体的性能测试结果
测试环境:
YunTable3台4核64G内存Dell服务器
数据场景:
2.3亿条互联网用户访问记录数据
场景二:
物联网与智能电网主要业务应用:
海量数据终端信息采集与用户行为分析
典型应用场景:
智能电网用电信息采集(子系统
InternetInternet数据采集服务器集群传感网络
Yun
Table实时分析数据库
实时数据RTDB
ETL工具
SQL(ODBC/JDBCSG168ERP计费系统采集业务
无线采集器
数据集中器
商业试验的案例-国家电网2012年底,我们团队参与了国家电网海盐大数据实验基地的建设,并且建设过程中,我们在性能方面与Oracle数据库进行了正面的PK。
在本次PK中,我们无论在导入和分析等性能方面,都远胜Oracle。
场景三:
金融
量化交易,高频交易
典型场景:
证券公司量化交易平台及各子系统
第三方行情数据库
第三方分析数据库Level2实时行情源Level2实时行情源
量化交易执行系统
CEP引擎
(Apama,SybaseAleri
行情计算服务
日内K线计算
分钟RSI计算
计算平台计算接口
量化交易策略
行情数据中心
分析数据
历史行
情数据
数据接收接口数据转换工具
策略执行结果评估
回测仿真
快速交易系统成交回报推送系统
模拟盘
实盘
交易所
历史高频行情数据回放
高频实
时数据开源力量|让我们一起向最牛的IT技术专家们学习!
证券POC具体性能表现(十亿条
查询时间
单日业务数据统计0.36秒
单周业务数据统计0.58秒
单月业务数据统计1.25秒
单日股票代码汇总分析2.27秒
单日多列汇总分析2.71秒
单日账户汇总分析4.43秒
单月股票代码汇总分析3.86秒
单月多列汇总分析5.09秒
单月账户汇总分析8.12秒
场景四:
电信运营商
BOSS/NGBOSS系统及各子系统典型应用场景:
NGBOSS业务运营支撑系统及各子系统
交换中心CSC
业务管理
YunTable运营数据
存储与提供商业智能
运营管理
订单枢纽
帐务枢纽
客服枢纽
鉴权枢纽
决策支持
YunTable分析数据服务、数据集市、数据仓库
管理分析
运营支持
经营分析
运营监控管理
YunTable运营管理数据
存储与服务
收入保障
人员管理
知识管理
纵向管理流程调度
业务流程调度管理统一产品目录管理统一业务资源管理
全网结算
数据集成
支撑网网管
交换节点PSN
网管数据枢纽中心数据信令传输网管
业务枢纽网管
枢纽节点数据
NGBOSS统一接入门户
一、效率提升类应用
应用场景举例:
快速批价,快速出账,报表加速。
EzTable能力展现度:
★★★★★用户效益评价★★★★
批价预处理/分拣/排重
原始记录
明细账单合帐高额控制
高额报告数据分发
要素统计报表
二、大数据应用平台
目前集团公司在广东、四川、重庆、安徽四省市开展试点。
应用场景:
配合Hadoop平台使用,用YunTable进行在线和实时分析,用Hadoop进行历史数据批量分析,提供从统计分析、数据挖掘与BI、数据可视化、业务应用开发等一系列PaaS服务。
★★★★★用户效益★★★★
实时数据YunTable
Hadoop
分析引擎,模型和算法统计报表
历史数据
SQL、API
API在线实时分析离线批量分析开源力量|让我们一起向最牛的IT技术专家们学习!
电信应用举例(三三、用户行为分析及DPI应用应用场景举例:
他网手机用户精准促转
EzTable能力展现度:
★★★★★用户效益:
★★★★★企业内网Wifi家庭Wifi
公众Wifi热
点覆盖EzTable
数据镜像ETL第三方网
站API接口
。
数据关联
•
他网号码、设备号关联•
热点地区•
网络服务能力对比•
消费能力评估•
事件及时发现,提醒•转网促销
分析模型开源力量|让我们一起向最牛的IT技术专家们学习!
YunTable,大数据的Tesla?
一起携手努力实现技术理想
THANKYOU
附录
MasterNode
当Standby宕机时,ActiveMasterNode会通知管理员加入新的Standby节点。
DataNode架构
注册DataNode
数据分布和处理架构
DataNode失效
集群“脑裂”开源力量|让我们一起向最牛的IT技术专家们学习!
开源力量公开课|每周二线上线下同时开课
数据导入(单节点导入)开源力量|让我们一起向最牛的IT技术专家们学习!
数据导入(多节点导入)开源力量|让我们一起向最牛的IT技术专家们学习!
数据导入(失败)开源力量|让我们一起向最牛的IT技术专家们学习!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 力量 公开 第二 十六 数据 实时 分析 应用 案例 分享