DataWorks大数据平台介绍.pptx
- 文档编号:30872658
- 上传时间:2024-09-13
- 格式:PPTX
- 页数:47
- 大小:14.28MB
DataWorks大数据平台介绍.pptx
《DataWorks大数据平台介绍.pptx》由会员分享,可在线阅读,更多相关《DataWorks大数据平台介绍.pptx(47页珍藏版)》请在冰豆网上搜索。
DataWorks大数据平台介大数据平台介绍绍技术创新,变革未来2009立项DataWorks在阿里集团立项,Hadoop集群规模达1000台2013登月计划阿里集团启动登月计划,全面从Hadoop转向MaxCompute,集群规模达5K台数加平台发布阿里云数加品牌建立,DataWorks全新启航版本2016国际化DataWorks完成全球12+Region部署,走向国际化,开始服务全球客户2017发布V2.0DataWorksV2.0全新发布,形成数据集成-数据开发-数据服务-应用开发的一站式大数据智能云研发平台2018ORACLERACGreenplum(MPP)2011年前Hadoop+DataWorks2009-2013年数据量爆炸增长的情况下,计算能力面临瓶颈安全、易用性无法满足业务需要数据管理、数据治理能力弱DataWorks发展历程十年再出发自研MaxCompute+DataWorks2013年之后登月提供了完整的数据中台能力,持续满足业务发展统一了数据存储、数据平台对外发布DataWorks进入公共云和专有云市场,开始服务政企客户2015DataWorks-一站式大数据研发+治理平台存储计算引擎(MC、Flink、PAI)统一任务调度统一元数据中心DataOS统一权限管理统一智能运维统一API管控数据治理数据地图数据质量智能监控数据保护伞安全卫士数据编目影响分析离线数据流式数据基线管理主链路分析风险预警敏感数据分析权限申请权限审批数据血缘热度分析动态阈值智能推荐监控报警智能预测风险审计数据脱敏权限审计流程管理数据研发数据集成DataIntegration数据服务DataService数据应用构建AppStudio支持任意类型、任务网络环境的数据源上云离线计算实时计算DataStudioStreamStudio机器学习PAIStudio数据源On-premOff-prem可视化、一站式构建混编流批一体计算引擎任务流零代码快速构建数据API快速搭建数据应用DataWorks商业化收费模型基础版数据研发:
快速构建数据仓库标准版数据研发:
复杂、专业化流程开发能力实时数据体系快速构建数据治理:
安全审计体系快速落地保障数据准时产出其他功能增强企业版数据开发:
数据服务API编排满足各类“存、通、用”问题数据治理:
数据安全知识输出定制能力:
二次定制开发专业版数据研发:
可拓展数据服务API数据治理:
安全能力增强基础版快速构建数据仓库数据接入数据开发调度生产数据服务API构建表权限管理基础版:
覆盖大数据研发全生命周期研发全流程支持多团队协作开发数据应用开发复杂、异构数据源同步可视化运维全可视化运维可视化开发依赖配置生产开发隔离定时调度数据质量监控预设、自定义检查规则权限申请、审批0代码生成API机制Web端API开发01基础版标准版数据研发:
复杂、专业化流程开发能力实时数据体系快速构建数据治理:
安全审计体系快速落地保障数据准时产出其他功能增强每月最后一日(29日/30日/31日)需要运行特定任务产出月报数据。
需以标准方式构建复杂业务流程。
场景2月29日3月31日4月30日02标准版线性依赖SQLSQLPythonSQL简单场景02标准版判断节点IF-ELSE循环起始节点循环判断节点DO-WHILEShellSQLSQLShellSQLSQLSQLPython配置遍历数据遍历起始节点遍历判断节点FOREACH复杂场景循环节点遍历节点赋值节点归并节点分支节点02标准版分支节点实现特定时间执行任务场景描述:
实现每月最后一日(29日/30日/31日)运行特定代码。
解决方案:
赋值节点与分支节点搭配,实现复杂逻辑判断。
赋值节点负责将最后一条SELECT结果或最后一行标准输出流作为赋值节点的传参供下游引用。
分支节点负责接收到上游传参后,判断参数值命中自身哪一个条件,并触发所命中条件对应的下游任务。
“是”=1“不是”=01运行左分支0运行右分支02标准版SQL代码块需要给他人重复利用,复制粘贴效率太低且容易误操作。
需解决SQL代码复用的问题。
场景02标准版SQL组件代码重用,同一代码块无需编辑多次;支持变量传参、多业务流程同时引用。
02标准版业务快速发展、流计算专业技术人员紧缺的情况下,企业需快速构建:
*实时报表*实时风控*实时场景*实时数仓*实时推荐FlinkServer调参本地开发人肉运维./bin/flinkrun./examples/batch/WordCount.jar./bin/flinkrun-p16./examples/batch/WordCount.jar-inputfile:
/home/xiaosi/a.txt-outputfile:
/home/xiaosi/result.txt运行任务上传02标准版DAG开发、SQL/DAG互转0代码开发流计算任务与依赖关系本地调试(专业版)调试结果实时可见02标准版任务工作流庞大,维护每个任务监控规则非常痛苦!
需要简单快捷的方式来代替人肉进行有效监控。
场景工作量庞大,人肉维护不现实!
02标准版智能监控监控报警的痛点监控数量监控所有任务是不现实的配置难度为每个任务配置监控规则极为繁琐报警时间每个任务所需报警的时间都不同智能监控核心功能智能识别关键路径,合理设定报警阈值任务异常产生事件,自动评估事件影响范围,通知相应人员灵活报警方式配置,支持钉钉群机器人ABEDFGHCIJKL8:
306:
306:
306:
006:
005:
005:
004:
308:
30120min30min60min30min30min9:
00AB10minE45minDF20minGH120minCI60minJ50minLK智能基线监控02标准版基线预警事件报警自定义报警人为:
定义单个任务时间基准AI:
打通全链路智能预警基线任务报警更自由的报警方式变慢出错中间任务预测是否Delay02标准版02标准版某交易数据字段今日产出异常值,需找脏数据的源头。
需要简单快捷的方式来代替人肉进行有效监控。
场景User_countOrder_countOrder_amountbizdate5671120116496520190811200002标准版表血缘字段血缘数据从哪来?
到哪去?
02标准版企业数据管理者需建立最基本的数据审计机制,至少实现:
*数据敏感级别分级、分类*可视化(图形化)展示敏感数据*审计内部人员对敏感数据的访问行为*敏感数据可用不可见场景02标准版敏感数据分级与发现识别数仓中的敏感数据02标准版敏感数据访问行为审计谁?
在什么时间点?
以什么方式访问了敏感数据?
02标准版HASH脱敏生成随机值替换真实值假名脱敏相同特征值替换掩盖脱敏*号掩盖02数据脱敏数据可用不可见。
标准版专业版数据研发:
可拓展数据服务API数据治理:
安全能力增强*通过API对接具有不同数据结构要求的报表系统、可视化展现系统。
需实现API灵活适配不同协议、不同数据结构要求。
场景03专业版API返回结果的格式:
?
xy过滤器/函数对API数据进行二次加工并返回,灵活应对不同场景。
某银行年度对公放贷同比增长柱状图要求:
*维度(x):
体现公司信息(开立账户+公司名称+年同比增长率)*指标(y):
体现公司今年放贷金额某可视化工具模板xyxxxyxx最终呈现结果y:
6000000y:
8000000要求返回结果的格式:
xy处理后返回结果的格式:
xx:
y:
符合要求x,x:
firm_|上海xx互娱有限公司|50%,x:
y:
x:
firm_|深圳xx安全有限公司|70%,x:
y:
x:
firm_|杭州xx游戏有限公司|30%,y:
800000003专业版*流计算任务故障定位难,不仅浪费时间且结果不准确。
需实现快速、精准的故障定位。
场景Checkpoint算子subtaskTaskManager详细日志JobManager延时信息数据倾斜?
机器负载、网络问题?
03专业版智能运维让流计算问题排查变得简单!
数据源是否正常获取数据数据产出流处理结果是否正常产出延迟处理数据的进度情况脏数据数据源格式与用户定义不匹配Watermark统计迟到数据量和迟到的时间checkpointcheckpoint操作正常/异常failover是否近期出现频繁failover操作03专业版企业特有(非通用)敏感数据需纳入敏感数据进行审计。
需识别不具有普遍性的敏感数据。
场景nameOrder_idProduct_idProduct_desc(非通用敏感数据)Bankcard_id(模板可识别敏感数据)Order_dateJack2343523412441235私人用品-xxx62220203020345678972019-07-11Rose8767754645464313运动用品-篮球62220203020345678972019-08-1203专业版自定义内容扫描特定场景下才能才视为敏感信息的数据识别。
03专业版找到拥有较高数据权限人员的风险行为。
需识别预期外的敏感数据访问行为。
场景半夜查看手机号类字段03专业版风险行为识别发现非预期数据访问行为。
03专业版企业版数据开发:
数据服务API编排满足各类“存、通、用”问题数据治理:
数据安全知识输出定制能力:
二次定制开发场景JOINSelectfromtb1wheredt=20190814aSelectbfromtb2whereorder_ida=Selectcfromtb3wherelast_login_timeb=Selectdfromtb4wherepay_amount=cJOINSelectfromtb1afromtb1Selectb对比*企业审计人员随机、不定时地抽取复杂数据进行对比。
*风控系统需从多张表中取得相互依赖的数据供下游应用进行业务决策。
机遇与挑战并存:
如何有效地满足来自员工、商家、合作伙伴各种各样、纷繁复杂的需求,提升对数据使用的满意度。
04企业版数据服务DataWorks数据云上托管服务中心数据服务:
支持弹性伸缩的,高稳定QPS的,多数据源多协议的,Serverless服务编排的,云上数据托管API服务平台。
包括:
可视化生成API,自定义SQL生成API,函数计算,服务编排等,致力于数据服务化、数据共享和开放。
丰富的数据源DRDSSQLServerPostgreSQLTableStoArnealyticDBOracleHBaseLightning(MaxCompute)MonogoDBRDSMySQL零代码快速构建API生成数据API可视化向导生成API自定义SQL生成API搭建通用服务API上传Jar包部署API注册API集成算法预测API无缝集成PAI在线预测服务高效的服务编排多个API、函数按业务逻辑编排成工作流,形成新的含有复杂逻辑的复合服务服务编排的优势:
API串联、并行、条件调用,无需编写任何代码,可视化编排,简单易用API之间的调用变为内部调用,减少网络开销,提升服务性能Switch查订单查实例开始获取用户ID获取组织ID结束订单实例04企业版Selectfromtb1wheredt=20190814aSelectbfromtb2whereorder_ida=Selectcfromtb3wherelast_login_timeb=Selectdfromtb4wherepay_amount=c04企业版JOINJOINSelectfromtb1afromtb1Selectb对比04企业版常见PII敏感数据的识别模型通过内置扫描模型识别敏感数据。
场景04企业版迅速识别特定的风险行为通过内置风险识别模型识别非预期访问行为。
场景04企业版识别自定义枚举类型的敏感数据通过数据样本库模式识别敏感数据。
场景04企业版DataWorks深度企业用户需定制化开发属于自己的DataWorks模块。
场景04企业版数据资产管理模板数据地图API二次开发阿里内部业务沉淀一键部署应用小白化04企业版基础版数据研发:
快速构建数据仓库标准版数据研发:
复杂、专业化流程开发能力实时数据体系快速构建数据治理:
安全审计体系快速落地保障数据准时产出其他功能增强专业版数据研发:
可拓展数据服务API数据治理:
安全能力增强企业版数据开发:
数据服务API编排满足各类“存、通、用”问题数据治理:
数据安全知识输出定制能力:
二次定制开发购买建议数据需求紧迫专业人员缺口最低成本POC数据体系快速发展任务体量规模增加安全、治理诉求凸显构建成熟数据(服务)体系数据风险识别业务方诉求形式多变定义自身所需的能力谢谢谢谢聆听聆听!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- DataWorks 数据 平台 介绍