解码阿里大数据Word文档下载推荐.docx
- 文档编号:17306706
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:5
- 大小:20.63KB
解码阿里大数据Word文档下载推荐.docx
《解码阿里大数据Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《解码阿里大数据Word文档下载推荐.docx(5页珍藏版)》请在冰豆网上搜索。
阿里系最早的数据工作自2003年起步,出于业务需求的驱动,起初非常粗糙,无非数据库、IT系统,随后开始统计分析行业的基础指标,比如PV、UV等,当时的淘宝数据部门只有数名员工。
在数据的童蒙时代,淘宝“依葫芦画瓢”,学习当时最大的对手――易趣,当时eBay、亚马逊都已成立成熟的BI部门。
恰是与易趣的竞争,推动了阿里的数据应用。
据淘宝内部人回忆,易趣曾强势通过排他协议垄断了门户广告资源,迫使阿里将广告投放转向中小网站联盟,由此催生了广告投放精准化分析需求,淘宝的数据团队开始积累流量数据的分析经验。
2004-2005年,淘宝逆转易趣,业务量激增,品类快速扩张,数据量随之跃升。
淘宝开始意识到,不能再靠拍脑袋做经营决策了,需要实时观察掌握用户量和交易量的变化,进行精准分析。
2005年,淘宝成立商业智能部门,成为当时淘宝技术研发部门负责人姜鹏的直属部门。
这一年,阿里拥有了第一款严格意义上的数据产品――“淘数据”,这是一份经营数据的报表,为各业务公司、部门提供经营报表的检索生成工具。
同年,阿里切入搜索、广告业务――两项业务均带有天然的数据属性,成为阿里大数据运营的开端。
七公说,由此阿里对数据和应用场景的理解越来越清晰,目的性更明确――搜索帮助消费者更快找到商品,广告则让商家获得更高的ROI(投资回报率)。
2009年,阿里数据开始进入产品化时代。
“淘数据”从一个内部报表系统跃升为内部数据统称。
2009年4月和12月,商业智能团队又分别开发出可预警的“KPI系统”、服务于业务部门的“数据门户”。
阿里的对外数据产品也浮出水面。
脱胎于“雅虎统计”的工具“量子恒道”,为外部商户提供统计分析工具,用于跟踪自有店铺流量、点击、购买等数据的变化。
与数据产品的大裂变同步,2009年,阿里的数据技术架构,开始大变革。
此前一年加入阿里出任首席架构师的王坚,一手主导了阿里架构从Oracle商用系统向Hadoop开源平台的迁移。
相比IBM、Oracle等商用系统,Hadoop平台的优点是成本低廉,且架构可扩展性极强,全球互联网企业的大规模计算体系多使用该平台。
同年,王坚成立阿里集团研究院,将集团内各公司自行搭建的Hadoop集群统一,开发出“云梯1”系统,以实现全集团所有数据的打通、整合的管理和共享。
这一系列变革之后,阿里最高层提出了“数据开放”。
2010年初,淘宝推出“数据魔方”,第一次向市场开放了全局市场数据,这款付费产品成为了大中型商户追捧的数据利器。
产品研发发端于阿里数据平台团队对客户的走访。
当时,宝洁公司提出,希望了解行业数据,以帮助其经营决策。
数据团队的员工提出,与其casebycase解决,不如直接产品化,阿里数据的价值出来了!
此后,阿里内部数据产品的开发进入井喷状态。
淘宝数据部门开发出“活动直播间”,帮助买家更好地参与促销运营。
2011年上半年,“卖家云图”、“页面点击”接连出现。
2011年,现任阿里数据委员会负责人的车品觉加盟支付宝,发现阿里数据产品线存在短板:
高层一端数据过多,关联性不强,难以快速进行全局诊断;
一线运营一端总抱怨数据不够,数据间壁垒重重,没有进行整合。
于是,车品觉研发了两款产品,一款名为“观星台”,是一个高度可视化的仪表盘,选择最关键的数据在几秒内展示全局运营状况;
另一款叫“地动仪”,可以看到用户投诉最多的功能有哪些,甚至可以获取最原始的客服电话录音。
随后,车品觉进入淘宝,又开发了两款产品“黄金策”和“无量神针”。
七公领导的另一支数据团队也开发了一系列产品,如“淘宝指数”,以及2012年“双11”期间推出的“淘宝时光机”。
一家互联网公司数据挖掘业务的负责人评论,从“数据门户”到“数据魔方”,再到“淘宝指数”、“淘宝时光机”,阿里的数据产品从报表到数据工具,再到可视化图片甚至一组flash,看上去越来越没有“数据味”,但是,其对消费场景和行为的洞察却越来越深了。
高速公路与跑车
数据是科学的,数据的取舍、分析维度的选择更像是艺术。
2012年,阿里集团一系列架构调整,重构了阿里数据“达芬奇密码盘”的排序。
阿里云拆分,独立运行;
阿里系的数据库和大规模运算资源整合为“数据平台事业部”,由阿里集团CEO陆兆禧亲自掌管;
同时成立虚拟组织“集团数据委员会”,车品觉出任首任会长。
王坚领导的阿里云是“密码盘”中的最底层架构,提供基础的运算平台。
譬如,阿里自行研发的“云梯2”体系,即建立在阿里云“飞天”架构之上;
在此之上,则是七公领导的数据平台事业部,运营阿里集团共享的数据库,各业务公司产生的数据经清洗之后就存储在该事业部的服务器上;
再往上即车品觉带领的淘宝网商业智能部门,他们使用数据进行分析。
同时,“数据委员会”的成员们分属阿里各业务公司,他们利用七公团队的工作成果进行再分析。
可以这样理解三层架构:
阿里云是IasS(基础设施即服务),阿里数据平台事业部是PaaS(平台即服务),而车品觉的团队则是SaaS(软件即服务)。
阿里集团内的数据大多都经过这样的旅程――用户在淘宝上的一个收藏动作,首先在淘宝网的前端服务器上产生一条日志,日志随后被传送到七公团队的服务器上存储,期间经过清洗过程,最后被编入数据库,与其他数据一同被储存在分主题的数据集市。
当数据委员会的分析师们进行数据挖掘时,就可能被采用。
目前,数据业务平台已整合了阿里集团的全部数据。
此外,阿里小微集团中创新金融事业部(即阿里金融)的数据也与该平台直接相连。
IBM咨询经理陈琪说,大数据概念存在两层结构。
一层是人们热议的、不乏科幻感的分析预测能力;
另一层则是处理大规模、高并发、高关联性甚至是低价值密度数据的运算能力。
车品觉做的是前者,而七公维护的是后者。
车品觉评论说,七公团队在修建高速公路,而他的团队则在高速路上驾驶跑车,“建高速公路是一个漫长的工程,需要巨大的投入、耐心以及细致。
”七公告诉《21CBR》,其服务器上保有的历史数据已超过100PB,且都已经过“清洗”。
“清洗”被两人反复提及,它保障数据的质量,直接关乎大数据运营的准确性。
那么,如何清洗数据?
首先得让数据“对得上、产生关联”。
互联网行业发展迅速且难于规划,通常不断试错、快速迭代,不同部门、业务之间的数据往往难于打通,不少公司各业务甚至连用户cookie、日志格式都不同。
阿里或许是幸运的,从2004年起,整个淘宝系的日志格式就已统一。
这仅仅是开始,数据处理的链条极长,任何一个环节出错都会影响后端。
车品觉说,数据污染往往有两个原因――采集错误、数据口径不同。
前者往往来自于部门协作脱节,如前端业务部门的开发人员改变了页面功能但未及时通知数据部门,那么,相关用户行为产生的数据定义就已失真;
后者则更易理解,譬如有的电商公司统计“转化率”只统计用户点击购买,有的公司则进一步考虑点击后是否付费、是否退款。
数据委员会的工作就是要统一集团的统计口径和统计方法,制定关于质量和安全的范式,其成员来自各个业务公司,由车品觉主持规范工作。
2013年,他将数据质量和数据安全视为最重要的课题,设置了对应的两个小组。
“数据是科学的,清洗过程中的取舍、分析时维度的选择则要靠分析师的修为,这部分不那么科学,更像是艺术。
”车品觉说。
其实,参与阿里大数据战略的团队还有很多,如“共享平台事业部”旗下的搜索团队,担负着为集团各部门“清洗”非结构化数据的任务;
数据平台事业部下有一支20多人的数据产品部团队,运营着“数据魔方”、“淘宝指数”、“淘宝时光机”等向外开放的数据产品;
各业务公司的分析师也都负责各自业务的数据清洗工作。
数据的觉醒
大数据概念不再是“忽悠”,正当“亮剑”时。
车品觉很推崇数据界前辈提出的一段“六字真言”:
“对比、细分、溯源”。
他认为还要加上一项“趋势”,这是由传统BI领域跃入“大数据时代”的关键一步。
人们憧憬的大数据方法论,要求推测未来、洞悉全局、引导决策的能力。
不久前,车品觉曾在一次非正式交流中说,大数据概念目前看来仍是“忽悠”。
接受《21CBR》采访时,他特意更正,“忽悠”是指现在的基础,大数据的前提拥有足够的数据、关联性,并具备相对应的运算能力和分析能力。
最近几周,他一直在跟BI团队开会,提出要重新定义BI,“今天的BI以后未必好用,并不完全适合未来的数据世界。
”
阿里集团整体正以数据作为行动新方向。
早在2011年,时任阿里集团首席人力官、支付宝CEO彭蕾(现任阿里小微集团CEO)就提醒车品觉,要尝试从“数据化运营”转向“运营数据”。
马云谋划的是,庞大数据平台作为信息流的精华部门,与物流、现金流结合,构建闭合且不断外扩的生态体系,除提供内部数据决策支撑之外,甚至可以形成数据的交易平台。
阿里数据的分量已不容小视,淘宝系交易额已超过万亿元,其庞大生态中可以实时捕捉经济运行的脉动,阿里研究院每个月会接到好几波各级政府索要数据的要求。
近期,不少政府官员前来向车品觉咨询大数据在公共行政管理的应用。
宏大愿景之下,阿里数据团队态势严峻。
数据团队应该是CEO直属的战略级团队,如今,车品觉坦言,CEO、管理层的注视让他们感到压力日增。
“马云知道数据要耐心养”,但是,高层已频频问及数据业务落地状况,“不能再只是讲故事了,我们到时候必须亮剑了”。
现在,车品觉的团队正加强挖掘内部数据的力度,为数据分析、预判提供更多可靠的参考维度。
最近,团队的研究广度已从淘宝系延展到整个阿里系,并已开始考虑向阿里系外部提供数据工具。
车品觉让数据产生商业价值的意愿空前强烈,他正积极搜寻机会,希望为合作伙伴提供足以指导决策的数据方案――2013年以前,数据产品提供的多是诊断辅助,现在开始引导决策。
这一计划已有成果出现。
杨滔,车品觉团队中的一位数据科学家,他牵头为“聚划算”设计了一套数据工具,预测商品能否成为“爆款”。
这款产品参考60多个变量,能输出商品是否爆款、最终销量、库存等数个关键预判数据,可直接作为商品能否参与活动的判断标准。
据了解,该产品目前预测的准确度已达到80%以上。
杨滔正琢磨着参考更多维度的变量,将系统应用范围拓展到线上、线下的通用产品,以帮助综合零售企业整体预测实体店和在线渠道的销售和库存状况,直接作用于经营决策。
杨滔还在开发一款产品,带有浓烈的“人机对话学习”色彩,通过研究淘宝购物推荐达人的行为,分析其规律,进而改进淘宝系统的推荐工具,提高个性化推荐的能力。
整个阿里系业务中,最为炫目的是阿里金融的小贷业务,这是大数据应用的典型案例,阿里金融数据团队设计的模型综合了信用记录、成交数额等结构化数据,以及用户评论等非结构化数据,加上外部搜集的用电量、银行信贷等数据,可就放贷与否、放贷额度精准决策,其贷款不良率仅为0.78%。
目前,阿里数据分析团队主要使用阿里内部的数据――仅仅这些他们还远没有完全挖掘,然而,车品觉认为,数据产品只有用更多维度进行综合关联比照,才能掌握更为真实的商业动向。
阿里的数据支撑团队又一次提前开始“修路”――准备更多维度的外部数据。
据透露,七公的团队已开始接入高德等关联公司的信息。
车品觉说,阿里目前已到了大数据的海边,是在国内互联网行业“做得最狠的”,“如果阿里做不出来,中国在大数据应用的进程可能会减速”。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 解码 阿里 数据