工作六年我总结了一份数据产品建设指南Word文件下载.docx
- 文档编号:15835678
- 上传时间:2022-11-16
- 格式:DOCX
- 页数:5
- 大小:21.32KB
工作六年我总结了一份数据产品建设指南Word文件下载.docx
《工作六年我总结了一份数据产品建设指南Word文件下载.docx》由会员分享,可在线阅读,更多相关《工作六年我总结了一份数据产品建设指南Word文件下载.docx(5页珍藏版)》请在冰豆网上搜索。
在大数据时代,数据的价值越来重要,更多的企业希望能够通过数据驱动业务发展。
在这个大背景下,数据产品的作用也越来越大,它会让每个想基于数据做决策的人能够更高效的获取自己想要的数据,并且让决策更正确和科学,促进业务不断发展,这也是数据产品的价值与定位。
二、数据产品应该达到怎样的要求?
一款数据产品要达到什么水平才算是合格的?
数据产品要实现的产品愿景又是怎样的?
我认为,要实现一款好的数据产品,应该满足如下几点要求:
数据产品提供的数据必须是准确的:
数据要质量高,数据要准确,指标口径要一致,即使数据出现故障,也能够尽快的定位到问题,高效解决。
数据产品提供的服务必须是安全的:
数据是公司的核心资产,因此数据产品要建立一个完整的安全体系,能够控制数据权限,做到没有权限的人不能访问,即便数据出现泄漏,也能够通过系统快速追查,及时补救,把损失降到最小。
数据产品覆盖的业务数据必须是全面的:
数据产品应该覆盖到公司各个数据生态环节,尽量整合公司所有相关业务数据,充分发挥大数据应有的价值。
数据产品要让数据获取更加高效:
这是数据产品的核心价值,工具类的产品一般都是为了提高效率而存在的,数据产品要提高公司人员的取数效率,并把分析师从帮助业务人员出数、取数的重复工作中释放出来。
数据产品要为业务提供更智能的洞察:
数据产品不应该只提供数据及报表的展示,还应该更智能的为业务提供指导,例如可以把人工智能、机器学习等领域的模型整合进来,形成业务大脑,让业务人员更聪明快速的工作。
三、数据产品建设方法论
明确了数据产品的价值和愿景,如何去设计一款数据产品呢?
通过多年的数据产品工作经验总结,并结合5W2H分析法,在做一款数据产品前,我总结了下面四个步骤来回答如何做的问题:
第一步,思考数据产品要解决什么问题(Why),为用户或者公司带来什么价值(HowMuch)?
产品的开发周期要多久(When)?
一款数据产品的核心是要解决某种问题的,那么它到底解决了什么问题,是否给公司或者用户带来了足够的价值。
第二步,要想清楚产品的目标用户是谁(Who),用户在什么场景下使用这款产品(Where),要站在用户的角度和使用场景下来设计数据产品。
第三步,要解决的问题分析思路是什么(How)?
由于是一款数据产品,那么必然是要用数据说话,针对解决的问题,我们应该以什么样的思路来分析,需要整理出一套全面的分析框架,并且制定产品的实现路径。
第四步,对于问题需要用到哪些指标来核量(What),可以把指标组合为哪些模块?
应该以何种方式展现?
这一步主要思考产品具体的展现内容和形式。
四、数据产品的分类与建设方法
讲完了数据产品的价值、愿景和设计思路,接下来让看一下数据产品的具体建设方法。
在企业中,对于数据产品,一般分为:
数据管理、数据工具、数据应用三个方向。
通过数据管理,可以解决数据质量产品的问题;
通过数据工具产品,可以提升获取数据的效率;
通过数据应用产品,可以通过数据赋能企业或者用户,充分发挥数据驱动的价值。
下面分别介绍针对这三个方向做具体介绍:
1.关于数据管理
随着业务发展,数据量呈爆炸式增加,数据发挥的价值越来越大,数据质量问题也变得越来越严重,低质量的数据不仅使用不便,还会误导决策,甚至灾难性的结果,数据质量的好坏,决定了数据是否能够真正发挥价值。
如何判断数据质量的高低呢?
什么样的数据是高质量的呢?
引用美国著名的质量管理学家朱兰博士(J.M.Juran)的一句话:
Iftheyarefitfortheirintendedinoperations,decisionmakingandplanning
翻译一下,就是,如果根据这些数据做出的操作、决策和规划,符合之前的预期,那么这些数据就是高质量的,换个角度来理解,高质量的数据可以真实反映它们所代表的主体信息。
结合大数据与业务经验,在从定性的角度来看,影响数据质量的因素包括数据完整性、数据正确性、数据一致性、数据的可获取性以及数据的时效性等方面。
其中,数据的完整性是指业务涉及到数据是完整的,能够对业务使用影响很大的数据都要保持一定的完整性;
数据的正确性要满足准确性和精准性两方面,即数据要是准确无误的,数据要在精度上满足业务需求;
数据的一致性要满足同一个指标的口径要一致,数据不要有二义性;
数据的可获取性是指使用数据的时候,数据是被有效组织的,并且能够被高效获取;
数据的时效性指使用的业务数据都是最新的,而不是无效的过期数据。
之所以强调数据质量的重要性,因为它是数据产品的基础,它会影响到数据仓库、商业智能、数据分析平台、数据应用等各个方面。
同时,影响数据质量的因素又有很多,包括数据埋点质量、数据传输过程中出现的问题,数据口径是否一致等等。
因此,为了保证数据质量,有资源和精力的公司会搭建自己的数据管理系统。
图1为数据管理中心产品架构,主要包含指标体系管理、全局数据管理、元数据管理等。
另外,在数据安全性的前提下,还可以通过全局数据接口对外输出高质量的数据。
图1数据管理中心产品架构
以数据管理系统为例,它侧重于从时效性和数据一致性这两大质量方向保证数据的可读性。
(1)数据仓库的数据时效性检查
明确每天的每一个层级、每一个数据表的最早和最晚生成时间,发现影响当天数据生成延误的数据表,并能够通过数据管理系统回答以下问题:
当天MySQL表和Hive表中的核心指标是何时生成的?
有哪些表的产出时间比预期时间延迟了?
任务延迟的原因是由哪几张表造成的?
瓶颈在哪里?
优化哪几层?
哪几张表可以提高核心指标等的生成时间?
(2)数据仓库的数据一致性检查
通过数据一致性检查,在数据质量视图的展现下,我们可以快速了解存在依赖关系的数据表的分维度数据变化情况。
为了对数据一致性进行检查,大数据管理系统项目需要做的事情主要分为以下几步:
第一步,建立数据依赖引擎,实现依赖图谱。
依赖图谱用于构建数据仓库表之间的分层级依赖关系,然后存入MySQL表并能支持可视化展现,如图2所示。
第二步,计算数据准备情况。
各个表、各个分区的数据准备就绪时间按天、小时级进行汇总。
根据Hive仓库的Meta信息可以获取Hive表各个分区的创建时间,根据创建时间确定数据的实效性,用来分析展现每天、每小时的状态和瓶颈。
如果需要对MySQL进行验证,则通过SQL语句查询的方式获取对应时间在MySQL中是否存在。
第三步,建立数据计算引擎。
根据定义的小时级指标、天级别指标规则,结合数据表各个分区的准备就绪时间,调用SparkSQL计算核心指标。
第四步,数据比较引擎。
根据表和表之间核心指标的关系、表和表之间的规则进行比较验证。
例如,A=B,A+B=C,B/A 图2数据管理系统依赖图谱
2.关于数据工具产品
数据工具产品主要在数据的角度通过工具产品来为公司赋能,为业务提供数据工具平台,提升获取数据的效率和决策速度,通过数据驱动公司精细化运营,主要包含数据分析平台、用户行为分析平台、用户画像工具等工具产品。
让我们先看一下数据分析平台的建设,在这个竞争白热化的大数据时代,每个公司对数据的重视程度都提高到了前所未有的程度,无论是考虑数据的安全性,还是数据的使用效率,拥有为企业自己量身定制的数据分析平台,是实现精细化运营、数据驱动业务增长的利器。
因此,掌握大数据分析平台的思路和方法,是数据产品经理必备的一项能力。
如图3所示,为数据分析平台的产品架构图,数据分析平台一般包括可视化分析模块、数据查询模块、权限及资源管理模块等。
其中,数据分析模块还包括可视化模块、自助式分析模块、分析工具、智能分析等模块。
图3数据分析平台产品架构图
提起数据分析平台,很多人还停留在后端接口查询数据库数据、前端页面展现数据这种传统的定制化报表分析平台上。
确实,公司在业务规模不大和人力不足的情况下,可以实现这种原始的报表分析平台,更准确地说应该是指标展现页面。
可是,这种方式太定制化了,没有任何的可拓展性,如果增加一个指标,前端和后端代码修改的成本都比较高。
可以毫不夸张地说,前者就像还停留在冷兵器时代的军队,只能招兵买马、堆积人力,辛苦和艰难程度可想而知。
然而,随着业务的增长,报表的需求越来越多,天天深受写业务报表之苦的程序员和数据产品经理决定研制一个更先进的工具,来摆脱这种拼体力的工作。
为了提高数据分析平台的可扩展性,终于找到了QueryAdapter的方式解决问题,具体的方式就是通过前端配置JSON数据,在API层下添加QueryAdapter层把API的接口翻译成相应的SQL,然后通过SQL查询具体的数据库,进一步提高前端的扩展性和报表的灵活性。
上面的这一过程可以用如图4所示的架构实现,就这样,“冷兵器”时代的大数据团队终于有了自己的“大炮”,他们只需更换“子弹”就可以快速解决不同的业务问题。
于是,数据分析平台迭代到了V1版本——可拓展的报表分析平台。
图4可拓展的报表平台架构
人类科技的进步从来都不会止步不前,拥有了“大炮”和“步枪”,能不能再造出“飞机”与“坦克”,进一步提高“作战”效率?
虽然V1版本解放了研发的生产力,但是随着业务人员的需求的多样性不断增加,数据分析师和产品经理的业务需求应接不暇,而且还有很大的沟通成本。
面对上面的痛点,就需要为业务人员实现一个他们自己能够快速、方便搭建报表的平台。
于是,就需要为业务人员提供创建数据源、创建单图以及创建看板功能,让他们自己去创建报表自助分析,也就是所谓的自助分析三步曲,如图5所示,实现了这些功能,也就完成了数据分析平台V2版本——自助式分析平台。
图5自助分析三步曲
一个完善的大数据分析平台,不仅仅是单纯展现数据的,更不是一些业务常用报表的罗列,还要能够为数据分析师、业务人员提供更多对数据的洞察,让数据更加智能化。
例如:
可以支持维度下钻数据、单图之间数据联动、对数据异常点进行标注、指标异常检测等功能,可以让使用人员方便、快捷地分析更精细的业务场景,实现从更多维度去了解业务,让数据发挥更立体的价值。
实现一个智能的数据分析平台,是大数据分析平台V3版本的迭代目标。
大数据分析平台要更方便地服务于不同的业务场景进行数据分析,整理数据报告是数据分析师必不可少的工作,无论是周报、月报,还是新版本表现的分析报告,都需要在围绕报告目标的基础上,对数据整理、分析并提炼要点,最后形成一份有指导意义、易读且美观的数据报告。
而这些报告,就是每个业务场景都会沉淀下来的一套固定的分析思路和分析架构,这套固定的分析架构可以放在平台上实现,例如可以实现业务大脑、渠道分析、用户留存分析、用户活跃分析及日常的周月报等。
通过更贴近业务场景的数据分析平台,我们可以方便、智能地查看分析数据,提高效率,通过数据驱动业务高效发展,完成了这个阶段,便
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工作 总结 一份 数据 产品 建设 指南