数据报告心得体会.docx
- 文档编号:26571553
- 上传时间:2023-06-20
- 格式:DOCX
- 页数:9
- 大小:24.20KB
数据报告心得体会.docx
《数据报告心得体会.docx》由会员分享,可在线阅读,更多相关《数据报告心得体会.docx(9页珍藏版)》请在冰豆网上搜索。
数据报告心得体会
数据报告心得体会
数据报告心得体会篇1
介绍数据分析/挖掘的图书有很多,这些图书分为很多等级,有的是直接面向应用(business,academyorinterplaybetweenbothtwo),有的是介绍理论背景(个人认为很重要,如果以20/80规则,这些图书将有助于解决剩余20%的问题,不过你可能要付出80%精力),有的是结合各类计算工具(例如SAS,Excel,Retc)。
相信很多人对此都很头疼,到底应该如何选择呢?
现在先谈谈我个人在数据分析的经历,最后我将会做个总结。
大学开设了两门专门讲授数据分析基础知识的课程:
概率统计和高等多元数据分析。
这两门选用的教材是有中国特色的国货,不仅体系完整而且重点突出,美中不足的是前后内在的逻辑性欠缺,即各知识点之间的关联性没有被阐述明白,而且在应用方面缺少系统地训练。
当时,我靠着题海战术把这两门课给混过去了,现在看来是纯忽悠而已。
(不过,如果当时去应聘数据分析职位肯定有戏,至少笔试可以过关)。
抱着瞻仰中国的最高科研圣地的想法,大学毕业后我奋不顾身的考取了中科院的研究生。
不幸的是,虽然顶着号称是高级生物统计学的专业,我再也没有受到专业的训练,一切全凭自己摸索和研究(不过,我认为这样反而挺好,至少咱底子还是不错的,一直敏而好学)。
首先,我尽全力搜集一切资料(从大学带过来的习惯),神勇地看了一段时间,某一天我突然顿悟,这样的学习方式是不行的,要以应用为依托才能真正学会。
然后呢,好在咱的环境的研究氛围(主要是学生)还是不错滴,我又轰轰烈烈地跳入了paper的海洋,看到无数牛人用到很多牛方法,这些方法又号称解决了很多牛问题,当时那个自卑呀,无法理解这些papers。
某一天,我又顿悟到想从papers中找到应用是不行的,你得先找到科学研究的思路才行,打个比方,这些papers其实是上锁的,你要先找到钥匙才成。
幸运的是,我得到了笛卡尔先生的指导,尽管他已经仙游多年,他的谈谈方法为后世科研界中的被放羊的孤儿们指条不错的道路(虽然可能不是最好地,thebetterorbestway要到国外去寻找,现在特别佩服毅然出国的童鞋们,你们的智商至少领先俺三年)。
好了,在咱不错的底子的作用下,我掌握了科研方法(其实很简单,日后我可能会为谈谈方法专门写篇日志)。
可惜,这时留给咱的时间不多了,中科院的硕博连读是5年,这对很多童鞋们绰绰有余的,但是因本人的情商较低,被小人陷害,被耽搁了差不多一年。
这时,我发挥了虎(东北话)的精神,选择了一个应用方向,终于开始了把数据分析和应用结合的旅程了。
具体过程按下不表,我先是把自己掌握的数据分析方法顺次应用了,或者现成的方法不适合,或者不能很好的解决问题,当时相当的迷茫呀,难道是咱的底子出了问题。
某一天,我又顿悟了,毛主席早就教育我们要具体问题具体分析,教条主义要不得,我应该从问题的本质入手,从本质找方法,而不是妄想从繁多的方法去套住问题的本质。
好了,我辛苦了一段时间,终于解决了问题,不过,我却有些纠结了。
对于数据发分析,现在我的观点就是具体问题具体分析,你首先要深入理解被分析的问题(领域),尽力去寻找问题的本质,然后你只需要使用些基本的方法就可以很好的解决问题了,看来20/80法则的幽灵无处不在呀。
于是乎,咱又回到了原点,赶紧去学那些基础知识方法吧,它们是很重要滴。
这里,说了一大堆,我做过总结:
首先,你要掌握扎实的基础知识,并且一定要深入理解,在自己的思维里搭建起一桥,它连接着抽象的数据分析方法和现实的应用问题;其次,你要有意识的去训练分析问题的能力;最后,你要不断的积累各方面的知识,记住没有无源之水、无根之木,良好的数据分析能力是建立在丰富的知识储备上的。
数据报告心得体会篇2
有人说生活像一团乱麻,剪不断理还乱;我说生活像一团乱码,尽管云山雾罩惝恍迷离,最后却总会拨云见日雨过天晴。
维克托迈尔舍恩伯格就把这团乱码叫做大数据,在他的这本书里,试图给出的就是拨开云雾见青天的玄机。
这玄机说来也简单,就是放弃千百年来人们孜孜追求的因果关系转而投奔相关关系。
说来简单,其实却颠覆了多少代人对真理探求的梦想。
我觉得作者是个典型的实用主义者,在美帝国主义万恶的压迫和洗脑下,始终追逐性价比和利益最大化,居然放弃了追求共产主义真理最基本的要求!
不像我们在天朝光芒的笼罩下,从小就开始学习和追求纯粹的共产主义唯心科学历史文化知识啦!
这或许就是我们永远无法获得诺贝尔奖、永远无法站在科技最前沿的根本原因吧。
其实小学时候,我就想过这个问题,相信所有的人都问过类似的问题,例如现在仍然很多人在问,妈的从来没人知道我每天摆摊赚多少钱,你们他妈的那人均收入四五千是怎么算出来的。
中国是抽样的代表,因为中国人最喜欢用代表来表现整体,最典型的例子莫过于公布的幸福指数满意指数各种指数永远都高于你的预期,你完全不清楚他是怎么来的,一直到最后汇总成三个代表,真心不清楚它到底能代表了啥。
说这么多显得自己是个愤青,其实只是想表达样本=总体这个概念在科技飞速发展的今天,在世界的不同角落,还是会体现出不同的价值,受到不同程度的对待及关注。
在大数据观念的冲击下,我们是不是真的需要将平时关注的重点从事物内在的发展规律转移到事物客观的发生情况上。
大数据的出现,必然对诸多领域产生极大的冲击,某些行业在未来十年必将会得到突飞猛进的发展,而其他一些行业则可能会消失。
这是废话,典型的三十年河东三十年河西的道理,就像三十年前的数理化王子们,现在可能蜷缩在某工厂的小角落里颤颤巍巍的修理机器;就像三十年前职业高中的学生才学财会学银行,如今这帮孙子一个个都开大奔养小三攒的楼房够给自己做墓群的了;当然也不乏像生物这种专业,三十年前人们不知道是干啥的,三十年后人们都知道没事别去干,唯一可惜的是我在这三十年之间的历史长河中却恰恰选了这么一个专业,这也是为什么我现在在这写读后感而没有跟姑娘去玩耍的原因。
其实乍一看这个题目,我首先想到的是精益生产的过程控制,比如六西格玛,这其实就是通过对所有数据的分析来预测产品品质的变化,就已经是大数据的具体应用了。
而任何事物都会有偏差,会有错误,也就是说,这全部的数据中,肯定是要出现很多与总体反应出的规律相违背的个体,但是无论如何这也是该事件中一般规律的客观体现的一种形式,要远远好过从选定的样本中剔除异常值然后得到的结论。
换句话说,也大大减少了排除异己对表达事物客观规律的影响。
就好比是统计局统计中国人民的平均收入一样,这些数怎么这么低啊,这不是给我们国家在国际社会上的形象抹黑么,删掉删掉;这些数怎么这么高啊,这还不引起社会不满国家动荡啊,删掉删掉。
所以说,大数据至少对反应客观事实和对客观事实做预测这两个方面是有非常积极地意义的。
而这个新兴行业所体现的商机,既在如何利用数据上,又在如何取得数据上。
先说数据的利用,这里面表达的就是作者在通书中强调的对相关关系的挖掘利用。
相关关系与因果关系便不再赘述,而能够对相关关系进行挖掘利用的企业其实缺不多,因为可以相信未来的大数据库就像现在的自然资源一样,必将因为对利益的追逐成为稀缺资源,而最终落在个别人或企业或部门的手中。
想想无论当你想要做什么事情的时候,都有人已经提前知道并且为你做好了计划,还真是一件甜蜜而又令人不寒而栗的事情。
而对于数据的获取,我觉得必然是未来中小型企业甚至个人发挥极致的创造力的领域。
如何在尽可能降低成本的情况下采集到越多越准确的数据是必然的发展趋势,鉴于这三个维度事实上都无法做到极致,那么对于数据获取方式的争夺肯定将成就更多的英雄人物。
现在回头从说说作者书中的观点中想到的,P87中关于巴斯德的疫苗的事件,描述了一个被疯狗咬伤的小孩,在接种了巴斯德的狂犬疫苗后成功幸存,巴斯德成了英雄的故事。
这是个非常有意思的案例,因为小孩被狗咬伤而患病的概率仅为七分之一,也就是说,本事件有85%的概率是小孩根本就不会患病。
那么小孩的生命到底是不是巴斯德救的,而这疫苗到底是有效没效,通过这个事件似乎根本就没有办法得到验证。
这就好比某人推出个四万亿计划,但实际上国际经济形势就是好转,哪怕你只推出个二百五计划,GDP都会蹭蹭的往上涨,而且又不会带来四万亿导致的严重通胀、产能过剩、房价泡沫等问题。
那你说这四万亿到底是救了国还是误了国?
回到我自己的工作领域上来,安全工作,我们一直遵循的方向都是寻找因果关系,典型的从工作前的风险评估,到调查事故的Taproot或者五个为什么,无一不是逻辑推理得到结果的产物。
而事实上,如果能做到信息的丰富采集和汇总的话,找出事物之间的相关性,对提高工作环境的安全系数是极为有利的。
这个点留着,看看可不可以在未来继续做进一步研究。
数据报告心得体会篇3
关于软件
分析前期可以使用EXCEL进行数据清洗、数据结构调整、复杂的新变量计算(包括逻辑计算);在后期呈现美观的图表时,它的制图制表功能更是无可取代的利器;但需要说明的是,EXCEL毕竟只是办公软件,它的作用大多局限在对数据本身进行的操作,而非复杂的统计和计量分析,而且,当样本量达到万以上级别时,EXCEL的运行速度有时会让人抓狂。
SPSS是擅长于处理截面数据的傻瓜统计软件。
首先,它是专业的统计软件,对万甚至十万样本量级别的数据集都能应付自如;其次,它是统计软件而非专业的计量软件,因此它的强项在于数据清洗、描述统计、假设检验(T、F、卡方、方差齐性、正态性、信效度等检验)、多元统计分析(因子、聚类、判别、偏相关等)和一些常用的计量分析(初、中级计量教科书里提到的计量分析基本都能实现),对于复杂的、前沿的计量分析无能为力;第三,SPSS主要用于分析截面数据,在时序和面板数据处理方面功能了了;最后,SPSS兼容菜单化和编程化操作,是名副其实的傻瓜软件。
STATA与EVIEWS都是我偏好的计量软件。
前者完全编程化操作,后者兼容菜单化和编程化操作;虽然两款软件都能做简单的描述统计,但是较之SPSS差了许多;STATA与EVIEWS都是计量软件,高级的计量分析能够在这两个软件里得到实现;STATA的扩展性较好,我们可以上网找自己需要的命令文件(.ado文件),不断扩展其应用,但EVIEWS就只能等着软件升级了;另外,对于时序数据的处理,EVIEWS较强。
综上,各款软件有自己的强项和弱项,用什么软件取决于数据本身的属性及分析方法。
EXCEL适用于处理小样本数据,SPSS、STATA、EVIEWS可以处理较大的样本;EXCEL、SPSS适合做数据清洗、新变量计算等分析前准备性工作,而STATA、EVIEWS在这方面较差;制图制表用EXCEL;对截面数据进行统计分析用SPSS,简单的计量分析SPSS、STATA、EVIEWS可以实现,高级的计量分析用STATA、EVIEWS,时序分析用EVIEWS。
关于因果性
做统计或计量,我认为最难也最头疼的就是进行因果性判断。
假如你有A、B两个变量的数据,你怎么知道哪个变量是因(自变量),哪个变量是果(因变量)?
早期,人们通过观察原因和结果之间的表面联系进行因果推论,比如恒常会合、时间顺序。
但是,人们渐渐认识到多次的共同出现和共同缺失可能是因果关系,也可能是由共同的原因或其他因素造成的。
从归纳法的角度来说,如果在有A的情形下出现B,没有A的情形下就没有B,那么A很可能是B的原因,但也可能是其他未能预料到的因素在起作用,所以,在进行因果判断时应对大量的事例进行比较,以便提高判断的可靠性。
有两种解决因果问题的方案:
统计的解决方案和科学的解决方案。
统计的解决方案主要指运用统计和计量回归的方法对微观数据进行分析,比较受干预样本与未接受干预样本在效果指标(因变量)上的差异。
需要强调的是,利用截面数据进行统计分析,不论是进行均值比较、频数分析,还是方差分析、相关分析,其结果只是干预与影响效果之间因果关系成立的必要条件而非充分条件。
类似的,利用截面数据进行计量回归,所能得到的最多也只是变量间的数量关系;计量模型中哪个变量为因变量哪个变量为自变量,完全出于分析者根据其他考虑进行的预设,与计量分析结果没有关系。
总之,回归并不意味着因果关系的成立,因果关系的判定或推断必须依据经过实践检验的相关理论。
虽然利用截面数据进行因果判断显得勉强,但如果研究者掌握了时间序列数据,因果判断仍有可为,其中最经典的方法就是进行格兰杰因果关系检验。
但格兰杰因果关系检验的结论也只是统计意义上的因果性,而不一定是真正的因果关系,况且格兰杰因果关系检验对数据的要求较高(多期时序数据),因此该方法对截面数据无能为力。
综上所述,统计、计量分析的结果可以作为真正的因果关系的一种支持,但不能作为肯定或否定因果关系的最终根据。
科学的解决方案主要指实验法,包括随机分组实验和准实验。
以实验的方法对干预的效果进行评估,可以对除干预外的其他影响因素加以控制,从而将干预实施后的效果归因为干预本身,这就解决了因果性的确认问题。
关于实验
在随机实验中,样本被随机分成两组,一组经历处理条件(进入干预组),另一组接受控制条件(进入对照组),然后比较两组样本的效果指标均值是否有差异。
随机分组使得两组样本同质,即分组、干预与样本的所有自身属性相互独立,从而可以通过干预结束时两个群体在效果指标上的差异来考察实验处理的净效应。
随机实验设计方法能够在最大程度上保证干预组与对照组的相似性,得出的研究结论更具可靠性,更具说服力。
但是这种方法也是备受争议的,一是因为它实施难度较大、成本较高;二是因为在干预的影响评估中,接受干预与否通常并不是随机发生的;第三,在社会科学研究领域,完全随机分配实验对象的做法会涉及到研究伦理和道德问题。
鉴于上述原因,利用非随机数据进行的准试验设计是一个可供选择的替代方法。
准实验与随机实验区分的标准是前者没有随机分配样本。
通过准实验对干预的影响效果进行评估,由于样本接受干预与否并不是随机发生的,而是人为选择的,因此对于非随机数据,不能简单的认为效果指标的差异来源于干预。
在剔除干预因素后,干预组和对照组的本身还可能存在着一些影响效果指标的因素,这些因素对效果指标的作用有可能同干预对效果指标的作用相混淆。
为了解决这个问题,可以运用统计或计量的方法对除干预因素外的其他可能的影响因素进行控制,或运用匹配的方法调整样本属性的不平衡性在对照组中寻找一个除了干预因素不同之外,其他因素与干预组样本相同的对照样本与之配对这可以保证这些影响因素和分组安排独立。
随机实验需要至少两期的面板数据,并且要求样本在干预组和对照组随机分布,分析方法就是DID(倍差法,或曰双重差分法);准实验分析用截面数据就能做,不要求样本在干预组和对照组随机分布,分析方法包括DID(需两期的面板数据)、PSM(倾向性得分匹配法,需一期的截面数据)和PSM-DID(需两期的面板数据)。
从准确度角度来说,随机实验的准确度高于准实验和非实验分析。
关于分析工具的选择
数据报告心得体会篇4 转眼间实习已去一月,之前因为工作原因需要恶补大量的专业知识并加以练习,所以一直抽不开身静下心来好好整理一下学习的成果。
如今,模型的建立已经完成,剩下的就是枯燥的参数调整工作。
在这之前就先对这段时间的数据处理工作得到的经验做个小总结吧。
从我个人的理解来看,数据分析工作,在绝大部分情况下的目的在于用统计学的手段揭示数据所呈现的一些有用的信息,比如事物的发展趋势和规律;又或者是去定位某种或某些现象的原因;也可以是检验某种假设是否正确(心智模型的验证)。
因此,数据分析工作常常用来支持决策的制定。
现代统计学已经提供了相当丰富的数据处理手段,但统计学的局限性在于,它只是在统计的层面上解释数据所包含的信息,并不能从数据上得到原理上的结果。
也就是说统计学并不能解释为什么数据是个样子,只能告诉我们数据展示给了我们什么。
因此,统计学无法揭示系统性风险,这也是我们在利用统计学作为数据处理工具的时候需要注意的一点。
数据挖掘也是这个道理。
因为数据挖掘的原理大多也是基于统计学的理论,因此所挖掘出的信息并不一定具有普适性。
所以,在决策制定上,利用统计结果+专业知识解释才是最保险的办法。
然而,在很多时候,统计结果并不能用已有的知识解释其原理,而统计结果又确实展示出某种或某些稳定的趋势。
为了抓住宝贵的机会,信任统计结果,仅仅依据统计分析结果来进行决策也是很普遍的事情,只不过要付出的代价便是承受系统环境的变化所带来的风险。
用于数据分析的工具很多,从最简单的Office组件中的Excel到专业软件R、Matlab,功能从简单到复杂,可以满足各种需求。
在这里只能是对我自己实际使用的感受做一个总结。
Excel:
这个软件大多数人应该都是比较熟悉的。
Excel满足了绝大部分办公制表的需求,同时也拥有相当优秀的数据处理能力。
其自带的ToolPak(分析工具库)和Solver(规划求解加载项)可以完成基本描述统计、方差分析、统计检验、傅立叶分析、线性回归分析和线性规划求解工作。
这些功能在Excel中没有默认打开,需要在Excel选项中手动开启。
除此以外,Excel也提供较为常用的统计图形绘制功能。
这些功能涵盖了基本的统计分析手段,已经能够满足绝大部分数据分析工作的需求,同时也提供相当友好的操作界面,对于具备基本统计学理论的用户来说是十分容易上手的。
SPSS:
原名StatisticalPackagefortheSocialSciences(社会科学统计软件包),现在已被IBM收购,改名后仍然是叫SPSS,不过全称变更为StatisticalProductandServiceSolutions(统计产品与服务解决方案)。
SPSS是一个专业的统计分析软件。
除了基本的统计分析功能之外,还提供非线性回归、聚类分析(Clustering)、主成份分析(PCA)和基本的时序分析。
SPSS在某种程度上可以进行简单的数据挖掘工作,比如K-Means聚类,不过数据挖掘的主要工作一般都是使用其自家的Clementine(现已改名为SPSSModeler)完成。
需要提一点的是SPSSModeler的建模功能非常强大且智能化,同时还可以通过其自身的CLEF(ClementineExtensionFramework)框架和Java开发新的建模插件,扩展性相当好,是一个不错的商业BI方案。
R:
R是一个开源的分析软件,也是分析能力不亚于SPSS和Matlab等商业软件的轻量级(仅指其占用空间极小,功能却是重量级的)分析工具。
官网地址:
支持Windows、Linux和MacOS系统,对于用户来说非常方便。
R和Matlab都是通过命令行来进行操作,这一点和适合有编程背景或喜好的数据分析人员。
R的官方包中已经自带有相当丰富的分析命令和函数以及主要的作图工具。
但R最大的优点在于其超强的扩展性,可以通过下载扩展包来扩展其分析功能,并且这些扩展包也是开源的。
R社区拥有一群非常热心的贡献者,这使得R的分析功能一直都很丰富。
R也是我目前在工作中分析数据使用的主力工具。
虽然工作中要求用Matlab编程生成结果,但是实际分析的时候我基本都是用R来做的。
因为在语法方面,R比Matlab要更加自然一些。
但是R的循环效率似乎并不是太高。
Matlab:
也是一个商业软件,从名称上就可以看出是为数学服务的。
Matlab的计算主要基于矩阵。
功能上是没话说,涵盖了生物统计、信号处理、金融数据分析等一系列领域,是一个功能很强大的数学计算工具。
是的,是数学计算工具,这东西的统计功能只不过是它的一部分,这东西体积也不小,吃掉我近3个G的空间。
对于我来说,Matlab是一个过于强大的工具,很多功能是用不上的。
当然,我也才刚刚上手而已,才刚刚搞明白怎么用这个怪物做最简单的Garch(1,1)模型。
但毫无疑问,Matlab基本上能满足各领域计算方面的需求。
以上这些软件算是主流了,数据分析软件远不止这些,还有Eviews、S-plus等工具,因为没用过,所以也就不说了
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 报告 心得体会