大数据时代观后感文档Word下载.docx
- 文档编号:22584676
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:19
- 大小:31.24KB
大数据时代观后感文档Word下载.docx
《大数据时代观后感文档Word下载.docx》由会员分享,可在线阅读,更多相关《大数据时代观后感文档Word下载.docx(19页珍藏版)》请在冰豆网上搜索。
如作者所言,“采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物”。
如果可以,我们当然会使用“全体数据”而不是“抽样数据”。
读到这里,我估计大学里正在绞尽脑汁设计样本抽样方法的学生、教授们,连哭的心都有!
数据分析的及时性,在很多情况下比精确性更加重要,尤其是在商业领域。
想想看,如果需要两周时间才能计算出明天某个航班的满座率,那还有什么意义?
大数据计算技术,适用的不是像卫星发射、开具银行账户这样的工作,而是不要求极端精确的情况,其核心是“预测趋势”,况且原始数据也可能出现差错。
过往千年,探究因果关系几乎是所有科学研究的原动力。
甚至,这已经通过语言,融入我们的思维方式和哲学思想:
“因为……所以……”,凡事都要问“为什么”。
但是,在大数据的范畴里,关注的却是相关性,而不是因果关系,或者其次才是因果关系。
超市只用关心把啤酒和尿不湿放在一起,会帮助提高销售额,而不用关心其中的奥秘。
如果说原因,可能很多都是人们的习惯、方便,甚至是人性,例如奶爸们习惯买尿不湿的时候给自己捎上几罐啤酒。
在此,也有一些自己的思考:
如果说搜索引擎所解决的问题表面上是帮助用户找到需要的信息,而实质是帮助企业找到拥有某项需求的客户,深层次讲是解决了《第三次浪潮》中提出的消费者和生产者分离的根本矛盾,如果再加上3D打印技术,就可以完成由消费者主导的“个性化”生产过程;
而大数据所解决的是,通过对所有用户的数据进行分析,可以预测用户群整体的需求变化趋势,从而完成批量产品生产、销售的调整问题,其奇妙之处就在于无需用户“开口”说出她想要什么?
一个解决的“个体需求”,一个解决的是“群体需求”。
本书除了提出上述三项基本观点,其它的内容大多是举例说明,多少有些空泛。
但是,其实大数据时代才刚刚开始,对大数据的应用也只是停留在比较浅的层面上,作者能提出这三项基本观点已属难能可贵!
技能、思维、与数据结合出来的《大数据时代》。
作者用非常丰富的商业案例来进一步阐述我们这个大数据时代的特征,以及大数据时代下的各种机会。
大数据的核心毋庸置疑就是数据,一切都用数据来评判,也就是说可以玩大数据的玩家就是那些掌握了海量数据的企业,放眼全球,目前玩大数据最具有优势的就是谷歌和亚马逊了。
而在中国的企业当中,搜索类的企业就是XX了,电商企业阿里巴巴、京东、亚马逊、淘宝。
在SNS方面的公司就是人人、新浪微博、腾讯等。
这些企业手里掌握了大量的用户数据,但是最终可不可以做起来还得要看思维。
目前阿里巴巴一次成立了研究院,非常值得看好,XX方面也已经开始成立了XX大脑,新浪微博也已经开始注重用户数据方面,希望不要步人人的后路。
大数据将会是主流,这主要是跟当今社会巨大的数据采集、处理、存储的方式来决定,可以说大数据主要是强调了相关关系,为人们在判断事物发展规律上提供了新的思路,这是因为巨大的数据量,所以相关关系才显得尤为重要。
但也存在一个问题,如果只是关注事物之间的相关关系,而忽略了事物之间相关关系的内在原因,是否会是功利主义的又一次胜利?
是否只是截取社会规律涌动洪流上的漂亮浪花,而忽略了内部真正的推动力量?
还有一点疑惑,如果只是从相关关系入手,那么得到的都将是已经存在的规律,预测的也是将会发生的事件,对于全新的事件将无法预测,创新性很难实现。
这也是作者观点非常不可取的地方。
相关关系必然很重要,但是因果关系更加重要,而现在忽略因果关系的原因我认为本质上讲是商业社会的逐利本质决定的,人们不可能花费大量的时间、金钱去探索一些对自己的利益提升没有很大帮助的事情,而相关关系恰恰能最大限度的满足人们快速获利的动机。
总的来说,《大数据》这本书对于在商业层面大数据的运用是很有帮助的,在此基础上,作者也从基于大数据的商业模式、社会管理手段以及社会所面临的道德问题进行了简单的探讨,总的来说从宏观上把握了已经到来的大数据时代,是一本不错的类似读物,但深度还略显不足。
我相信大数据时代将给人们的生活带来极大地便利以及促进整个社会资源配置效率的提高,这是大数据积极的一方面。
但是从我个人来讲,我不希望大数据包含自己生活的方方面面,我需要隐私,更重要的我希望自己能有新的生活轨迹,而不是按照自己之前的轨迹不断的重复下去。
毕竟,大数据时代所有关于未来的预测都是基于对以前的分析。
这也是我最担心的。
《大数据时代:
生活、工作与思维的大变革》读书笔记
引言
1、
大数据与云计算是一个问题的两面:
一个是问题,一个是解决问题的方法。
通过云计算对大数据进行分析、预测,会是的决策更为精准,释放出更多数据的隐藏价值。
数据,这个21世纪人类探索的新边疆,正在被云计算发现、征服。
2、
人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。
3、
大数据的核心就是预测,它是把数学算法运用到海量的数据上来预测事情发生的可能性。
4、
大数据使我们不再热衷寻找因果关系,而应该寻找事物之间的相关关系。
大数据告诉我们“是什么”而不是“为什么”。
在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。
01不是随即抽样,而是全体数据
02不是精确性,而是混杂性
大数据的简单算法比小数据的复杂算法更有效。
所以,数据多比少好,更多数据比算法系统更智能还要重要。
当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。
大数据不仅让我们不再期待精确性,也让我们无法实现精确性。
宽容错误会给我们带来更多价值。
03不是因果关系,而是相关关系
建立在相关关系分析法基础上的预测是大数据的核心。
04一切皆可量化
数据化和数字化的概念大相径庭。
数据化是指一种把现象转变为可制表分析的量化形式的过程;
数字化指的是把模拟数据转换成用0和1表示的二进制码。
数字化带来了数据化,但是数字化无法取代数据化,数字化是把模拟数据变成计算机可读的数据,和数据化有本质上的不同。
05“取之不尽,用之不竭”的数据创新
1、不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。
2、数据创新1:
数据的再利用;
数据创新2:
重组数据;
数据创新3:
可扩展数据;
数据创新4:
数据的折旧值;
数据创新5:
数据废气;
数据创新6:
开放数据。
3、数据是一个平台,因为数据是新产品和新商业模式的基石。
06数据、技术与思维的三足鼎立
1、行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。
2、大数据让处于行业两端的公司受益良多,而中等规模的公司要么向两端转换,要么破产。
传统行业最终都会转变为大数据行业,无论是金融服务业、医药行业还是制造业。
当然,大数据不会让所有行业中的中等规模的公司消亡,但是肯定会给可以被大数据分析所取代的中等规模公司带来巨大的威胁。
07让数据主宰一切的隐忧
如果在隐私和预测方面对大数据管理不当,或者出现数据分析错误,会导致的不良后果比定制化的在线广告要严重的多。
如果所有人的信息本来都已经在数据库里,那么有意识地避免某些信息就是此地无银三百两。
大数据预测给我们带来威胁,不仅仅局限于司法公正上,它还会威胁到任何运用大数据预测对我们的未来行为进行罪责判定的领域,比如民事法庭案件中判定过失以及公司解雇员工的决策。
大数据的不利影响并不是大数据本身的缺陷,而是我们滥用大数据预测所导致的结果。
大数据预测是建立在相关性基础上的。
让人们为还未实施的未来行为买单是带来不利影响的主要原因,因为我们把个人罪责判定建立在大数据预测的基础上是不合理的。
08责任与自由并举的信息管理
管理变革1:
个人隐私保护,从个人许可到让数据使用者承担责任;
管理变革2:
个人动因VS预测分析;
管理变革3:
击碎黑盒子,大数据算法师的崛起;
管理变革4:
反数据垄断大亨;
掌控大数据三项策略:
(1)隐私保护从个人许可到数据使用者承担责任的转变;
(2)使用预测分析时考虑个人动因;
(3)催生大数据审计员,也就是算法师。
结语——正在发生的未来
大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代,大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的将来。
这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。
当我们给一个人判定责任时,必须牢记人类意志的神圣不可侵犯性。
人类的未来必须保留部分空间,允许我们按照自己的愿望进行塑造。
否则,大数据将会扭曲人类最本质的东西,即理性思维和自由选择。
《大数据时代》读后感600字
花了若干小时,把刚入手的《大数据时代》看完了。
对我来说它是一本展示新思维、新观点的书,帮助了解当今世界科技、经济、文化、生活等趋势的东西,有很强的启发性。
这里我想谈谈隐私。
在古老的年代,交通不便,信息交流难,即使住得不远,也老死不相往来,这时候个人的隐私是藏得很深且不易被探究的。
随着社会的发展、经济的进步(特别是商业的兴起)需要人员、商品、货币的流动,这时候释放部份的个人信息,才能以促进交易。
于是社会发展到了今天,经济越发达,个人能保留的隐私越少。
对家庭、企业、社团、国家来说,需要掌握其成员更多的信息才便于管理与引导。
于是家长、企业与社团的大佬、政府千方百计的收集各类成员的个人信息包括隐私。
于是一场猫和老鼠的游戏上演了:
一方面经济发展了,为推动贸易需要“更透明的人”,一方面各类组织日益庞大与复杂,为便于管理需要“更透明的人”;
但,每个人,又出于安全与自尊的需要而坚决扞卫自己的隐私。
在大数据时代来临之前,猫和老鼠之间是平等的。
有些隐私你不愿意暴露,你完全可以不提供,法律赋予了你的这样权力。
在大数据时代,只要你在这个星球上生活,就算你不说他也有能力挖掘与分析,你就是一个“透明人”。
找银行贷款,一查便知道你的诚信;
警察找你,你想说你没去过某地或没见过此人,但他很容易证明你“去过〞和”见过“。
因此大数据时代下,其实你是透明的,你要接受这个现实。
我们已经无法阻止各种获知我们个人信息的手段的使用,除非你愿意回到原始社会。
我们唯一能够扞卫的是:
阻止非法利用个人信息的行为的权力。
在《大数据时代》一书中,迈尔-舍恩伯格给出了著名的关于大数据时代的三大特征:
1)不是随机样本,而是全体数据;
2)不是精准性,而是混杂性;
3)不是因果关系,而是相关关系。
本文解读一把为什么“不是随机样本,而是全体数据”。
为什么是随机样本?
首先什么是随机样本。
如果你碰巧哪天在街头被人拦住做问卷调查,或者接到电话问卷调查,恭喜你,你成为某项统计分析的随机样本。
很显然,迈尔大叔所例举的美国人口普查以及有关细分领域分析预测不准确的例子,谈到的随机样本应该就是指问卷调查。
或许随机样本是迈尔大叔在书中唯一展示其有关统计学知识的部分。
那么,为什么要用随机样本呢?
原因有下:
一是全体数据获取不可能或者成本太高。
比如说你想知道北京有多少人吃过麦当劳,你不可能每个人都问一遍;
二是有资源限制。
如果你要在3天内给出答案,即使不计成本你也做不到去问每个人;
三是没有必要。
因为我们可能只是需要知道吃过麦当劳的人数在北京总人口中的百分比,而且允许一定的误差,所以只要随机取样,通过统计分析就能够得到比较满意的答案。
根据统计学原理,如果我们随机取样1000人进行问卷调查,如果结果是某种百分比,那么得到的结果在置信度95%时的误差应该在3%左右。
显然,在数据需要通过问卷调查的形式获取时,随机样本就成为我们的首选甚至是唯一的选择。
所以随机样本在小数据时代很流行。
为什么不是随机样本?
迈尔大叔对随机样本不高兴,原因有三:
1)实现采样的随机性非常困难;
2)当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了;
3)人们只能从采样数据中得出事先设计好的问题的结果。
白话一把迈尔大叔的内容。
1)样本难以真正随机是因为你无法根据全体数据的分布去取样。
比如说你电话调查,有电话的人口就已经不是随机的样本空间;
2)如果你要进一步知道海淀区30岁以下女性吃过麦当劳的人口比例,结果误差就会超过预期;
3)问卷以外的内容你是无知的。
比如说你突然想要知道吃过麦当劳的人中有多少同时吃过肯德基但你却没有在调查中问这个问题,那你就甭想得到答案。
全体数据在哪儿?
我们已经处在大数据时代,如果你要了解北京有多少人吃过麦当劳,你会怎么做?
显然,麦当劳童鞋并没有为我们准备好必要的所谓全体数据。
或许麦当劳能够告诉我们N多年来他们在北京地区卖出了多少个巨无霸,或许麦当劳会进一步告诉我们N多年来北京地区有多少人次光顾过麦当劳。
可是,麦当劳却没有数据告诉我们现而今北京人有多少人吃过麦当劳。
看来现实世界比迈尔大叔想象的要复杂得多。
告别随机样本,我们需要全体数据。
可是,我们所需的北京地区吃麦当劳的全体数据存在吗?
未来这个全体数据会存在吗?
也许,除非麦当劳必须先注册再购买。
你认为麦当劳何时会实现先注册再购买呢?
这样做真的有必要吗?
即使如此,你仍旧面临如何解决例如“究竟谁吃了全家桶”的问题。
全体数据是个抽象的概念。
但涉及到具体问题,所需的全体数据很有可能并不存在,即使是在大数据时代。
要知道北京多少人吃过麦当劳,可能还是需要进行随机样本分析,哪怕是在大数据时代的今天。
看来即使是在大数据时代,我们还是无法告别随机样本分析。
何为全体数据?
在《大数据时代》一书中,全体数据是与随机样本相对立的概念。
迈尔大叔这样描述道:
“首先,要分析与某事相关的所有数据,而不是依靠分析少量的数据样本。
”因而,全体数据明白无误地就是“所有的相关数据”。
如果我们想要知道“北京地区有多少人吃过麦当劳”,这个全体数据就应该是北京地区所有人吃麦当劳的情况。
很遗憾,我们知道这个全体数据是不存在的。
看看《大数据时代》书中全体数据的一个案例:
艾伯特-拉斯洛·
巴拉巴西和他的同事想研究人与人之间的互动。
于是他们调查了四个月内所有的移动通信记录——当然是匿名的,这些记录是一个为全美五分之一人口提供服务的无线运营商提供的。
这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。
通过观察数百万人的所有通信记录,我们可以产生也许通过任何其他方式都无法产生的新观点。
迈尔大叔的这个全体数据是“一个为全美五分之一人口提供服务的无线运营商提供的”“四个月内所有的移动通信记录”。
啥意思?
说白了,就是一家移动公司四个月的通信记录。
令人不解的是,虽然这仅仅是全美1/5人口四个月的通信记录,迈尔大叔却说“这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。
”
“全社会”与“全美1/5人口”,“样本=总体”与“四个月内所有的移动通信记录”,其间如何联系在一起?
还有,如果四个月的数据是全体数据,那三个月或者两个月的数据算不算全体数据呢?
看来貌似简单的全体数据,在迈尔大叔这里也不是那么简单。
全体数据的前世今生
上面案例中涉及的全体数据,实质上就是一家移动运营商数据库中四个月的通信数据。
从《大数据时代》中对全体数据的诸多应用可以看到,迈尔大叔所说的全体数据,实际上就是我们通常所说的数据库数据。
“全体”或许只是指包含了数据库中所有的记录。
即使在互联网流行之前,因为有了计算机以及数据库技术,人类已经开始数据的记录和累积。
特别是一些特殊的行业如银行、电信等,顾客的购买记录最先被完整地记录下来,从而构成了迈尔大叔所谓的全体数据。
这绝对是小数据时代的故事。
也就是说,所谓全体数据并不是大数据时代的产物,全体数据在小数据时代就已经普遍存在了。
对所谓全体数据的分析以及基本的统计分析方法也是小数据时代的普遍现象。
被人们津津乐道的食品超市啤酒搭着尿布一起卖的故事,其数据来源甚至可能都不是所谓全体数据,因为食品超市并没有强求每个消费者都要注册后才能购买。
全体数据并不是我们想象的那样是“所有的数据”,甚至也不是迈尔大叔想象的那样是“所有相关的数据”。
全体数据依旧是部分数据,比如说只包含了一家公司的顾客数据。
全体数据依旧是取样数据,比如说上面案列中的四个月的取样。
谁说取样必须只是随机取样呢?
全体数据的分析误差
迈尔大叔对随机样本生气的一个主要原因,就是基于随机取样的分析与真实情况有统计误差,不准确。
那么,有了全体数据,我们的分析结果就一定没有误差了吗?
假定我们确实有关于北京地区吃麦当劳的全体数据。
是的,如果有了所谓的全体数据,关于单个变量的分析结果确实没有统计上的误差,实际上此分析也根本用不到统计学的概念。
可是,我们花那么大精力搞一个全体数据,肯定不只是计算一些百分比,或者进行一些简单的单元分析。
我们要用这个全体数据来做更多的事,比如说预测哪些顾客下次来会购买巨无霸。
分析师会给我们一批顾客名单,告诉我们:
这些顾客75%的可能下次购买巨无霸。
75%的可能?
也就是说这个顾客还有25%的可能下次不买巨无霸。
这就是分析误差。
事实是,除了单个变量的计算(对全体数据来说不是统计分析),全体数据在做任何统计分析时,分析结果都是概率性的,都有统计意义上的误差。
可是《大数据时代》给读者的印象是,只要用了全体数据,你就不用再担心误差了。
全体数据的取样
根据《大数据时代》,用了全体数据,我们就再也不需要取样了。
事实果然如此吗?
有意思的是,在上面迈尔大叔给我们提供的全体数据分析的案例里,研究人员只取了数据库里4个月的数据。
为什么只是4个月的数据?
难道该企业的数据库只有4个月的数据?
当然不是!
事实应该是研究人员从企业的数据库里之取样了四个月的数据。
那么,为什么即使有了“全体数据”,研究人员还只取了其中四个月的数据?
因为对数据分析来说,绝对不是数据越多越好。
即使我们拥有无与伦比的计算速度,过多的数据也会浪费研究人员的时间资源,不必要的数据甚至可能影响分析的结果。
何况根据迈尔大叔的介绍,4个月的数据取样已足以得到满意的研究结果了。
看来有了全体数据,也有必要进行数据取样。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 时代 观后感 文档