读大数据时代有感Word下载.docx
- 文档编号:16277675
- 上传时间:2022-11-22
- 格式:DOCX
- 页数:6
- 大小:22.48KB
读大数据时代有感Word下载.docx
《读大数据时代有感Word下载.docx》由会员分享,可在线阅读,更多相关《读大数据时代有感Word下载.docx(6页珍藏版)》请在冰豆网上搜索。
通过收集所有的数据,我们可以预先捕捉到事物要出故障的信号,比方说发动机的嗡嗡声、引擎过热都说明它们可能要出故障了。
系统把这些异常情况与正常情况进行对比,就会知道什么地方出了毛病。
通过尽早地发现异常,系统可以提醒我们在故障之前更换零件或者修复问题。
通过找出一个关联物并监控它,我们就能预测未来
随着网络技术的发展成熟,传统行业不断感受到来自大数据、云计算等新技术的冲击,这些新技术意味着游戏规则的改变,大数据技术对各行各业的发展的影响尤为显著。
人们对大数据的探讨越来越深入,兴趣也越来浓厚。
舍恩伯格分三部分来讨论大数据,即思维变革、商业变革和管理变革。
在第一部分“大数据时代的思维变革”中,舍恩伯格旗帜鲜明的亮出他的三个观点:
一、更多:
不是随机样本,而是全体数据;
二、更杂:
不是精确性,而是混杂性;
三、更好:
不是因果关系,而是相关关系。
维基百科说大数据由巨型数据集组成,这些数据集大小常超出常用软件在可接受时间下的收集、运用、管理和处理能力,或称巨量数据、海量数据、大资料,大数据的常见特点是3V:
Volume、Velocity、Variety。
但是通过阅读,我了解到规模巨大的数据未必就是大数据。
比如伯努利实验,随着实验次数的无限增加,频率将趋近去概率,但这只能说是统计学或者是概率学,而不是大数据。
将这一概率引入金融学、天文学、地理学等等领域,进而进行关联研究,但是传统的分析方法的时间是不允许这样做的,这需要搞笑计算资源与能力,将处理结果迅速呈现出来。
大数据并不是指数据本身,而是一种思维方式。
“大数据不是要教机器像人一样思考。
相反,把数学算法运用到海量的数据上来预期事情发生的可能性。
”大数据令人着迷之处还在于,它正在尝试着引导人们用科学的办法对“预测”挑战。
作者引用了安德森的观点“现在已经是一个有海量数据的时代,应用数学已经取代了其他的所有学科工具,而且只要数据足够,就能说明问题”。
大数据研究的一大驱动力就是商用,舍恩伯格在第二部分里讨论了大数据时代的商业变革。
而要为商业所用,第一从原始数据采集、数据清洗整合到构建模型分析、形成可显示化结果,整个流程必须连贯起来;
第二,大数据产业化,技术成熟。
而国内目前的情况是,传统企业的流程分割化现象严重,就数据采集方面来说,因内部是各个孤立的系统而产生信息孤岛现象,又或者是数据采集过于片面。
所以传统行业能够运用大数据技术创造更大的商业价值的前提是实现信息化、数字化,并且要有新的思维,不论是公司高层还是底层(这就涉及到第三部分——管理变革)。
此外,大叔级技术在国内的发展不能说顺利。
首先国内的大数据技术缺乏数据准备阶段,这就使得发展大数据成为空话或者是说只是一种概念炒作,对比国外,没有媒体刻意推进和炒作,只是在脚踏实地地研究,这样出来的技术才可能是完美的成熟的。
要发展好大数据,要利用大数据创造的价值,就要改变管理的思维方式,变革管理模式。
运用大数据的企业要改变,研究开发大数据的企业也要改变。
维克托·
尔耶·
舍恩伯格在《大数据时代:
生活、工作与思维的大变革》中最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。
这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
对于大数据(BigData)的应用,并不是他不想证明因果关系,而是并不能证明因果关系。
由于大数据的收集方法和分析方法,在于把所有能收集的数据都收集,再集中分析,这种研究方法是缺乏时效性(temporality)的,所以,他并不能证明因果关系,只可以说明两者的相关关系。
可是,对于事物发展的预测,有时,影响因素成千上万,解释的理论更加是多如牛毛。
大数据改造了我们的生活,它能优化、提高、高效化并最终捕捉住利益,那直觉、信仰、不确定性和创意还能扮演什么角色呢?
就算大数据无法教会我们所有事情,只要能帮助我们表现更佳、更富效率、取得进步,就算缺乏深入理解也是很有用的了。
一贯如是地坚持下去才有效力。
即使你不明白为什么付出的努力得不到回报,但相比不努力,你要明白你已经在改善事情的结局了。
有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。
大数据不仅让我们不再期待精确性,也让我们无法实现精确性。
然而,除了一开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。
大数据并不是一个充斥着运算法则和机器的冰冷世界,其中仍需要人类扮演重要角色。
人类独有的弱点、错觉、错误都是十分必要的,因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。
偶尔也会带来屈辱或固执的同样混乱的大脑运作,也能带来成功,或在偶然间促成我们的伟大。
这提示我们应该乐于接受类似的不准确,因为不准确正是我们之所以为人的特征之一。
以上就是我的一些感悟,在大数据时代的背景下,我们应该看到其更深层次的东西,抓住机遇迎接挑战,不断进步。
摘录部分:
下面摘录一部分我在知乎上看到的关于《大数据时代》的讨论,网友提出的质疑同样值得我们深思。
作者:
AndyHsu来源:
知乎
链接:
花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:
生活、工作、思维的大变革》。
我看推荐说这是“迄今为止最好的一本大数据专著”。
目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。
一、主要观点上可以探讨的地方
作者提出了关于大数据的“掷地有声”的三个原则。
这三个原则凡讲大数据必被提及,很多人奉为圭臬。
但是我觉得每一点都值得探讨。
这三点分别是:
看完之后感觉都有点不是那么回事。
1.不是随机样本,而是全体数据
这个说得好像人类从来就不知道使用全体数据可以得到更全面的结论,而非要去煞费苦心发展出一套抽样技术一样。
人类早就知道处理全量数据的好处,而之所以要进行抽样分析,原因不外乎两点:
一是处理能力跟不上,二是数据收集能力跟不上。
作者认为人类之前主要受限于数据的处理能力而不去处理全量数据,但在目前机器处理能力有了巨大的提升的时代,限制绝大多数应用的瓶颈不是计算能力而是数据采集能力(不要去提那些极少数需要超级计算机的场合,那个和多数人无关、和本书的商业主题也无关)。
但是即便如此,抽样所要针对的很多应用场景是不太可能收集全量数据的情况。
比如人口普查,无论计算机力量如何强大,当前很多数据还是要人工去收集,所以这个普查还是要用抽样的方式。
有意思的是,作者用人口普查是抽样分析来说明非“全量”时代我们被迫采用了抽样,而最终也没法说我们是否已经可以用全量数据来做人口普查了。
实际上至少在目前,对于人口普查,抽样还是必然的选择(嗯,你可以设想,以后人人都装一块芯片,你可以在你的PPT里讲给你的客户和老板听)。
再比如我们统计里的经典问题:
怎么估算一批零件的使用寿命?
怎么去分析一批奶品里的三聚氰胺?
以前我们不可能去做全量测试,因为这意味着这批零件就废了,这批奶也全部用于测试了,这样测出结果也没啥意义了(嗯,你也可以说:
我我们去收集历史上所有此类零件的使用情况来进行分析吧.....嗯,加油吧,雄心勃勃的骚年)。
现在?
我们还是必须依赖抽样,是必须。
即便不提这些例子,仅从逻辑而言:
收集、处理数据的行为本身也在不断产生着新的数据。
我们又怎么证明这些数据不是你需要的“全量”的一部分呢?
作者的行文中,关于什么是“全量”,处于不断的摇摆之中。
有时指“我们需要的所有数据”,有时指“我们能收集到的所有数据”。
作者举了人口普查的例子,这个全量显然指前者。
而在很多商业案例中,又显然指后者。
我们有能力处理越来越多的、在以前不敢想象的大量数据,但是至少目前看,我们还没可能说我们处理了“全量”。
我们最多可以说我们能处理我们能搜集到的“全量”,但如果据此产生了我们已经没有遗漏数据了的感觉,认为所有数据尽在掌握了,那我认为是一种很可能导致错误的错觉。
2.不是精确性,而是混杂性
这个么,说得好像以前的人类在使用“抽样”数据时竟然都认为取到的数据是“精确”的一样。
在使用抽样数据的时候,我们就知道要容忍一定的误差。
我们甚至知道在就算取得了“全样”数据的时候,也可能因为有各种原因而导致的不精确,统计实践中对此有相当多的案例。
人类从未奢望过我们通过数据分析取得的多数结论是精确的。
我们从来都要在信息混杂的情况下做出大多数的决策。
3.不是因果关系,而是相关关系
这是很多人(包括作者)认为最有价值、最重大的发现,而实际上却也是最收到批评的一个观点。
连译者周涛教授在序言里都表示看不下去了,他至于认为如果放弃对因果关系的分析,是人类的堕落。
我不说这么高的哲学层面,只从逻辑和技术上讨论一下。
计算机能够提供给我们的结论(到目前为止以及在可见的未来),都是相关性。
计算机从未提供过明确的因果关系给人类。
是否因果关系,是人类在数据基础上,进行的人为判断。
一直有相当多的应用,也是只考虑相关性,不考虑因果关系的:
确定因果关系,是需要更大的精力、更多的投入的。
所以只看相关性而不看因果性也不是什么新的结论(实际上已经是个很旧的结论了)。
而这个相关性是不是可以作为决策的基础呢?
这个一样离不开人的判断。
有一个这样的故事:
通过大量的数据分析,慈善组织得出结论:
一个国家、地区的电视机的普及率与发达富裕程度很有关系(冰箱、洗衣机、空调、高跟鞋、牛仔裤,etc.,也会和发达程度有这样的相关性),于是他们就向贫困国家赠送了很多电视,认为此举可以促进该国的经济发展。
你可以鬼扯电视的普及与经济文化的密切相关,但是实际上最终发现更可能是经济发展导致了电视的普及,而不是反过来。
所以,我们真的不需要因果分析吗?
说得玩笑一点:
这个世界真的不需要脑子了吗?
作者举了一个例子:
谷歌分析搜索关键字来确定哪里可能发生了流行病。
认为这就是利用了相关性而不是因果性。
这是没有利用因果判断吗?
现在在投入巨大的机器资源进行分析之前,分析师已经预计了得病的症状可能会导致人们去网上进行相关搜索(影响了搜索行为)。
谷歌存储的用户上网信息肯定远远不止一个搜索关键字,分析师为何不开足马力把“全量”数据、各个指标都分析一遍呢?
比如用户上网地点?
上网时间?
上网频率?
上网语言?
浏览器版本?
客户端操作系统?
etc...为何会像导弹一样精确地将机器资源投放到了关键字上呢?
总之,对于这些原则,作者为了显出新意,说得过于绝对。
而排除掉绝对的成分后,这些观点也就不显得是创新了。
作者把三个数据分析人员一直秉持的原则,当做全新的东西讲了出来。
时代在变化,我们或许应该经常重新审视这些原则,来确认自己的思想是不是僵化了、是不是过时了。
我赞同作者重新审视这些看法,但是我觉得没必要讲得这么极端。
二、细节论据上可以探讨的地方
除了三个大原则不足以令人完全信服,在一些细节上,作者的引证也不是很严谨。
如第51页,对于拼写检查的算法的优化。
作者提到,通过输入大量的数据,4种常见语法检查算法的准确率提高了很多,以此说明大数据发挥了作用。
这确实是个很有启发性的例子,可以去做更深入的分析和研究,但是.....仅仅4个例子,够得出很有力的结论吗?
4个算法,作者没注意到这是一个非常小的样本吗?
不能因为这是4个用了大数据的采样,就认为这是一个支持大数据的有力结论了吧。
(顺便我很想问问他们:
为什么不测试个几十上百的算法呢?
是不是面对如此“大量”的计算,也只好折中选择了一个抽样的小样本呢?
甚至连样本数量是否合格都顾不上了吗?
)
三、这本书有什么用处?
对于这样的一本书,我不明白周涛教授在译序里为什么要建议大家(以后)每个版本都应该买一本。
为什么要买?
难道作者理清自己脑子的过程很值得我们关注吗?
译序里说:
“作者渴求立言立说的野心”,但是我恐怕作者是达不到这个目标的。
关于作者的简介为:
“《大数据时代》是国外大数据系统研究的先河之作,本书作者维克托·
迈尔·
舍恩伯格被誉为‘大数据商业应用第一人’,....早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。
”
总体感觉是作者有很多想法,见识过很多案例(这些案例都丰富地体现在书中了,也很有参考价值)。
但并非是一个曾经和数据真正绞尽脑汁搏斗过的人(这是我瞎猜的,没有考证过他的经历。
考据者请不要告诉他做过什么咨询案例,这离真正体会数据的折磨还很远。
)。
第183页说道:
“...执行官们信任自己的直觉,所以由着它做决定。
但是,随着管理决策越来越受预测性分析和大数据分析的影响和控制,依靠直觉做决定的情况将会被彻底改变。
..."
真的会么?
如果你面对某一家企业做咨询,那可以这样讲。
一种新技术的采用很有可能大幅提升企业的战斗力,并超越竞争对手。
但是作者是期望对行业立言的人,面对整个社会我们这样讲就不严谨了。
引用一个例子:
中国棋院的一次训练会后,总教头马晓春对隔天要去各自的母队参加围甲的棋手们说:
祝大家周末取胜。
棋手们笑了:
我们只有一半的人能赢啊。
同样,如果大家都采用了大数据技术,那么也总有企业要在竞争中落于下风。
而既然我们实际上无法真正分析“全量”数据,那CEO们还是会有很大的决策空间,哪怕很多决策实际上“不科学”。
最起码,他们需要决定将有限的企业资源投入到对什么样的大数据进行分析,并如何应用分析出来的结果。
嗯....我认为,这多少还是要依赖一些直觉的。
那么大家是否应该看一下这本书呢?
我的答案是应该看一看。
既然大数据是当前的潮流、相关的研究/商务活动层出不穷,那么做IT工作、数据工作的人对于“最好的”专著无论如何都必须看一下。
书中集中展示了很多案例,值得作为参考和启发思维。
此外,为了作为谈资、为了在写大数据PPT时有所依据,大家也得看看这本书。
根据场合不同,可以对里面的内容复制粘贴、理解重写。
这些内容,我相信买一版也就够了。
需要提醒PPT人员的是,演示前请想清楚如何回答可能被提及的质疑。
如果你对这本书的观点都深信不疑,那么你将会遇到很多的质疑。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 时代 有感