大数据小数据Word格式文档下载.docx
- 文档编号:18604736
- 上传时间:2022-12-29
- 格式:DOCX
- 页数:10
- 大小:28.35KB
大数据小数据Word格式文档下载.docx
《大数据小数据Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《大数据小数据Word格式文档下载.docx(10页珍藏版)》请在冰豆网上搜索。
小数据并不是大数据老酒装新瓶,把大数据思维操作模式简单套在小数据上并不适用。
接下来我具体从小数据的成因,特性,发展前景和问题,这四个方面来谈谈小数据是怎样作为大数据的互补和延伸的。
(二)小数据产生的原因
1.大数据对隐私无止境的侵犯和个人对主动保护隐私的需求。
1993年《纽约客》刊登了一副漫画:
标题是:
“互联网上,没有人知道你是一条狗”。
经过20年互联网,移动互联网和社交网络以及大数据的快速发展,我们已经毫无隐私成为透明人了。
现在这句话应该改成:
“不要说互联网另一端是一个人,即使是一条狗,我甚至能知道它身上有没有跳蚤”。
在数据为王的时代,个人隐私遭到肆意的践踏和侵犯。
你上网买个东西,或者在社交网上发个言,很简单一个动作,瞬间同时的在政府网络监控,电话上网公司,买东西网站,社交网,搜索网站,信用卡银行,还有专门收集资料的爬虫系统。
。
等等,留下你详细的个人资料。
更可怕的是,这些都是永久的,任何时候都不知道会被谁调用,会被人肉搜索到。
大数据的基因里有对数据无限的渴求。
因此以企业为主的大数据,在追求最大商业利益的同时,是不可能主动保护个人隐私的。
可以说,大数据和个人隐私保护是天生不可调和的根本矛盾。
随着隐私被侵犯的弊端逐渐浮现,各国都有不同程度的立法来保护个人隐私。
但是至今为止,实际收效甚微,我们对隐私大规模被侵犯仍然束手无策。
不过想想连德国总理默克尔,这么一个大国最高领导人的手机都会被窃听,我们这些普通大众的隐私在国家利益和商业利润面前,又怎么能够被真正被保护呢?
难怪StevenRambam,一个互联网隐私专家曾经说过一句让人很绝望的话:
"
Privacyisdead---getoverit."
“隐私已死,爱怎么着怎么着吧”
这时候,迫切需要从技术上,让个人主动而不是被动的保护自己的隐私。
小数据就能很好解决个人隐私和大数据的矛盾。
小数据对内是一切个人数据的集合,对外是个人数据的唯一接口。
任何对外的数据输出,都需通过预先设定授权程序。
而外面大数据其实不是真的对你的隐私感兴趣,就比如说大数据要分析用户对一个新车的市场,他需要同时知道你年龄性别收入等等,但是大数据最终目的不是要拿这些隐私,而是拿这些作为大数据分析模型必须的素材,最后分析出你喜欢或者不喜欢这辆车。
其实小数据在这方面更有优势,甚至细微到主人喜欢什么颜色,买车主要目的是上班还是休闲等,只要把小数据分析结果而不是隐私内容,通知给大数据。
这样既能保护个人隐私,又能提供大数据最准确的信息。
完美解决大数据和隐私之间的矛盾。
同时小数据还能在保护隐私的监控上掌握主动。
我们都知道,注册登记任何社交网,都要求你同意密密麻麻天书一般的法律条文。
我相信没有人会真正认真去看这些条文,因为用脚后跟想都知道,里面法律术语晦涩难懂,看懂了你又能怎么样,还不得乖乖"
IAgree"
我同意。
这都是企业合法用你数据资料的同时,用来规避法律责任的保护伞。
这可是企业雇佣庞大律师团队花巨资写出来的,我们个人在保护隐私上完全被动而且势单力薄。
如果有了小数据,这下我们从被动变主动。
你企业要用我小数据,好,没问题,数据是我的,我控制能给你什么,不能给你什么。
比如你问我喜不喜欢这辆新车,我告诉你我喜欢,但我不告诉你我年龄和家里存款。
同时外部使用我的小数据是有前提的,如果医疗健康类企业,要知道我身高体重,没问题,需要根据我制定的规则办事,你要"
我的数据使用条款,不能到处传播。
同时,还规定使用时间和使用范围,比如给你3个月只能用于某个特定医疗设备研究,用完就得永久删除,否则被我小数据监测到,可以依照里面的法律条文,咱们法庭上见。
小数据让个人作为个体信息的真正拥有着,通过小数据,制定个人信息的使用范围和授权,以及监督机制。
任何企业组织甚至政府,都要事先同意遵守我定的规则才能使用。
设想有个名人想要美国总统奥巴马约个吃饭时间,他该先和白宫办公室联系,同意白宫办公室的条件:
不能和外界事先透露总统行踪后。
同时,白宫只能跟回答比如说晚上7点总统有没有空,喜不喜欢吃牛排,而不是把总统的全部的行程安排包括总统吃什么药片都告诉对方,这个可是最高国家机密。
小数据让你享受总统待遇,你的个人信息就是你的小数据王国里的最高国家机密。
小数据还能做到绝对隐私,比如那天你累了想彻底清净一段时间,或者你要和情人老婆老公有私人空间,你跟小数据系统下指令,彻底停止所有个人数据监测,这下就清净了,你在数据世界就真的有一段时间人间蒸发了。
2.对统一全面管理分析个人数据的巨大需求。
小数据的产生还有一个主要原因,对统一全面管理分析个人数据的巨大需求。
信息时代,我们被铺面而来的信息狂轰滥炸,我们面对的问题是信息太多,不是太少。
我们最大的挑战是如何能快速,方便,一目了然的定位有用的信息,如何从纷繁复杂的数据中提炼出有价值的信息,从而真正解放个人,让自己多点时间去思考,去创作,多陪小孩家人,多去体验生活。
小数据通过对个人信息的全面收集,反馈,整理,分析,能提供最贴心的数据服务,提供最有价值的决策支持,甚至比你还了解你自己。
你问问奥巴马谁最了解他,答案不是他太太还是他父母,一定是白宫工作人员。
我举个亲身体会的很小的例子来说明未来小数据的价值。
纽约这边水表都实现电子自动读数,隔几个小时家里的水表自动发送数据到自来水公司,可以上网查看。
这个是个很原始很简单的数据,看起来没有任何价值。
有天,我突发奇想,用大数据的思维,把这些数据下载下来,结合我家的出行旅游时间记录,发现了个问题。
这水表显示没人在家的时候继续不断地用水,3年来一直如此。
我进一步挖掘,把家里每天使用水的大概时间拿来对照,最后断定,一定是某个地方悄悄的持续的漏水。
经过排查,终于在不经常去的地下室洗手间里的抽水马桶盖子里,找到一个阀门没旋紧,从这里漏水直接进下水道。
3年多来从来没被发现。
如果没有数据分析,这么隐蔽的地方不可能被发现。
我计算一下,这3年来这个阀门浪费了600多美金的水费,如果我在这里住10年,这个简单的数据分析就能省下我2000美金的无端水浪费。
这个就是小数据的个一个很简单的案例。
我进一步把我可以找到的个人数据:
当地温度历史,电气水历史用量,财务数据,健康数据,统统有机结合起来(当然数据收集废了好一番功夫)。
这个很原始的小数据给我展现出我从来没有看到过的一面,在我决策过程中提供非常多有价值的分析。
而这只是一个雏形,一个开始,如果有成熟的小数据系统,真正全面的把个人全部数据有机结合起来,其能发挥潜在价值不可估量。
小数据和大数据有者本质的区别,虽然以创造数据价值为目的思维和大数据是相类似的,但是在具体方式上,还有以下几点不同
1.数据处理方式:
大数据强调标准化,只有数据标准化,才能大规模采集,以后的数据处理概率统计才有了可能。
可是数据一标准化,就失去了其数据产生时的特性和背景。
而小数据的用户数据的最大特点,就是来源和使用者是同一个人,只不过存和取时间和背景不一样而已,这就让数据标准化失去存在的理由。
为什么要用标准化来抹去我对数据的主观色彩呢和背景呢。
比如我说“喜欢吃的这家店的臭豆腐”。
这个信息,存在我小数据的数据库里,不能单单只存标准数据:
比如时间,臭豆腐形状臭豆腐店地址等。
这些还不够,还要把我喜欢的程度和重要性:
是非吃不可否则活不下去呢,还是一般的喜欢过两天就忘记了。
还有当时的语境:
是我陪老婆去吃她喜欢我也跟着喜欢,还是我恭维臭豆腐店老板,因为他是我一个朋友呢。
这些都是小数据需要处理的信息,而大数据的标准化方式是无法做到的。
国外这方面已经有初步的研究,Dr.OferBergman在2003年最先提出“用户主观方式”(UserSubjectiveApproach)来存储个人信息。
2009年他在这方面开创性研究在美国信息技术学院(AmericanSocieityforInformationScienceandTechonology)一发表获得极大轰动。
被美国图书馆协会(TheAmericanLibraryAssociation)评为当代十大科技前沿的研究方向之一
2.人的作用:
在大数据模式下,数据从人身上产生被收集后,接下来的数据处理分析,就再也跟数据的主人无关了。
而在小数据里,所有数据都是围绕一个人,所以人在系统的发挥中心的作用。
就比如说白宫团队再怎么庞大,都要根据总统的旨意,很多重要决策,还得总统拍板定夺。
虽然小数据里不可避免要使用人工智能来提供帮助,但是人工智能如今发展还没有大的跨越,远远不能胜任代替人脑的作用。
这个有利有弊,坏处就是人还要不时的参与决策。
好处就是,使用者比较放心,因为这些数据就是你的全部信息,你放心让一个人工智能代替你做重要决定吗?
要我选,我还真不放心,我选择后者。
3.其他数据性质的区别:
比如是小数据数据量相对比大数据的数据量小。
小数据对数据不全部需要快速反应,比如说你的胆固醇,一个月收集分析一次就够了,而大数据对数据的反应要快。
小数据更加注重非结构化数据的之间的关联,重深度挖掘,而大数据重在包容所有个体的数据重在广度。
综上所述,小数据不是简单大数据的小型化,而是大数据的补充和延伸
(四)小数据发展的广阔前景
小数据解决大数据无法克服的保护个人隐私矛盾。
在主动保护个人隐私的同时,小数据提供给大数据最直接数据传输,避免了大数据的重复收集和模糊预测,提高数据使用效率和价值。
同时小数据利用全面的个人数据优势,结合外部大数据,提供给个人最个性化,最独特,最有价值的数据服务。
Amazon的名言“最成功书籍推荐应该只有一本书,就是用户要买的下一本书”,即使大数据的先行者如Amazon,预测用户要买的下一本书并不容易。
它最多能根据你在amazon的交易记录,和有限的片面的个人信息来模糊预测。
如果有小数据,身为最了解主人的个人数据系统,amazon只要跟个人小数据接口查询:
”你的主人最有可能买下一本书是什么?
”小数据先查查主人设定,是否同意和amazon交流,在不泄露个人重要隐私的前提下,做完个人分析,看看主人最近最关心什么,最需要什么类知识,列出主人最有可能买的1本书,告诉amazon。
第二天,主人一开门,发现门口摆了一本自己最需要的书,上面写着:
“Amazon通过和您的小数据系统交流,得知您最可能需要这本书,把书给您送来了,需要就拿去,我会跟你小数据系统结账。
多方便,多和谐的一个过程啊。
再拿一个大数据里被津津乐道的一个案例来说,Target超市用孕妇怀孕可能购买的商品用户购买记录,通过构建模型分析购买者行为的相关性,能推断出孕妇的具体临盆时间。
这是在大数据模式下。
如果大数据和小数据配合,小数据在主人授权下,直接把主人临盆告诉Target的大数据不就得了,Target可以根据接受的小数据的临盆时间,加上小数据愿意透露的主人年龄和对商品的个人偏好,能更加准确无误预测个体的购买情况。
这其实已经超越预测,应该叫洞察了把。
大数据很多时候被运用在广告投放的目标客户的分析上:
到底这个广告对这个人来说,是雪中送炭还是让人讨厌。
大数据时代这只能从用户以往的购买历史,旁敲侧击。
然而在小数据时代,小数据直接告诉大数据,主人喜欢这个品牌那个颜色,如果不是符合主人口味的广告,就不要来骚扰。
在这种精确无误的洞察,就好比给决策者一个清晰透视未来的水晶球。
用户,企业和政府可以最大限度的的利用大小数据的配合,进行所有的数据活动:
个人财务投资分析,个人健康监控,个人疾病治疗,企业策划营销,企业战略分析,政府宏观调控,公共卫生安全防范,预防犯罪等等。
小数据和大数据的完美结合,必将让市场营销人员,理财投资分析师(对不起啊,我的同行们,:
-)),房地产中介,医生,律师等等专业服务人员全部失业。
可以这么说,大小数据,双剑合璧,天下无敌。
小数据还有一个意想不到,却让人想想就睡不着觉的用途:
数字永生!
小数据精确记录从出生到死亡,无时不刻,细致入微的所有细节,它就是数字化的你,是你在虚拟世界最真实的数字投影。
你的世界被数据化了,因此复制你的世界成为可能。
这就涉及到人类永恒的梦想:
永生。
肉体的永生还有待科技水平的提高,但是数字化个人的永生,在小数据时代就变成可能。
你的小数据,就是你在数字世界里最真实的载体,即使肉体的消失,你的小数据还能依据一生的数据历史分析,可以对外界信息做出反应(当然这个反应只能是依照历史,不能主动创新,否则就可怕了)。
对于别人来说,你的数据载体,将永恒的停止在肉体消失的一刻。
如果思念一个逝去的亲人,你可以和她留下来的小数据聊天,问她问题,向她倾诉,听她讲她的过去,小数据会根据历史记录,最完整的呈现出逝去的亲人的一举一动一颦一笑,包括她所说和所做的,甚至推断出她所想的。
如果未来机器人和人体仿生的的进一步发展,制造出一个一模一样的人作为小数据物理载体也不是不可能。
这个是不是想想就让人激动不已!
(五)小数据的发展最需解决的三个大问题:
1.个人数据处理的进一步研究和开发。
虽然“用户主观方式”(UserSubjectiveApproach)来存储个人信息是一个重大突破,但其研究也只是理论上的初步构架,到真正实现还要有一段时间,需要科学家进一步探索和完善,加快其现实的运用。
同时,国家要把小数据和大数据一样,作为国家的战略核心资产来投入和研发,并在法律法规上保驾护航。
2.安全保护,小数据如果安全不到位,这个问题大了,这个好比在数据世界被人绑架了。
所以小数据对安全级别要求很高,这不是一个企业组织有足够的信誉和能力能做到的,需要提到国家层面,需要国家统一规划。
但是即使在很高级的安全保护算法里,只要是算法,都会有漏洞,所以,人的参与就成了拟补算法漏洞的法宝。
3.人工智能在小数据系统里占有至关重要的作用,在白宫里的地位相当于总统办公室主任,整体处理白宫各个方面大小事务。
人工智能的发展至今裹足不前,需要国家把它提升为战略地位进行科研开发和投入。
人,是一切数据存在的根本。
人的需求是所有科技变革发展的动力。
可以预见,不远的将来,数据革命下一步将进入以人为本的小数据的大时代。
==========现场讨论集锦===============
@蓝天:
今天这个论题很好,有力度,有厚重,值得学习和研究。
感谢蔡凯龙。
也感谢欢欢引介。
小数据的概念和小数据的原因与隐私保护和小数据运用的分析,很好。
谢谢。
@蔡凯龙:
谢谢大家,插播一句话,大数据里国栋兄是权威,我只不过把一些想法,可能比较前卫的想法写出来,欢迎大家探讨。
-----------------
@老牛:
这个视角非常独特。
之前我把这些通归于大数据。
@邹学勇(用友):
大数据的核心:
实时、在线、互动、全貌8字
大数据的方式没法解决个人隐私。
就像@邹学勇(用友)所列出的,大数据核心,必将涉猎到很多个人隐私。
而且大数据的标准化,让数据的个人色彩和语境无法伴随数据,对于数据的所有者来说,在一定语境下主观色彩才比枯燥单调的数据形象生动,价值高多了。
--------------------
@吴甘沙:
现在的问题是小数据与大数据混在一起,也没有对小数据的全生命周期管理,我觉得后者还是很有做头的。
把个人分布在互联网各个地方的数据管理起来,明晰各数据使用方的许可权,并审计他们的使用情况,可以撤销或转移数据。
对,这个和小数据对个人隐私的保护思维是一致的。
把所有的个人信息收集起来,谁是拥有者呢,政府监管部门吗?
我觉得最有动力去保护的就是隐私的拥有者,即个人。
个人一定是小数据的拥有者,这需要法律上产权的明晰,在此之前,各互联网服务提供者必须修改termofuse和privacy条款
@风吹江南:
我貌似在写支付革命就提出不谈大数据只谈小数据的章节。
硬生生被删除了
为什么被删除?
说实话你是我见过第一个谈小数据概念的人。
他们估计也是认为不够切合大数据热点吧。
我倒觉得小数据更现实和有意义。
大数据构建成本极高。
小数据都挖掘处理不好焉谈大数据。
-------------
蔡兄,有两个问题:
1.JaronLanier一直在推动大公司对小数据的使用必须付出micropayment,但应者寥寥,您怎么看;
2.加州议员推动RighttoKnowAct,但被技术公司lobbyist挡回去了,下一步怎么发展?
这两个问题问的非常好。
1.小数据让个人成为主动,掐住大数据侵犯隐私的喉咙,这明显不会被企业所轻易接受。
而且要付费,要接受监管,要收限制,哪有现在这么自由。
企业反对也是一大问题,所以我在下面讲小数据的问题的时候,有提到需要政府在法律法规上保驾护航。
2.议员推动法案被科技公司挡回去,这个原因和1一样,企业不愿放弃已有的对个人隐私的侵犯。
接下来如何走,我的预见是,随着大企业和政府对个人隐私的不断侵犯,民众的个人隐私保护意识越来越强,到一个临界点,出个比如2009加拿大女孩因为个人照片隐私被侵犯而自杀的轰动事件,就会成为导火索,如果民众意识的崛起,选民的压力达到了一定程度,科技公司再牛也无法lobby议员,毕竟选民的投票决定议员的位置。
@老牛:
如何实现呢?
这是整个数据机制的变化,是对大数据的正向抑制或抵消力量,符合《动物精神》中的观点.
实现还很遥远,我在最后一节有提到小数据发展的3个必须解决的问题,也许这些问题解决了,离实现就更加接近了。
@吴甘沙:
现在的问题是个人的awareness不够,看了现在可穿戴计算设备的termofuse,基本上都是要把数据给第三方,或不保证数据的保密性和安全性。
用户也无奈接受了
个人穿戴设备的条款已经是到达入侵个人隐私的极限,所以更加显示出以后对隐私保护的重要性,相信不久随着个人穿戴设备的普及,这个必将成为热点。
----------
Target这个案子除了隐私之外,我认为还有数据使用的伦理问题。
它的个人刻画能够发现怀孕的情况,也应该能发现是未成年人,如此就不该向未成年人发关于怀孕的定向广告.
这点提的好.Target应该无法从销售数据查出年龄,至少在美国对年龄这种个人隐私还是很保护,所有只能靠大数据和小数据的配合,才能避免给未成年人发放怀孕广告。
@曾光光:
大数据是通往奴役之路.各种数据孤岛会由点到线,最后自组织自演化成网,每个人都在网中,享受数据便利的同时,数据隐私无处可逃。
就像matrix.脱离这张网就无法生存.
对,以后数据革命是越来越让人像在matrix里,不过我们对隐私被侵害并不是无能为力,这点我没有那么悲观。
呵呵。
担心的是机器革命.[微笑]
机器革命等人工智能产生大飞跃才有一丁点的可能,我并不担心啊,如果那天机器人能画出梵高的《星空》,那时候我一定吓得半死。
------------
蔡兄,有个问题请教,现在大小数据是不分家的,大数据由小数据聚合而成,只不过一个强调集合价值(知著),一个是强调个人价值(见微)。
如果分家了,大数据又从何而来呢?
大小集合的现状有很多的弊端,比如隐私,比如强化个人数据服务。
所以发开是一种进化。
即使分开了,大数据也有它广阔的空间,大数据在广度分析上小数据无法做到。
几比如说你小数据有你从出生到现在所有的健康记录,你去看医生(如果医生这个职业还存在的话)。
那大数据就会把你的所有健康记录,去和全世界病患案例对比,分析,参照所有医疗研究成果,帮你找出最合适的治疗方案。
@谢涛令海博智能:
我有个问题,小数据能否作为大数据的不可分割的一部分来处理?
就像宏数据(metadata)?
这样可以用大数据上花巨款劈开的市场之路,而不用再为小数据开另外的市场之路。
我一直在思考研究大数据溯源问题,觉得独立地去用小数据这个词儿有些困难,所以有此问。
觉得把小数据从大数据分隔出来也很困难。
@吴甘沙交叉信息。
我们说得是一个意思。
大小数据分开会造成很多概念问题,我一直没能想透彻。
我同意,分离出来要面对很多难题,关键是,大数据,或者说Metadata是否能解决两大小数据最核心的功能:
主动保护隐私,和个人全方位个性服务。
如果Metadata在这两方面有飞跃,那小数据没有存在的必要了。
不过目前我还看不出来。
@赵国栋:
看到最后,发现你不是在说小数据,而是在谈个人的agent,这个agent是个人再网络时空的存在。
可以这么理解吧,个人的agent应该属于白宫总管,也需要对个人数据的融合,
在有些场景中这个实现成本太高啦。
轮询所有agent才能得到隐私的回复
这个实现可以更加简单,国家针对全部隐私制定各种级别,对大数据运用也分类,而个人,在小数据中可以大体设定一个对应类的级别。
具体大数据和60亿个小数据交换信息,这个现在应该几秒钟的事情吧。
agent思想的难处是采集到所有小数据,要求和所有端的程序有接口。
如果有个人爬虫,或许可以解决小数据源的问题
个人爬虫是个人隐私泄密的帮凶,赵兄如何让个人爬虫防止隐私泄密呢?
也是。
没想到啥好办法!
--------
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据