大数据背景下的数据挖掘.docx
- 文档编号:114780
- 上传时间:2022-10-03
- 格式:DOCX
- 页数:2
- 大小:17.92KB
大数据背景下的数据挖掘.docx
《大数据背景下的数据挖掘.docx》由会员分享,可在线阅读,更多相关《大数据背景下的数据挖掘.docx(2页珍藏版)》请在冰豆网上搜索。
信息与电脑
数据库技术
ChinaComputer&Communication
大数据背景下的数据挖掘
吴小惠
(福建船政交通职业学院信息工程系,福建福州 350001)
2016年第1期
摘要:
“大数据”时代,对于人们的生活工作中产生着大量的数据信息,如何进行数据挖掘、提炼、再利用已经成为了一个重要的课题。
基于此,叙述了大数据的特点,探讨了数据挖掘的基本方法和对大数据挖掘的发展展望。
关键词:
大数据;数据挖掘;MBR分析
中图分类号:
G712 文献标识码:
A 文章编号:
1003-9767(2016)01-122-02
21世纪是个信息时代,大数据时代,数据无处不在,它不仅是文字、字符、语音,更是图像或视频。
人们在互联网上的一切行为轨迹,比如淘宝上的购物数据,百度搜索关键字,随身手机健身运动记录等等……注入大数据的海洋。
试想,全球70亿人口,每时每刻会产生多少数据,他们如何被记录或开发呢?
互联网技术的成熟,借靠网络媒体和硬盘的存储能力,
记录海量信息越来越简单,麦肯锡作为全球知名咨询公司在他的一份报告《大数据:
创新、竞争和生产力的下一个新领域》,称“大数据”时代已经到来,大数据长驱渗透至每一个行业、每个业务职能领域。
对信息挖掘并加以利用的能力将决定其是否能及时地抓住机遇。
1 大数据的特点
基维百科对大数据定义为:
规模巨大到无法用目前的软件工具处理的资料量,在相应时间内完成撷取、管理、处理后利于企业完成经营目标的资讯;市场研究机构将大数据定义为必须用新型的处理模式才更好地洞察、决策并优化流程的巨量、多样化且高速增长的信息资产。
我们通俗的理解为一般指在10TB规模以上的数据量。
其同时具备数据量大、数据种类繁多、价值密度低、处理速度快等特点。
因此,大数据的战略意义在对富有意义的数据进行专业化处理,而不在于掌握多么庞大的数据信息,对他们进行“过滤”“整合”“加工”,实现数据的“增值”。
这就成了一
个亟待解决的问题,引领互联网数据处理进入了数据挖掘时代。
2 数据挖掘的基本分析方法
数据挖掘理论上讲是一个在海量数据中利用分析工具充分发现模型与数据间关系的这么一个过程,通过数据挖掘可以帮助决策者寻找数据间潜在的某种关联,发现隐藏的、被忽略的因素。
它融合了统计学、人工智能、数据库、机器学习等多领域的理论与技术,因此成为一门交叉学科,这些学科反过来对数据挖掘提供了强大的技术支持。
传统的数据挖掘更倾向于对代码和算法的编辑,作为面对大数据的数据挖掘,绝非仅仅停留在对数据进行统计分类的层面,更需要智能化的分析,通过科学可靠的算法,通过不同的分析方法,找出数据中潜在的规律,解决不同类型的问题,在现实中针对不同的分析目标,给予相对应的方法,现阶段常用的分析方法主要以下几种。
2.1基于历史的MBR分析(Memory-BasedReasoning)
它基本的概念是用已知的案例来预测未来案例可能存在的一些属性,通过足够的历史数据寻找最相似的案例来做比较。
通过记忆基础推理法完成包括医学诊疗、欺骗行为的侦测、反应的归类、客户反应预测等方面的推理和预测。
2.2聚类分析
这个技术涵盖范围相当广泛,它的目标为通过相似的方法来收集数据分类,将物理或抽象对象的集合进行分组,找出数据中以前未知的相似群体,作为研究的开端,运用到群集侦测技术。
2.3决策树
也称为分类与预测,通过决策树来解决有着极强的能力。
所谓的决策树就是一个树根在顶端,许多树叶在底部,以法则的方式表达,将记录分解成不同的子集,每个子集中的字段都包含一个较为简单的法则,这些法则以若干个的问题表示出来,通过不同的外形,如二元树、三元树、混合元树,不断询问问题最终导出所需的结果。
2.4连接分析(关联分析)
在自然界,人与人、物与物或是人与物之间存在着千丝万缕的联系。
连接分析就是利用各种事物之间存在的关联知识或依赖来发现事物之间存在的规律性,进行预测。
例如“尿布与啤酒”的经典案例,著名的谷歌成功预测流感的案例,正是对关联数据进行了智能化的分析总结,才将这两个仿佛毫无关联性的商品摆到了一起从而增加了各自的销量。
2.5遗传基因算法
作为一种由生物进化而启发的一种学习方法,遗传算法常被用作评估其他算法的适合度,模拟细胞演化的过程,通过对当前已知的假设变异和重组,类似细胞间不断的选择、
作者简介:
吴小惠(1971-),女,福建沙县人,本科,副教授。
研究方向:
计算机软件技术。
— 122 —
2016年第1期
ChinaComputer&Communication 数据库技术
复制、交配、突变产生更佳的新细胞,来生成后续的假设。
具体的说,利用适合函数,将目前可行性最高的假设的后代来代替群体的某个部分,提高个体的适应性。
通常在群集
(Cluster)问题上有不错的表现。
2.6人工神经网络
神经网络是建立在自学习的数学模型基础之上的,通过重复学习的方法,将一串例子交与学习和复杂的大批量数据分析,实现对于电脑或人脑来说非常复杂的模式抽取及趋势分析。
目前在数据挖掘中,最常使用类神经学习的方式,是
BP网络和RBF网络两种神经网络。
3 大数据挖掘的发展前景
在技术方面,科学家们从现有层面上提出各种新兴技术。
比如从数据处理角度,有分布式处理方法MapReduce,较著名的应用工具有Hadoop和DISCO。
从数据库角度出发,在信息检索、流媒体存储等方面有NOSQL开发工具,以及对应超大规模和高并发的SNS类型的WEB2.0纯动态网站而使用的非关系数据库高速发展,如MongoDB、CouchDB。
在如何提取有价值的信息,处理底层的结构化技术支持外,数据挖掘算法,机器学习算法都是必不可少的。
在信息安全方面,大数据挖掘将成为信息安全发展的契机。
如今,数据无处不在降低了自身信息的安全性。
例如存储于云端的大量数据,至今还没有形成有效的集中管理,而单独的管理用户信息无法一一分辨其是否合法,这就提高了非法入侵、篡改数据信息的危险性。
对此,各种为信息安全服务的技术和产品成为大数据研究中心的方向和信息安全领域的首要问题。
因此如何保证数据产业链的安全对信息安全发展具有重要的意义。
在企业经营管理和产业服务方面,大数据挖掘将成为企业及服务机构等诸多行业的转折点。
伴随着大数据挖掘技术在企业管理中带来经济效益的同时,也带来了管理模式的巨大改变,企业必须拥有三类人才:
管理人才、分析人才及技术型人才,紧跟时代脉搏,从大数据中获得关键信息,及时调整企业产业规划,才能在时代变革中保持自身利益,求得生存。
在教育教学方面,面授式教学,尤其在大学,已经突显
落后,一所具有强大数据挖掘能力的远程教学平台,信息化教学的数字校园,能为师生提供更具个性化的数据支撑和服务。
在校园启用“大数据”,通过便捷的多元的采集方式,建立基础数据平台并和教学资源,提供标准数据接口,统一采集、认证,集中存储,开放计算,最终消除“信息孤岛”。
在商业价值方面,大数据挖掘将成为创造价值的核心。
时间虽短,历经二十年打开了一个新的时代,引领全球进入创新和发展的新的竞争模式。
例如,欧洲政府运用大数据而分别节省1000亿欧元,美国医疗业则节省了和3000亿美元,此外,大数据中潜在个人信息价值不可估量。
世界各国政府都加大了对大数据发展的扶持力度,特别在发达国家甚至上升到国家战略的高度。
4结 语
我国正步入了大数据时代发展的中坚核心,加大对大数据及数据挖掘的研究及合理利用,及时开展人才培训、研究大数据挖掘技术、信息安全系统研究配合调整发展政策。
展望未来,我们最终会利用纷繁复杂的数据建立起人工智能的信息时代。
但数据大并不等于大数据,当繁杂的价值密度低的信息数据堆现于眼前,数据就是一个噩梦。
人们无法回避对数据安全性、应用性及隐私保护的担忧。
试想,放任软件继续在几何递增的数据库上执行海量的科学计算,在此基础上进行科学、经济和军事安全等领域的决策制定,我们是不是过多地把权力交给了机器?
这是研究大数据需要注意的问题。
参考文献
[1]王树良,丁刚毅,钟鸣.大数据下的空间数据挖掘思
考[J].中国电子科学研究院学报,2013
(2).
[2]孟小峰,慈祥.大数据管理:
概念、技术与挑战[J].
计算机研究与发展,2013,50
(1).
[3]程陈.大数据挖掘分析[J].软件,2014(4).
[4]钟瑛,张恒山.大数据的缘起、冲击及其应对[J].现代传播,2013(7).
[5]DavidJ.TenenBaum.数据之舞:
大数据与数据挖掘[J].
求知导刊,2013
(1).
— 123 —
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 背景 挖掘