毕业设计基于数据挖掘的政府信息资源.docx
- 文档编号:12388973
- 上传时间:2023-04-18
- 格式:DOCX
- 页数:29
- 大小:166.85KB
毕业设计基于数据挖掘的政府信息资源.docx
《毕业设计基于数据挖掘的政府信息资源.docx》由会员分享,可在线阅读,更多相关《毕业设计基于数据挖掘的政府信息资源.docx(29页珍藏版)》请在冰豆网上搜索。
毕业设计基于数据挖掘的政府信息资源
毕业设计课程设计有相应的资料和CAD图纸,充值下载或购买者将免费赠送。
联系QQ号;1620812008.
本科毕业论文
基于数据挖掘的政府信息资源
学院___管理学院_____
专业___电子商务________
年级班别___2006级
(2)班__
学号___3106005602_______
学生姓名______________
指导教师_____________
2010年5月
摘要
随着互联网的发展和政府信息化的推进,电子政务已经成为我国信息化进程的重点,同时政府的信息共享也越来越复杂,随着数据仓库技术、OLAP技术及数据挖掘技术的逐步成熟,为实现决策支持系统提供了技术上的支持,使决策支持系统的发展跃上一个新的台阶,也为决策支持系统开辟了一条新的途径。
所以,以数据仓库(DataWarehouse)技术为基础,以联机分析处理(OLAP)和数据挖掘(DataMining)工具为手段实施政府经济决策系统是当前公认的一整套解决方案。
其中,数据仓库直接为联机分析处理和数据挖掘提供数据能力。
针对我国一些地区出现的政务信息公开滞后,网上办事难,本文以广东某市的区域住房情况进一个预测树分析,通过联机处理工具和数据挖掘工具对政务信息提出一些有用的信息
关键词:
数据挖掘,电子政务,政府信息
注:
本论文题目来源于基于Web环境广州市政府信息资源分类共享及发布机制研究(09Q23),广州市哲学社会科学发展“十一五”规划课题
Abstract
WiththedevelopmentoftheInternetandgovernmentinformationtechnologytopromotee-governmenthasbecomethefocusofChina'sinformationprocess,whilethegovernment'sinformationsharinghavebecomeincreasinglycomplex,withthedatawarehouse,OLAPtechnologyanddataminingtechnologymatures,Toachievedecisionsupportsystemprovidestechnicalsupporttothedevelopmentofdecisionsupportsystemhasleapttoanewlevel,butalsofordecisionsupportsystemshasopenedupanewway.
Therefore,datawarehouse(DataWarehouse)technology,on-lineanalyticalprocessing(OLAP)anddatamining(DataMining)toolasameansofimplementingthegovernment'seconomicpolicy-makingsystemiscurrentlyrecognizedasasetofsolutions.Amongthem,thedatawarehousedirectlytotheonlineanalyticaldataprocessinganddataminingcapabilities.
Inviewofthenumberofregionslaggingbehindthegovernmentinformationpublic,theInternetworkhard,thispaper,thehousingsituationintheGuangdongcityoftheregionintoapredictiontreeanalysis,throughon-lineprocessingtoolsanddataminingtoolforgovernmentinformationsomeusefulinformation
Keywords:
DateMining,E-Government,GovernmentInformation
第一章绪论
1.1题目背景和目的
近年来,随着互联网的发展和计算机在各个部门间的深入应用,大部分单位都投入大量人力物力建立复杂的政务信息系统,随着政府信息共享的深入,面对着宝贵数据的共享和知识技术的不足,加强政府信息开发和利用迫在眉睫。
随着政府信息的共享和政务信息化的推进,整合了各级各类信息资源,这些数据在满足政府日常政务需要方面起了重要的作用,同时由于信息量的庞大复杂等原因,未能得到有效的挖掘,因此,在政府信息中开展数据挖掘显得日益重要。
随着数据库和计算机网络的广泛应用,加上先进的数据自动生成和采集工具的使用,人们拥有的数据量急剧增大。
然而数据的极速增长与数据分析方法的改进并不成正比,一方面人们希望在已有的大量数据的基础上进行科学研究、商业决策、企业管理,另一方面传统的数据分析工具很难令人满意的对数据进行深层次的处理,这样二者之间的矛盾日益突出,正是在这种状况下,数据挖掘应运而生。
[1]
信息工作面临着前所未有的挑战,面对着除政府外,公安、教卫、劳动和社会保障等系统及互联网而来的铺天盖地信息,如何发现可供决策的信息,仅仅依靠人力完成变得非常困难,因此选取适当数据挖掘手段,才能发现过去数据之间的潜在联系,进行更高层次的分析,以便更好地做出理想地决策、预测未来地发展趋势。
[2]
当前,数据挖掘研究方兴未艾,其研究与开发的总体水平相当于数据库技术在70年代所处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,才能使数据挖掘的应用得以普遍推广。
预计在本世纪,数据挖掘的研究还会形成更大的高潮,发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互。
[3]
加强对各种非结构化数据的开采,如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。
为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。
1.2信息分析对电子政务的意义
在政府的工作中,由于工作的需要建立了庞大的信息收集系统并积累了大量数据。
可以说,政务数据资源是电子政务系统的“血液”。
政务数据资源的重要性体现在以下几个方面:
(1)政务数据的管理制度决定政务创新能力
从我国政府管理与服务职能上来看,政务数据资源管理体制与政府组织机构的业务内容是密切相关的。
开放、严谨的政务数据资源管理制度是政府管理方式从经验型管理向科学规范化管理转变的重要一步,也是发挥政府管理与服务创新能力的有力保障。
整合政务信息资源、建设政务数据库必须打破政府部门之间对公共信息资源的垄断和封闭,加大政府机构之间、政府与企业、政府与个人之间信息资源的共享程度。
(2)政务数据的存在形式决定电子政务的运行效率
在电子政务活动中,政务数据资源的表现形式多种多样,如文本、图形、图像、报表、音频、视频等,政务数据资源的存在形式包括纸介质、磁介质等不同物化形式。
传统介质上存储的政务数据资源编辑、分类、信息抽取等操作较难完成,而电子形式存在的政务数据资源则利用现有信息技术,可以方便地进行报表整理、图形输出、统计分析等。
现在利用计算机应用软件和网络通讯技术可以即时地传输、采集、存储、检索和分析所有相关数据,快速把数据挖掘结果、模型分析结果上报作为政府科学决策的重要依据。
(3)政务数据的分析质量决定政府决策效果的好坏
电子政务的决策支持过程是一个从非结构化数据中抽取结构化信息,再提供非结构化决策分析结果的过程。
在这个过程中,最为重要的是数据分析环节。
虽然量化的数据分析结果不能代替决策本身,但量化的数据分析结果是科学决策的重要依据。
采用量化管理方式的政府机构做出的虽然是非结构化的决策,但其决策内容直接来源于数据分析结果,因此其决策准确性和有效性也与数据分析质量相关。
[4]
1.3国内发展现状
经过多年的实践,我国电子政务建设和应用已初见成效。
人口基础信息库、法人单位基础信息库、自然资源和空间地理基础数据库、宏观经济数据库的建立产生了海量的空间数据和非空间数据。
这些数据中隐藏了丰富的知识和规则,但目前的许多系统只是实现数据的输入、查询、统计等功能,难以发现数据中存在的关联、关系和规则,无法从大量的数据中提取有用信息以预测发展趋势[5]。
因此,电子政务需要一个智能化的辅助决策系统。
而数据挖掘是一套具有数据挖掘功能的信息处理技术,主要特点是对数据库中大量的业务数据进行抽取、转化、分析和其他无形化的处理,从中汲取辅助决策的关键数据,为政府重大法规出台提供决策支持。
比如在宏观上通过对各种经济数据的挖掘,确定未来经济的走势,制定相应的宏观调整政策;在微观上,对经费拨款申请中的欺诈行为进行反制,可以根据数据挖掘制定防欺诈的方案,分离出导致欺诈和实际行为的关键因素,制定相应的判据,精准地甄别和标识出最有可能存在欺诈问题的记录和经费的申请文件等。
电子政务建设的初衷是形成完善的电子政务网络管理模式,为政府的办公及业务活动的开展提供一个公开、公正、公平的存取信息的平台,这个平台可以使政府办公业务信息从部门和层级的界限中解放出来,成为共享资源。
由于体制与部门利益的原因,绝大多数政府信息部门的数字资源系统自成体系,缺乏统一规划,各部门形成相互独立、封闭的数字系统,严重阻碍了部门间的信息流通、更新和共享,从目前世界各国的情况来看,电子政务的发展主要集中在以下五个方向:
一是提高事务处理的程度;二是提高政府各个业务系统一体化的程度;三是提高政府信息资源开发的水平;四是提高政府信息资源共享的程度;五是提高知识管理和利用的水平。
1.4研究思路
通过前面的介绍,我们了解到政府是海量信息的掌握者,同时也是政策方针的制定者,政府工作人员面对着海量的数据,如果不借助计算机和其它工具,根本没办法从大量的数据中得到有用的信息。
政府数据挖掘基于政府信息的共享,寻找数据中包含的资料,找出符合一定条件的数据,利用数据挖掘工具,发现知识,找出内在联系,从而得出有用的关联规则。
在数据收集中,我们可以通过各部门共享的数据通过筛选得出需要的数据,并按一定的格式存入数据库中,再按各需要的挖掘方式,建立快捷易懂方便的挖掘模型,对目标数据进行挖掘分析,从多角度挖掘数据能够更深入地寻找潜在规则,制定相应措施和方针,在此理论上进行一次试验,通过对特定数据分析挖掘,找出新知识,并分析结果,制订对策,说明该理论的可行性,并找出不足和今后的目标。
1.5论文结构和研究内容
本文共分五章,各章主要内容分为:
第一章,绪论,主要介绍论文的研究背景、意义、要达到的目的和未来发展方向。
第二章,数据挖掘知识,主要介绍数据挖掘技术基础知识,网络数据概念和原理及数据挖掘工具和应用。
第三章,数据分析原理内容,主要比较各种数据挖掘算法,流程和工具,以及在电子政务中的应用。
第四章,通过上面介绍的方法利用数据挖掘对广州市国土资源和房屋管理局进行挖掘过程和得到的结论。
第五章,结束语,对数据挖掘实现方式需要在未来的研究继续讨论进行概述。
第二章数据挖掘介绍
2.1数据挖掘基础知识
2.1.1数据挖掘
数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。
数据挖掘的第一步是描述数据——计算统计变量(如平均值、均方差等),再用图表或图片直观地表现出来,进而可以看出一些变量之间的相关性(如有一些值经常同时出现)[6]。
数据挖掘利用了人工智能(AD和统计分析的进步所带来的好处。
这两门学科都致力于模式发现和预测。
数据挖掘不是为了替代传统的统计分析技术。
相反,它是统计分析方法学的延伸和扩展。
大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。
而随着计算机计算能力的不断增强,有可能利用计算机强犬的计算能力只通过相对简单和固定的方法完成同样的功能。
数据挖掘就是利用了统计和人工智能技术的应用程序,它把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题
2.1.2数据仓库基本概念
数据仓库不是所谓的“大型数据库”,而是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的。
W.H.Inmon认为数据仓库是“面向主题的、集成的、与时间相关且不可修改的数据集合”。
[7]数据仓库的出现并不是要取代数据库。
目前,大部分数据仓库还是用关系数据库管理系统来管理的。
可以说,数据库、数据仓库相辅相成、各有千秋。
传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。
数据库保存信息的时候并不强调一定有时间信息。
数据仓库则出于决策的需要,数据仓库中的数据都要标明时间属性。
数据仓库中的数据并不是最新的,而是来源于其它数据源。
数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据。
因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的[8]。
一个完整的数据挖掘系统流程图应如图2.1所示
图2.1数据挖掘过程示意图
2.1.3电子政务数据仓库的体系结构
电子政务数据仓库的体系结构由分布式数据库、数据提取层、数据组织层、数据挖掘层四个部分构成。
数据提取层把决策主题所需要的数据(包括当前的、历史的),从各种相关的业务数据库或数据文件等外部数据源中抽取出来,进行各种必要的清洗、整合和转换处理,再将这些数据集成存储到仓库中。
数据组织层以一定的组织结构存储各种主题数据。
数据仓库包括多个主题,一个主题的数据通常存储在一个数据库中,包括该主题的一些综合性表,如主题中选择的事实表、维表,还有为数据挖掘生成的中间表等。
数据挖掘层集成各种数据挖掘算法,包含具有很强功能的数据挖掘工具,可以提供灵活有效的任务模型、组织形式,以支持各项政府决策的数据挖掘任务。
数据挖掘与数据仓库是密不可分的,数据挖掘要求把数据仓库作为数据源,并要求数据仓库已经存有丰富的数据。
例如,如果政府管理人员要求比较各个区域某类项工业产值在过去一年的情况,可以从多维分析中找答案。
但是,如果政府管理人员要问为何类项工业产值在某地区的情况突然变得特别好或不好,这是用多维分析工具难以简单解决的问题,就需要利用数据挖掘工具寻找答案。
在实施政府智能化决策时,一般分为两个步骤:
第一步实现政务数据仓库和数据多维分析,第二步实现政务数据挖掘。
政务数据挖掘是政务数据利用价值的再发现,它突破了传统意义上的政务数据查询,是在更大的尺度上、更深的层次中对政务数据提高利用的价值,是政务数据仓库应用的关键。
[9]
在上述数据仓库的体系结构中,有各式各样的软件,大体可以分为数据仓库管理软件、数据挖掘软件以及各类工具软件。
数据仓库管理软件提供对数据的访问、抽取、转换、分布、存储及管理等功能。
管理软件靠描述性数据查找、理解、显示、分析和挖掘数据,实现数据转换过程的自动化及其管理,缩短从复杂的海量数据(源)到能支持决策的信息之间的差距,有助于进一步实现智能化决策。
数据挖掘软件主要是从统计学方面提供相应算法的软件。
不过,目前有的数据挖掘软件产品不单单用数理统计方法,还借助机器学习、模糊数学、神经网络、遗传算法等人工智能技术。
表2.2数据挖掘的目的
Radding算法
Peacock函数
基础
任务
聚类检测
聚类分析
统计学
分类
——
回归模型
统计学
估计
——
判别分析
统计学
分类
神经网络
神经网络
AI
分类
——
Kohonen网络
AI
聚类
决策树
关联规则
AI
分类
链接分析
——
——
描述
——
查询工具
——
描述
2.2电子政务数据仓库工具
电子政务数据仓库不仅仅是个数据的储存仓库,它需要各种工具来分析宠大的数据量。
电子政务数据仓库需要用到的工具类型包括:
(1)政务数据获取工具
政务数据获取工具是指在数据提取层的一些工具,用来清洗、转换和从别处提取政务数据,将真实的、对政府决策有用的政务数据保留下来,使得放在数据仓库中的数据有条有理,帮助政府决策者再通过其它分析工具方便地使用这些数据。
(2)多维分析工具
政府管理人员往往希望从不同的角度来审视业务数值,例如宏观决策部门往往从统计时间、农业产值、工业产值、服务业产值等来评价各个地区的区域经济发展情况。
利用在线多维分析工具,根据用户常用的多种分析角度事先分析、考虑构架好一些辅助结构,以便在查询时能尽快抽取到所要的记录,并快速地从一维转变到另一维,从而迅速将不同角度的信息展现出来。
(3)前台分析工具
前台分析工具包括联机分析处理工具(OLAP),可以提供各种分析处理操作功能以及简单易用的图形界面。
图形界面可以将数据仓库的结果以数字、直方图、饼图、曲线等方式直观地提供给管理决策人员。
管理决策人员也可以自由选择要分析的数据、定义分析角度、显示分析结果。
前台分析工具往往需要与多维分析工具配合,作为多维分析服务器的前台界面。
[10]
数据获取工具、多维分析及前台分析工具是数据仓库支持进行决策处理的基础性工具,它们完成对用户数据的整理、观察和总结,其作用是“掌握过去”,知道“是什么”。
在此基础上,再利用数据挖掘软件工具,通过数据挖掘发现问题、找出规律,知道“为什么”,从而达到真正政府智能化决策的效果。
2.3.我国电子政务数据挖掘应用情况
农业的大规模普查是巨大而且复杂的工作,需要数据分析。
国家统计局2006年底进行了全国第二次农业普查。
此次农业普查是为了准确掌握我国农业和农村发展进入新阶段以后农业生产要素的规模与结构的变化情况,查清农村和农民的基本状况,为研究制定国家发展战略目标以及制定全面建设小康社会提供决策依据。
[11]因此,依据基层数据汇总生成汇总表只是农业普查数据开发利用的第一步,进行数据分析提供决策依据才是目的。
在这种情况下,国家统计局选择美国SAS软件公司的软件搭建了普查数据的分析专用平台。
这个数据分析平台也将为农村统计调查新一轮样本轮换做好准备。
农村统计调查新一轮样本抽选将于2009年正式实施,需要进行样本重新抽选的调查网点包括农村住户调查、农产品调查、畜牧业调查和农产品价格调查等。
此次样本抽选的工作都需要在数据分析平台基础上,通过对农业普查资料进行大量的分析和数据模拟才能完成。
目前我国政府建立数据挖掘系统还处于初级阶段。
数据采集质量不高,使数据挖掘最后的实际结果有些偏差;还没有真正具有自主知识产权的国产数据挖掘软件,完全依靠国外进口,且价格高和配套服务不够,加上本地化困难等等,导致很多核心的关键部门无法使用推广;国产软件虽已起步,但对其扶持力度不够。
不过从总体发展趋势看,以上问题都将逐步得到解决,我国的科学决策水平也将随之同步提高。
第三章数据挖掘分析方法
3.1数据挖掘方法比较
数据挖掘分析方法大致包括关联规则、分类、聚类、规则推理、神经网络等[12]。
关联规则的目的是希望在事务数据库中发现经常共同出现的项目,推断隐藏在项目之间的相互关联的规则。
关联模式是数据项之间的关联规则。
而关联规则是描述事物之间同时出现的规律的知识模式。
在关联规则的挖掘中要注意充分理解数据,目标明确,数据准备工作要做好,选取恰当的最小支持度和最小可信度,很好地理解关联规则。
例如,通过评价用户对某一信息资源浏览花费的时间,可以判断出用户对何种信息资源非常有兴趣,然后进行个性化服务。
分类是按照一组数据对象的特征给出其划分的过程。
要求有已知分类的样本数据作为训练集,经过对训练集的学习得到关于分类的规律,从而对新数据进行分类。
聚类是采用聚类技术识别一组数据对象的内在规则,将对象聚合成相似的类,以导出数据的分布规律。
把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。
与分类模式不同,进行聚类之前并不知道将要划分成几个组和什么样的组,也不知道根据那些数据项来定义组。
采用网页聚类技术实现网站信息的自动组织,可以极大地提高用户信息检索效果。
聚类与分类的差别在于它不需要训练样本,是一种无监督的学习.规则推理可以自动分类处理数据据。
为了能达到这个效果,数据处理的结果需要是清晰明了的。
而神经网络是最常用的数据挖掘方法,神经网络是计算机程序,基于先前的观测数据组,通过网络节点的弧线相连,建立了一个关系系统。
表2.2各种算法的比较
技术名称
特点和优点
局限性
神经网络
适用于具有非线性关系的数据,当存在丢失数据时也能很好地工作
不能很好地理解被发现的数据关系,需要将非数值化数据转化为数值表示
模糊逻辑
可按与所要求的结果的接近程度排列求出的结果
应用系统和工具有限
决策树规则推理
分类精度高,模型简单
对子树和噪声影响决策树过大
当今的数据处理大致可以分成两大类:
联机事务处理OLTP(on-linetransactionprocessing)、联机分析处理OLAP(On-LineAnalyticalProcessing)[13]。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果,如图2.3所示:
图2.3数据仓库图
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。
在分析型应用中对象可以从不同角度分析与观测,并可得到不同结果。
此种观察深度称为“维”[14]。
通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。
因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维操作有5种,它们是切片,切块,旋转,下钻和上探等。
钻取是改变维的层次,变换分析的粒度。
它包括向上钻取和向下钻取。
上探是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而下钻则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片和切块主要是选定一个维度或区间,只关心这一维度或区间上的数据
OLAP多维结构有两种物理存储方式,一种是传统RDBMS存储,称为关系OLAP,另一种是多维数据库存储,称为多维OLAP,在ROLAP中,多维数据会映像成平面型的关系表中的行,将基本信息存储在一个单独的事实表中,而有关维的支持信息则被存到其它维表中,事实表与维表中用间码键关联,用来计算不同粒度的数据。
一般一个n维中多维表往往就会有一个事实表和n个维表,它们构成了星形模型,对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。
根据综合性数据的组织方式的不同,目前
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 毕业设计 基于 数据 挖掘 政府 信息资源