可视化空间数据挖掘研究综述_精品文档Word文档下载推荐.doc
- 文档编号:13880329
- 上传时间:2022-10-14
- 格式:DOC
- 页数:7
- 大小:64KB
可视化空间数据挖掘研究综述_精品文档Word文档下载推荐.doc
《可视化空间数据挖掘研究综述_精品文档Word文档下载推荐.doc》由会员分享,可在线阅读,更多相关《可视化空间数据挖掘研究综述_精品文档Word文档下载推荐.doc(7页珍藏版)》请在冰豆网上搜索。
关键词:
数据挖掘;
空间数据挖掘;
数据可视化;
信息可视化;
GIS;
空间信息获取技术的飞速发展和各种应用的广泛深入,多分辨率、多时态空间信息大量涌现,以及与之紧密相关的非空间数据的日益丰富,对海量空间信息的综合应用和处理技术提出了新的挑战,要求越来越高。
空间数据挖掘技术作为一种高效处理海量地学空间数据、提高地学分析自动化和智能化水平、解决地学领域“数据爆炸、知识贫乏”问题的有效手段,已发展成为空间信息处理的关键技术。
然而,传统数据挖掘“黑箱”作业过程使得用户只能被动地接受挖掘结果。
可视化技术能为数据挖掘提供直观的数据输入、输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了传统数据挖掘过程“黑箱”作业的缺点,同时也大大弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度[1]。
空间数据挖掘中可视化技术已由数据的空间展现逐步发展成为表现数据内在复杂结构、关系和规律的技术,由静态空间关系的可视化发展到表示系统演变过程的可视化。
可视化方法不仅用于数据的理解,而且用于空间知识的呈现。
可视化与空间数据挖掘的结合己成为必然,并已形成了当前空间数据挖掘作者1简介:
贾泽露(1977,6-),男,土家族,湖北巴东人,讲师,博士,主要从事空间数据挖掘、可视化、土地信息系统智能化及GIS理论、方法与应用的研究和教学工作。
作者2简介:
刘耀林(1960,9-),男,汉族,湖北黄冈人,教授,博士,博士生导师,武汉大学资源与环境科学学院院长,现从事地理信息系统的理论、方法和应用研究和教学工作。
与知识发现的一个新的研究热点——可视化空间数据挖掘(VisualSpatialDataMining,VSDM)。
VSDM技术将打破传统数据挖掘算法的“封闭性”,充分利用各式各样的数据可视化技术,以一种完全开放、互动的方式支持用户结合自身专业背景参与到数据挖掘的全过程中,从而提高数据挖掘的有效性和可靠性。
本文将对空间数据挖掘、可视化的研究概况,以及可视化在空间数据挖掘中的应用进行概括性回顾总结,并对未来发展趋势进行探讨。
一、空间数据挖掘研究概述
1.1空间数据挖掘的诞生及发展
1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,从事数据库、人工智能、数理统计和可视化等技术的学者们,首次出现了从数据库中发现知识(knowledgediscoveryindatabase,KDD)的概念,标志着数据挖掘技术的诞生[1]。
此时的数据挖掘针对的一般是非空间数据,其研究和应用的成果势必对空间数据的利用造成影响。
在数据挖掘技术发展与海量空间数据积累的推动下,为了引导地球空间信息学向更深的层次发展,国内外对空间数据挖掘展开了积极的研究。
加拿大西蒙法拉色大学计算机科学系的韩家炜教授领导的研究小组,较早对空间数据挖掘进行系统全面的研究[1]。
1994年,在加拿大渥太华举行的GIS国际学术会议上,我国著名地球信息科学学者李德仁院士首次提出了从GIS数据库中发现知识(knowledgediscoveryfromGIS,KDG)的概念,并系统分析了空间知识发现的特点和方法,认为它能够把GIS有限的数据变成无限的知识,并进一步用于精练和更新GIS数据,使GIS成为智能化的信息系统[2]。
1995年,在加拿大召开的第一届知识发现和数据挖掘国际学术会议上,数据库中的数据被形象地喻为矿床,再次出现了崭新的数据挖掘(datamining,DM)学科。
由于DM和KDD较为常用且难以分离,而且DM通常被认为是KDD中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤,即数据挖掘和知识发现(dataminingandknowledgediscovery,DMKD)。
同时,李德仁院士也把KDD进一步发展为空间数据挖掘和知识发现(SDMKD),系统地研究或提出了可用的理论、技术和方法,并取得了很多创新性成果[2~7],奠定了空间数据挖掘和知识发现在地球空间信息学中的学科地位和基础。
经过10多年的发展,空间数据挖掘已经显示出在空间数据处理分析中具有越来越重要的作用,SDMKD目前已经成为国际研究和应用的热点,国内外对SDMKD的研究应用也正愈来愈引起人们的极大关注,并且取得了相当的理论和技术成就。
如:
李德仁院士最早开始关注空间数据挖掘和知识发现[2],不仅在国际上第一次提出了空间数据挖掘和知识发现的概念,而且率先研究了从GIS数据库中发现知识[4],构筑了空间数据挖掘和知识发现的理论框架[5],系统研究了粗集和云理论在空间数据挖掘中的理论和技术[2,6],提出了用于空间数据挖掘的地学粗空间理论。
王树良博士在李德毅院士的云理论的基础上,完善了数据场的概念,提出了空间数据挖掘视觉的概念及实现方法,并成功地应用于滑坡监测数据挖掘,取得了较好的成果[8]。
秦昆博士在对图像数据挖掘的理论与方法进行系统研究的基础上,针对图像(遥感图像)数据中蕴涵的内容,如光谱特征、纹理特征、形状特征、空间分布特征等来进行挖掘,挖掘出抽象层次更高的知识,并研究出了遥感图像数据挖掘软件原型系统的框架,设计和开发了遥感图像数据挖掘软件原型系统RSImageMiner[9]。
Murray和Estivill_Castro[10]回顾了探测性空间数据分析的聚类发现技术,分析了基于统计学、数据挖掘和地理信息系统的空间模式识别和知识发现方法。
Koperski,Adhikary和Han[11]总结了空间数据挖掘的发展,认为巨量的空间数据来自从遥感到GIS、计算机制图、环境评价和规划等各种领域,空间数据的累积已经远远超出人们的分析能力,数据挖掘已经从关系数据库和交易数据库扩展到空间数据库。
他们就空间数据生成、空间数据聚类和挖掘空间数据关联规则等方面总结了空间数据挖掘的最近发展。
Han和Kamber[12]在其数据挖掘专著中,系统讲述了空间数据挖掘的概念和技术。
汪闽和周成虎[13]根据自己的认识讨论了空间数据挖掘的研究进展。
总体上讲,经过十多年的发展,SDMKD无论是其理论研究还是相关软件原型的研制目前都已得到蓬勃发展并已逐渐走向成熟。
1.2空间数据挖掘的概念、方法和理论
空间数据挖掘(SpatialDataMining,SDM)指的是从空间数据库中抽取隐含的知识、空间关系或非显式地存储在空间数据库中有意义的特征或模式等[14]。
SDM需要综合数据挖掘(DataMining,DM)与空间数据库技术,可用于对空间数据的理解,空间关系和空间与非空间数据间关系的发现、空间知识库的构造、空间数据库的重组和空间查询的优化等[15]。
SDM是计算机技术、数据库应用技术和管理决策支持技术等发展到一定阶段多学科交叉的新兴边缘学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果。
SDM的方法很多,根据发现对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、异质数据库、互联网Web等;
根据发现方法可分为机器学习方法(归纳学习、决策树、规则归纳、基于范例学习、遗传算法)、统计方法(回归分析、判别分析、聚类分析、探索性分析)、神经网络方法(BP算法、自组织神经网络)、数据库方法;
根据发现任务可分为分类、聚类、关联规则发现、时间序列预测、演化规则发掘等。
按数据挖掘的目的来划分,常用的空间数据挖掘技术包括:
空间数据概化、空间规则挖掘、空间分类、空间趋势预测、空间聚类、空间离群点查找等。
一般地,SDM可以分成4类挖掘方法:
空间分类和预测、空间聚类、空间孤立点和空间关联规则。
关于SDM的理论和方法,王新洲等[16]进行了详细的讨论。
概括起来,其可用的理论方法有:
概率论、证据理论、空间统计学、规则归纳、聚类分析、空间分析、模糊集、云理论、粗集、神经网络、遗传算法、决策树、空间在线数据挖掘、分类分析、预测、关联规则分析、时间序列分析、熵空间理论、形式概念分析理论(概念格理论)等。
这些理论和方法都是自成体系的,不是SDM自身的理论体系。
因此,王新洲教授认为,关于SDM理论的研究应重点放在构建SDM系统的理论框架上,不能简单地将各种现成理论统归于SDM理论。
并提出SDM的系统理论框架应由三大部分构成[17]:
SDM的基础理论、SDM的技术方法和SDM结果的质量评价体系。
二、可视化研究概述
可视化(Visualization)技术是指将描述自然、社会状况的数字、字符等信息转换为人类直观可视的图像,以从中洞察自然、社会本质的技术。
它向人们提供一种方法和手段,即以人们惯于接受图形、图像并辅之以信息处理技术,将被感知、被认知、被想象、被推理、被综合及被抽象了的对象属性及其变化发展的形式和过程,通过形象化、模拟化、仿真化、现实化的技术手段表现出来,利用这种方法和手段人们可以观察人们所不能观察到的事务或概念,其目标是帮助人们增强认知能力。
基于计算机的可视化技术不仅仅把计算机作为信息集成处理的工具,用计算机图形和其他技术来考虑更多的样本、变量和联系。
它更是用户之间的一种交流媒介,在认知激励和用户认知之间建立起一个反馈环。
可视化不仅是客观现实的形象再现,也是客观规律、知识和信息的有机融合。
根据研究的对象、目的及方式的不同,可视化可以分为科学可视化、数据可视化、信息可视化、知识可视化[18]。
一般情况下,研究较多的可视化技术多指数据可视化。
数据可视化是指运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术,具有交互性、多维性和可视性[19]三大特点。
它拓宽了传统的图标功能,使用户对数据的剖析更加清晰,并可以控制数据分析过程[20,21]。
人类的认知系统可以识别空间三维物体,对于抽象的物体或者像素的识别很困难。
空间的可视性最多能够达到四维。
目前,可视化方法研究主要体现在以下几个方面:
(1)空间三维图形:
不同的图形元素的组合的变换映射为不同的数据维解释。
把一个可视化空间结构和一条数据信息对应起来。
通过图形的密度和颜色的分布,大致能够了解数据的分布、数据之间的相似性和数据之间的关系。
(2)颜色图:
分为彩色图和灰度图。
彩色图的每一种颜色,对应着不同的属性维,灰度图可以利用颜色的深浅来标记数据量的属性值的大小,颜色越深,数值越大或者用它来强调某种特别的信息,它通常预先需要很好的映射定义。
(3)亮度:
对于特定的区域,用不同的亮度来辅助人眼对视点的观察。
(4)数学的方法:
利用数学中统计的方法,先对数据关系进行分析,得到数据的大体分布信息,然后再结合其它的可视化方法来进行细节数据分析。
或者利用数学中统计的方法对数据中的关系进行映射,映射成为图形图像关系来帮助分析。
目前,对可视化的研究多集中在多维数据可视化的研究方面,对此,任东怀等[22]对多维数据可视化中采用的主要视图变换方法、目前主要的多维数据可视化技术(包括:
ScatterplotMatri技术、几何图技术、图标技术、平行坐标技术、Hierarchy技术以及Treemap、ConeTrees等层次化技术等)以及主要的降维技术等进行了详细的阐述。
三、可视化空间数据挖掘
为了在数据挖掘过程中将人类的灵活性、创造力和通用的常
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 可视化 空间 数据 挖掘 研究 综述 精品 文档