基于数据挖掘技术的语义搜索引擎的设计与实现文献综述.docx
- 文档编号:11277913
- 上传时间:2023-02-26
- 格式:DOCX
- 页数:10
- 大小:64.53KB
基于数据挖掘技术的语义搜索引擎的设计与实现文献综述.docx
《基于数据挖掘技术的语义搜索引擎的设计与实现文献综述.docx》由会员分享,可在线阅读,更多相关《基于数据挖掘技术的语义搜索引擎的设计与实现文献综述.docx(10页珍藏版)》请在冰豆网上搜索。
基于数据挖掘技术的语义搜索引擎的设计与实现文献综述
文献综述报告
软件工程2008542020金海月
1国内外研究综述
1.1国内研究综述
搜索引擎也是目前Internet对信息资源进行组织的主要方式。
搜索引擎由网上机器人(Spider或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。
由于不需要人们的介入,速度得以大大的提高。
其覆盖面和及时性也得以大大的提高。
Spider或Robot是一种软件,它沿着WWW文件的链接在网上漫游,记录RUL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和RUL、文件的大小、语种以及词出现的频率。
它的运行方式为:
从一个或一组RUL开始,访问该RUL所指HTML文件中所有的RUL锚链,然后再以这些新的RUL为起始点,继续进行本地索引,直到再也没有满足条件的新的RUL为止。
在记录新的RUL时,可以进行分析和判断,从中去掉不需要或不想要的RUL,这不但提高了本地索引的速度,也减少了索引文件在本地所占用的磁盘空间,搜索引擎将HTML格式文件取到本地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分(如关键字和一些指定词等)存储到数据库中,形成本地查询数据库,以后再查时就不必到远地去重新获取HTML格式文件了。
搜索引擎的数据检索方式主要是关键字的配方式:
如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等。
能为用户提供全文索引、约束性检索、基于布尔关系的查询方式,并对查询结果根据某种算法和规则评分和排序。
引擎系统虽然能在WWW信息资源范围内自动发现新的信息,对其所覆盖的资料进行自动更新,并根据检索规则和从其他服务器上得到的数据类型对进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,根据用户的请求返回相应的结果,但是由于系统需将HTML文件传送至本地然后分析,大量占用昂贵的网络带宽和CPU资源,资源消耗过大,增加被搜索结点的负担;又由于链路效率太低,对一些连接代价很大的获得索引,难免有不能及时加入的新WWW地址。
此外,由于各搜索引擎标引方式没有统一的规范,有的对网页全文进行索引,有的仅标引网页的标题、RUL、关键段落的前几个单词或文本的前100个词,生成关键词的技术也不一样,有的支持MetaTags,接受网页制作者自定义关键词和摘要,有的则不支持MetaTags,仅仅利用网页的前几行字作为摘要。
此外,搜索引擎大多采用自然语言标引和检索,没有受控词表,同义词和近义词得不到控制,词间的关系得不到揭示。
因此,搜索引擎的信息组织与标引缺乏控制,信息查询的命中率、准确率、查全率差强人意,往往是输入一个检索式,得到一大堆网页地址,但其中大部分是冗余信息。
1.2国外研究综述
网络是随着搜索发展而来的。
网络越发展情报的数量日益剧增,搜索引擎随着用户在无数的信息中为寻找用户所需要的信息而更加发展。
1990年TimBerners-Lee为了研究内容的广泛地交换和共享提出了WWW(worldwideweb)公开了最初的浏览器和网络服务器,代表今天的互联网其意义的网络开始后搜索引擎开始登场。
1994年由人工直接分类的导航服务的“Yahoo”,1995年登场的“Altavista”为开始搜索引擎急速发展。
但是跟着信息的增加,使得用户不得不一一确认搜索的结果。
1998年斯坦福大学的LarryPage和SergeyBrin为了使搜索引擎更加有效地作用,认为需要新的概念,为了取得更高的准确度,在web中导入了民主的方式。
为掌握页面的重要度,数了在其他web页中的指向这个页面的入站链接(inboundlink)的数,导入了以此为基础设定的页面链接的概念。
2.数据挖掘过程模型研究
人们进行的关于知识发现的研究是为了将知识发现的研究成果应用于实际数据处理中,为科学的决策提供支持。
但目前所进行的关于知识发现的研究,大多只着眼于对数据挖掘的研究,而忽视了其他方面。
而事实上,知识发现首先是一个处理过程,如果我们仅仅着重于数据挖掘,可能就看不到实际工作中数据处理过程中的数据提取、组织和显示方式的难度。
数据挖掘所完成的工作对于整个知识发现过程来说,并不是占据绝大部分,因此对知识发现中其他阶段及处理过程的研究也非常重要,建立合适的过程模型能将各个处理阶段有机地结合在一起,以便于开发及使用知识发现应用系统。
用户们需要在日益爆满的信息中快速查找准确的文档。
Syntactia结构中心的搜索已经不能满足其全部要求了。
Web2.0的影响下基于用户标签数据的Wikipedia,Flicker,del.icio.us等的专门的搜索引擎已经登场,这提高了用户的需求水准,再重新了解了查询的意思,在意思的水准下检索适当的文档的语义检索登场了。
2.1数据挖掘的模式
数据挖掘的功能是用于指定数据挖掘任务要找的模式类型,数据挖掘的任务一般可以分为两类:
描述和预测。
描述型的挖掘任务刻画数据库中数据的一般特性,预测型的挖掘任务利用当前数据进行推断、预测。
数据挖掘可以发现的模式主要包括:
关联分析、时序发现、聚类、分类与预测、偏差检测等。
(1)关联和序列发现(AssociationAnalysisandSequenceDiscovery)
数据库中的数据一般都存在关联关系,即变量之间存在某种规律,关联就是要找出某一件事或某一资料中会同时出现的东西。
序列分析的相关关系是在关联中增加了时间属性。
因此关联分析就有了简单关联和时序关联之分。
第一次购买电脑的顾客中95%的人同时购买电脑应用软件,此为简单关联。
购买激光打印机的客户,在半年后再购买硒鼓的可能性是80%,这是时序关联。
在大型数据集中,产生的关联规则会很多,一般用“可信度”和“支持度”两个值来进行筛选。
(2)分类(Classification)与预测(Prediction)
分类是数据挖掘中应用最多的模式,就是研究已分类资料的特征,分析对象属性,据此建立一个分类函数或分类模型,然后运用该模型计算总结出的数据特征,将其他未经分类或新的数据分派到不同的组中。
计算结果通常简化为几个离散值,常用来对资料作筛选工作。
预测是根据对象属性、过去的观察值和有关资料对该属性的未来值进行预测,分类与回归等都是预测的常用方法。
(3)聚类(Clustering)
当要分析的数据缺乏描述信息,或是无法组成任何分类模式时就采用聚类的方法,将异质总体区分为较具同构性的群(Cluster),即将类别之间的差异识别出来,并对个别类间的相似样本进行挑选,实现同类别数据相近,不同类别数据相异。
(4)偏差检测(BiasDetection)
从数据分析中发现异常状况,在有些情况下是非常重要的,如信用卡欺诈检测。
偏差检测包括分类中的反常实例、例外模式、观测结果对期望值的偏离以及量值随时间的变化等。
其基本方法是寻找观察结果与参照之间的有意义差别。
偏差分析的一个重要特征是它可以有效地过滤大量不感兴趣的模式。
2.2数据挖掘的方法
根据数据挖掘的任务,有不同的模式,但如何发现这些模式,需要依赖于具体的方法来实现。
由于数据挖掘涉及多个学科方向,如数据库技术、统计学、人工智能、机器学习等。
因此,数据挖掘的方法也很多,不仅使用包括多元统计和机器学习在内的核心算法,而且包括对提供数据分析过程的辅助性方法,包括对实际中大数据集的数据预处理和后处理的方法,如统计描述方法、特征选取方法、缺失值处理、离散化、可视化等。
数据挖掘的核心算法可以分为归纳学习方法(决策树等)、仿生物算法(遗传算法、神经网络等)、统计方法(相关分析、回归分析、聚类分析、判别分析等)、数据库方法(多维数据分析、OLAP等)。
2.3数据挖掘的过程模型
2.3.1数据挖掘过程模型
数据挖掘是一个过程,它从大量数据中抽取出有价值的信息或知识。
由于每一种数据挖掘技术方法都有其自身的特点和实现步骤(例如,对输入/输出数据形式的要求、结构、参数设置、训练、测试和模型评价方式各自有不同的要求,算法应用/适用领域的含义和能力存在差异);数据挖掘与具体应用问题的密切相关性(应用数据挖掘所要达到的目标、数据收集完整程度、问题领域专家支持程度、算法选择等)。
因此,成功应用数据挖掘技术以达到目标的过程本身就是一件很复杂的事情。
数据挖掘过程的系统化、工程化方法学和支持系统(软件或工具)对解决应用问题起着至关重要的作用。
为了抽象系统化方法,人们提出了一些数据挖掘过程的参考模型或标准。
UsamaM.Fayyad等人给出了多处理阶段的数据挖掘过程模型,在这个过程模型中,数据挖掘共分为九个处理阶段,在最后阶段对挖掘的知识进行评测后,根据结果可以决定是否重新进行某些处理过程,在处理的任意阶段都可以返回以前的阶段进行再处理。
GeorgeH.John在其博士论文中也给出了一个多处理阶段的数据挖掘过程模型,虽然在某些地方与Fayyad给出的模型有一些区别,但这种区别主要表现在对整个处理过程的组织和表达方式上,在内容上两者并没有非常本质的区别,这一过程模型主要强调数据挖掘需要领域专家的参与,由领域的专业知识指导数据库中的知识发现的各个阶段,并对发现知识进行评价,这种模型主要是根据实际应用的需要而提出的。
Brachman&Anand从用户的角度对数据挖掘过程进行了分析。
他们认为数据挖掘应该更着重于对用户进行数据挖掘的整个过程的支持,而不是仅仅限于在数据挖掘的一个阶段上。
通过对很多数据挖掘用户在实际工作中遇到的问题的了解,他们发现用户的很大一部分工作量是与数据库的交互上。
所以他们在开发数据挖掘系统IMACS(InteractiveMarketingAnalysisandClassificationSystem)时特别强调对用户与数据库交互的支持。
除上述几种过程模型外,还有SPSS的5A—评估(Assess)、访问(Access)、分析(Analyze)、行动(Act)、自动化(Automate)和SAS的SEMMA—采样(Sample)、探索(Explore)、修正(Modify)、建模(Model)、评估(Assess)模型,数据挖掘特别兴趣小组提出的“数据挖掘交叉行业标准过程”CRISP-DM(CRoss-IndustryStandardProcessforDataMining)模型和微软公司提出的数据挖掘模型(DataMiningModel,DMM),以及专业的数据挖掘技术咨询公司TwoCrows提出的模型(阶段包括:
DefineBusinessProblem、BuildDataMiningDatabase、ExploreData、PrepareDataforModeling、BuildingModel、EvaluationModel、DeployModelandResult)。
与前面三种过程模型不同的是,后几种数据挖掘过程模型是为使数据挖掘商品化而提出,是企业或企业集团各自制定的数据挖掘标准的一部分,重点是数据挖掘与数据仓库和其它应用程序间的接口。
在这些模型中,5A强调的是支持数据挖掘过程的工具应具有的功能和能力,SEMMA强调的是结合其工具的应用方法,CRISP-DM则从方法学的角度强调实施数据挖掘项目的方法和步骤,并独立于每种具体数据挖掘算法和数据挖掘系统,TwoCrows则是从其自身理解的角度借鉴前述方法,并在其上加以改进而提出的模型。
朱建秋归纳了目前的数据挖掘过程模型并将其分为两种类型,一种是Fayyad总结出的偏于技术的过程模型,另一种是遵循CRISP-DM标准的偏于技术应用的过程模型。
2.3.2Fayyad数据挖掘过程模型
下图是UsamaM.Fayyad等人给出的过程模型。
图2.1Fayyad数据挖掘过程模型
在这个过程模型中,数据挖掘共分为九个处理阶段,这九个处理阶段分别是数据准备、数据选择、数据预处理、数据缩减、数据挖掘目标确定、挖掘算法确定、数据挖掘、模式解释及知识评价。
(1)数据准备:
了解数据挖掘相关领域的有关情况,熟悉有关的背景知识,并弄清楚用户的要求。
(2)数据选择:
根据用户的要求从数据库中提取与数据挖掘相关的数据,数据挖掘将主要从这些数据中进行知识提取,在此过程中,会利用一些数据库操作对数据进行处理。
(3)数据预处理:
主要是对第二阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据可以利用统计方法进行填补。
(4)数据缩减:
对经过预处理的数据,根据数据挖掘的任务对数据进行再处理,主要通过投影或数据库中的其他操作减少数据量。
(5)确定数据挖掘的目标:
根据用户的要求,确定数据挖掘是发现何种类型的知识,因为对数据挖掘的不同要求会在具体的数据挖掘过程中采用不同的数据挖掘算法。
(6)确定数据挖掘算法:
根据第五阶段所确定的任务,选择合适的数据挖掘算法,这包括选取合适的模型和参数,并使得数据挖掘算法与整个数据挖掘的评判标准相一致。
(7)数据挖掘:
运用选定的数据挖掘算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式,如产生式规则等等。
(8)模式解释:
对发现的模式进行解释,在此过程中,为了取得更为有效的知识,可能会返回前面处理步骤中的某些步以反复提取,从而提取出更有效的知识。
(9)知识评价:
将发现的知识以用户能了解的方式呈现给用户。
这期间也包含对知识的一致性的检查,以确信本次发现的知识不与以前发现的知识相抵触。
根据Fayyad过程模型,数据挖掘是一个循环迭代的过程,在这个过程的每一个阶段,如果发现第K个阶段产生的结果和预想或者希望分析的内容有出入,则需要用户重复以前的工作,即或者重复第K-1个阶段,或者重复第1个阶段到第K-1个阶段的任意组合。
该模型从数据入手到知识结束,对于问题的定义及挖掘出的知识如何使用没有给出解决方案,是一个偏技术型的过程模型。
2.3.3CRISP-DM数据挖掘过程模型
CRISP-DM过程模型的框架如下图所示:
图2.2 CRISP-DM过程模型框架图
CRISP-DM过程模型分为如下的6个步骤:
(1)理解业务:
开始阶段专注于从商业的角度理解项目目标和需求,然后将这种知识转换成一种数据挖掘的问题定义,并设计出达到目标的一个初步计划。
(2)理解数据:
在数据理解阶段,先收集初步的数据,然后进行熟悉数据的各种活动,包括识别数据的质量问题、找到对数据的基本观察、或假设隐含的信息来检测出感兴趣的数据子集。
(3)数据预处理:
数据预处理阶段覆盖了从初步粗数据构造最终数据集合将要输入建模工具的数据)的所有活动。
数据预处理任务很可能要执行多次,并且没有任何规定的顺序。
任务包括表、记录属性的选择以及为了适合建模工具的要求对数据进行的转换和净化。
(4)建模:
在建模阶段,可以选择和应用各种建模技术,并将其参数校正到优化值。
通常,对同一个数据挖掘问题类型有几种可用的技术。
某些技术对数据的形式有具体的要求。
因此,常常要退回到数据准备阶段。
(5)模型评估:
从数据分析的观点看,在开始进入这个阶段时已经建立了看上去是高质量的模型。
但在最终扩展模型之前,更彻底地评价模型、对所建模型再次考察其执行的步骤、并确信其正确地达到了商业目标是很重要的。
这里,一个关键的目的是确定是否有某些重要的商业问题还没有充分地考虑。
在这个阶段的结尾,应该获得使用数据挖掘结果的判定。
(6)模型部署:
一般创建完模型并不意味着项目结束。
即使模型的目的是增加数据的知识,所获得的知识也要用一种用户可以使用的方式来组织和表示。
根据要求,扩展阶段可以简单到只生成一份报告,或复杂到实现一个可重复的数据挖掘过程。
CRISP-DM过程模型注重技术的应用,比Fayyad模型增加了“业务理解”和“模型部署”这两个步骤,解决了Fayyad模型存在的问题。
从技术应用的角度划分数据挖掘任务,更加注重数据挖掘模型的质量和如何与业务问题相结合、如何应用挖掘出的模型等实际应用中用户最关心的问题。
2.4分析评述
总的说来,国外的研究主要是从微观角度分析影响偷漏税行为的微观特征以及对社会效率损失的测量。
对于目前我国税务机关的征管实际而言,由于国情与其他客观条件的限制,不可能照搬国外成功的理论、方法、制度及经验。
应该从我国的纳税评估实际出发,研究纳税评估的理论、方法、制度等问题。
另一方面,虽然许多税收征管水平较先进的国家在税制方面存在着较大差异,但是在税收征收管理方法和手段上,具有一个共同的特点,那就是凭借着信息化的手段,积极有效开展纳税评估工作。
国外的纳税评估管理非常重视各方面涉税信息的搜集、整理工作,依托各方面力量建立了全国联网、和各部门对接的数据库;国外纳税评估的技术和手段智能化程度高,管理主动,能取得很好的效果。
这些都是我们可以借鉴的地方。
为了成功的应用数据挖掘技术,围绕数据挖掘过程需要涉及:
问题的理解,数据的理解、收集和准备,建立数据挖掘模型,评价所建的模型,应用所建的模型等一系列任务。
纳税评估中已经有了一些基于数据挖掘技术的研究,但还停留在建立数据挖掘模型的研究阶段,绝大多数是与应用分离的。
并且这些模型都存在一个共同的假设:
用户必须事先决定所需的数据挖掘任务,即确定数据挖掘算法,而这个假设的前提是用户必须是数据挖掘专家或者有数据挖掘专家辅助才能更好的使用这些模型。
因为数据挖掘技术的复杂性,如何使税务机关的业务人员能够切实有效地运用数据挖掘模型解决实际问题,是纳税评估量化模型的研究能否真正实用化的一个重要方面。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 挖掘 技术 语义 搜索引擎 设计 实现 文献 综述
![提示](https://static.bdocx.com/images/bang_tan.gif)