基于本体的Web信息检索系统研究资料Word文件下载.docx
- 文档编号:21396711
- 上传时间:2023-01-30
- 格式:DOCX
- 页数:48
- 大小:603.12KB
基于本体的Web信息检索系统研究资料Word文件下载.docx
《基于本体的Web信息检索系统研究资料Word文件下载.docx》由会员分享,可在线阅读,更多相关《基于本体的Web信息检索系统研究资料Word文件下载.docx(48页珍藏版)》请在冰豆网上搜索。
useinformationstorage
目录
摘要I
AbstractII
目录III
ContentsV
第1章绪论1
1.1论文研究的背景及意义1
1.2国内外研究现状1
1.2.1国外基于本体信息检索的研究现状2
1.2.2国内基于本体信息检索的研究现状2
1.3本文的主要研究工作和内容安排3
1.3.1本文的主要研究工作3
1.3.2本文的结构3
第2章本体理论及其技术4
2.1本体的概念4
2.2本体的分类5
2.3本体的建模元语6
2.4本体的表示语言以及开发工具7
2.5本体开发工具7
2.6本章小结9
第3章信息检索概述10
3.1信息检索的含义10
3.2信息检索模型11
3.2.1布尔模型11
3.2.2向量空间模型11
3.2.3概率模型12
3.3信息检索方法12
3.3.1数据检索12
3.3.2全文检索12
3.3.3知识检索12
3.4检索的评价指标13
3.5本体在信息检索中的应用14
3.6本章小结16
第4章领域本体的构建研究16
4.1领域本体构建中存在的问题16
4.2领域本体构建的原则16
4.3现有的领域本体构建方法18
4.4本文的本体构建方法22
4.5本章小结25
第5章基于本体的信息检索系统模型研究26
5.1基于本体的信息检索系统模型26
5.2系统模型模块设计28
5.2.1本体库28
5.2.2用户查询词模块28
5.2.3用户兴趣模块30
5.2.4信息预处理模块34
5.2.5索引库35
5.2.6信息检索模块35
5.3本章小结35
第6章基于本体的信息检索实验系统实现36
6.1系统开发平台以及工具36
6.2Soccer领域本体的构建36
6.3系统检索演示39
6.4系统检索评价41
6.5本章小结41
总结与展望42
参考文献44
攻读硕士学位期间发表的学术论文47
致谢48
Contents
Abstract(inchinese)I
Contents(inchinese)III
Chapter1Introduction1
1.1Thebackgroundandthemeaningofstudyingthepaper1
1.2DomesticresearchandForeignresearch1
1.2.1Domesticresearch1
1.2.2Foreignresearch2
1.3Themainresearchworkandcontentofthepaper3
1.3.1Themainresearchworkofthepaper3
1.3.2Thestructureofthepaper3
Chapter2Thetheoryandtechnologyofontology4
2.1Theconceptofontology4
2.2Theclassificationofontology5
2.3Themodelingprimitivesofontology6
2.4Representationlanguagesofontology7
2.5Developmenttoolsofontology7
2.6Summary9
Chapter3AnoverviewofInformationRetrieval10
3.1Themeaningofinformationretrieval10
3.2Themodelsofinformationretrieval11
3.2.1BooleanModel11
3.2.2VectorSpaceModel11
3.2.3ProbabilisticModel12
3.3Themethodsofinformationretrieval12
3.3.1Dataretrieval12
3.3.2Textretrieval12
3.3.3Knowledgeretrieval12
3.4Retrievalevaluation13
3.5ApplicationofontologyinInformationRetrieval14
3.6Summary15
Chapter4Constructionofdomainontology16
4.1Problemsofconstructingdomainontology16
4.2Principlesofconstructingdomainontology16
4.3Exsitingmethodsofconstructingdomainontology18
4.4Themethodofconstructingdomainontologyinpaper22
4.5Summary26
Chapter5ResraechofOntology-basedInformationRetrievalSystemModel26
5.1Ontology-basedInformationRetrievalSystemModel26
5.2ModulesofSystemModel28
5.2.1Ontologylibrary28
5.2.2Queryprocessingmodule28
5.2.3Userprofilemodule30
5.2.4Informationpre-processingmodule34
5.2.5Indexinglibrary35
5.2.6Informationretrievamodule35
5.3Summary35
Chapter6AchieveofOntology-basedInformationRetrievalSystem36
6.1Developmentplatformandtools36
6.2ConstructionofSoccerdomainontology36
6.3Retrievaldemo39
6.4RetrievalSystemEvaluation41
6.5Summary41
ConclusionandOutlook42
References44
Publication47
Thanks48
第1章绪论
1.1论文研究的背景及意义
随着时代的进步和科技的发展,Internet获得快速的发展,渗入到我们日常生活的方方面面。
网络上信息资源已是海量,并以指数级数的速度增长,Internet真正地将我们带入了信息时代。
面对庞大的信息资源,我们感觉无从下手,因此,要想在短时间内迅速找到自己需要的信息资料变得越来越困难。
如何快速、准确地从庞大的信息“海洋”中寻找到符合用户需要的信息资料已经成为困扰网络用户的主要难题之一。
目前,大多数用户一般都是通过Google,Yahoo,baidu等已经提供的信息检索服务来从网络上获取信息资料。
然而现有的信息检索服务存在一定的局限性,这主要有以下几个方面:
(1)过度追求查全率,查准率明显降低。
大多数检索系统片面追求查全率,导致检索出来的信息资料过于庞大,查准率明显降低,用户根本没有耐心、没有兴趣处理检索到的所有信息资料。
(2)没有考虑用户的差异。
大多数的信息检索系统采用关键词输入方式进行检索,对于任何用户,只要输入的关键词相同,返回的检索结果都是千篇一律,完全相同的,没有考虑用户的差异,然而在现实中,不同用户由于知识背景不同、兴趣爱好不同,需求的信息也不同,他们访问的往往都只是Web上某一个特定的资源子集,是关于某一特定领域的。
为了解决不同用户的不同信息需求的问题,提高信息检索的查准率,本文针对现有信息检索模型存在的问题,考虑用户在兴趣方面的差异,将本体技术应用于信息检索,建立了一种基于本体的Web信息检索系统模型。
这样,信息检索系统就可以很好的解决了不同用户的不同信息需求的问题,很好地提高了信息检索的查准率。
1.2国内外研究现状
目前,基于本体的信息检索系统正在逐渐成为国内外当前研究的热点之一。
本体(Ontology)[1]作为一种能在语义层次上、知识层次上描述事物的一种工具,已经被广泛应用于语义web、知识工程、信息处理、自然语言理解等领域之中。
本体在计算机以及相关领域应用,特别是信息检索中的应用,已经在国内外引起了广泛的关注,成为普遍关注的一个研究热点,。
1.2.1国外基于本体信息检索的研究现状
在国外,有关基于本体的信息检索方面的研究开始比较早,成就也比较显著,已经出现了不少著名的项目,主要有Ontobroker、SKC、(Onto)Agent、和OntoSeek等。
(1)Ontobroker[2]是德国卡尔斯鲁厄大学的应用信息学与形式描述方法学院(AIFB)的一个研究课题,主要作用于互联网上的网页信息资源,目标是为用户提供所需要的网页信息,提供了信息检索等服务,可以用来处理HTML、XML和RDF格式的信息资源,充分利用本体的推理机制以及描述能力。
(2)SKC[3]是一个尚未完成的一个课题,它建立了一个基于本体的代数系统,通过这个代数系统来协调本体之间的互操作,进而实现了异构系统之间的互操作。
(3)(Onto)Agent[4]主要是通过参照本体,为用户提供所需要的本体。
它的参照本体是以Internet上已经存在的本体为对象建立起来的,并且保留了原有本体的元数据。
(4)OntoSeek[5]选用SENSUS来匹配用户查询信息和信息资料,主要用在黄页和产品目录的检索。
该系统的本体是在保留SENSUS本体作为框架的基础上,并且用Wordnet中的主题词和词汇来填充这一框架。
1.2.2国内基于本体信息检索的研究现状
在国内,虽然有关人士在基于本体的检索系统方面进行了大量、细致的研究,但是,这些研究无论在理论、实证,还是在实现和应用等方面都远远落后于国外的研究。
国内的研究主要有:
(1)基于本体论和多主体的信息检索服务器。
它是中科院计算所智能信息处理开放研究实验室的一个研究成果,是一种基于本体的多主体的信息检索服务器。
但是这项研究没有使用形式化的本体语言,并且没有实现本体在推理方面的优势。
(2)《本体论与信息检索》[6]是廖明宏在2000年发表的一篇有关基于本体的智能检索的理论研究的论文。
在这篇论文中,作者对本体做了形式化描述,进而提出了基于本体的信息检索方法。
(3)《基于检索相关性转移的本体论检索系统》[7]是韩毅在2003年发表的一篇有关基于检索相关性转移的本体论检索研究的论文。
在这篇论文中,作者将本体技术应用于情报检索,建立了基于本体的情报检索系统。
1.3本文的主要研究工作和内容安排
1.3.1本文的主要研究工作
本篇论文的主要研究内容:
对大量文献进行分析、归纳和总结,为了解决不同用户的不同信息需求的问题,本文针对现有信息检索模型存在的问题,考虑用户在兴趣方面的差异,将本体技术应用到信息检索中的,建立了基于本体的信息检索的框架结构,详细分析了各个模块的流程,给出了相关解决办法和策略,最后通过一个检索实验系统来验证了这种检索模型的可行性,在一定程度上实现了根据不同用户的不同信息需求向用户推荐符合用户意图的信息。
本文的创新点:
本文在进行系统模型设计时充分考虑了用户在兴趣方面的差异,在基于本体的Web信息检索系统中,增加了一个基于本体的用户兴趣模块。
在信息检索过程中,依据用户兴趣模块中提供的用户兴趣信息,有针对性地向不同类型的用户推荐尽可能符合其意图的信息资源,从而有效地提高信息检索的查全率和查准率。
1.3.2本文的结构
论文各章节的组织安排如下:
第一章为绪论。
第二章详细介绍了本体的基本概念和理论。
分别介绍了本体的概念,本体的分类,本体的建模元语,以及本体表示语言和开发工具。
第三章详是信息检索技术综述,阐述了信息检索的概念,介绍了信息检索的模型、信息检索的方法以及评价指标,最后分析了本体在信息检索中的应用。
第四章研究了领域本体的构建。
首先介绍现有领域本体构建存在的问题,本体构建的原则,然后列出了现有本体的构建方法,最后介绍了本文的本体构建方法。
第五章主要给出了一个基于本体的信息检索系统模型。
首先详细介绍信息检索框架设计思想,然后给出了基于本体的信息检索系统模型,最后详细阐述了系统的各个模块。
第六章实现了基于本体的信息检索实验系统。
介绍了实验系统的开发平台以及工具,并且构建了一个小型的足球领域本体,最后演示了实验系统的检索过程。
总结与展望。
总结了全文,说明了下一步的研究方向。
第2章本体理论及其技术
2.1本体的概念
本体[8]的概念最早是用于哲学领域的。
在哲学界,本体是客观存在的一个系统的解释或者说明,是物质存在的一个系统解释,这个解释不依赖于任何特定的语言,关心的是客观现实的抽象本质。
在计算机界,本体的定义的形成是一个逐步完善的过程:
Neches等人给出了本体的最早定义,他们认为本体应该是“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”[9]。
即本体不但包括一个领域中的基本术语和关系,还包括结合这些基本术语和关系的外延规则。
1993年,Gruber给出了引用比较广泛的本体定义,即“本体是概念模型的明确的规范说明”[10]。
此后,Borst对Gruber的定义稍做修改,提出:
“本体是共享概念模型的形式化规范说明”[11]。
以后,又有许多学者给出了各自不同版本的定义。
Studer等人在前人的基础上,给出了目前为止最完善的定义:
共享概念模型的明确的形式化规范说明[12]。
Fensel对Studer的定义进行深入分析,总结出本体概念的四个主要方面[13]:
(1)概念化。
即概念系统的语义结构,是对事实结构的一组非正式的约束规则,可以描述成一组概念(如实体、属性、过程)、定义和关系;
(2)明确。
即概念以及这些概念的约束都有非常明确的定义;
(3)形式化。
即本体可以被计算机所识别;
(4)共享。
即是说本体是反映一个领域中人们都认可的知识和概念集,也就是说本体是对应于社会范畴而不是个体之间的共识。
形式地说,一个本体可以由概念、关系、函数、公理和实例等5种素组成[14]:
(1)概念。
概念是对现实世界中事务的抽象描述,含义很广泛,如工作描述、功能、行为、策略和推理过程等。
(2)关系。
关系描述n个概念对象之间的联系,形式上定义为n维的笛卡儿积的子集
。
实践中,本体中的关系往往可以和性质、属性、角色等通用。
(3)函数。
函数是一组特殊的关系,其前n-1个元素可以唯一确定第n个元素。
形式化的定义为
如函数“正方形的面积”定义正方形的面积是由边长唯一确定的。
(4)公理。
公理用于表示一些永真断言,如地球属于太阳系。
(5)实例。
一个实例是现实世界中具体的和唯一的个体,它对应着本体中的一个或多个概念。
从以上不同研究者的定义,可以看出本体涉及到的概念为:
术语(词汇)、术语关系、规则、概念化、形式化的规格说明、领域知识、表达和共享。
其实,本体就是通过对于概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知识体系和描述语言。
虽然不同研究者对本体定义不同,但是他们对本体的本质理解都是相同的,即本体是用于某个领域内进行交流的一种语义基础。
2.2本体的分类
根据分类标准的不同,本体可以有很多种分类的方法。
目前,大家所熟知的本体分类有以下几种:
(1)根据描述对象的不同,Uschold[15]把本体分为四种,即特殊领域本体、一般世界知识本体、问题求解本体和知识表示语言本体。
(2)根据领域依赖程度的不同[16],本体可以分为顶层本体、领域本体、任务本体以及应用本体等四类。
这四类本体可以反映一定的层次关系。
如图2.1所示:
图2.1本体的层次关系
Fig2.1Ontologicalhierarchy
顶层本体主要用于描述最通用的概念以及他们之间的关系,如空间、时间、事件、行为等,由于此类本体的通用性,顶层本体的共享范围很广。
领域本体主要用于描述特定领域中的概念以及他们之间的关系。
任务本体主要用于描述特定任务中的概念及以及他们之间的关系。
应用本体
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 本体 Web 信息 检索系统 研究 资料