基于XML智能答疑系统知识库的构建Word下载.docx
- 文档编号:20935836
- 上传时间:2023-01-26
- 格式:DOCX
- 页数:15
- 大小:101.72KB
基于XML智能答疑系统知识库的构建Word下载.docx
《基于XML智能答疑系统知识库的构建Word下载.docx》由会员分享,可在线阅读,更多相关《基于XML智能答疑系统知识库的构建Word下载.docx(15页珍藏版)》请在冰豆网上搜索。
计算机科学与技术专业2班何国强指导教师**
摘要:
本文从本体论与XML相结合的角度研究了知识库的构建。
文章首先介绍了知识、知识库、智能答疑系统和本体论,这些理论是构建知识库的理论基础,然后,着重阐述了构建知识库两大技术,即MicrosoftVisio和XML,前者作为本体建模的图形工具,后者用于本体模型的形式化。
基于以上对理论基础和关键技术的介绍,本文针对《计算机操作系统教程》一书的部分知识进行了本体建模。
出于知识和问题的特点,对本体组成的理论作了局部的改造,同时定义了四种图形符号的精确含义,以便于用MicrosoftVisio进行图形化本体模型。
就具体的建模过程,本文提出了本体建模三个步骤:
第一,明确建模的范围和目的;
第二,知识的获取;
第三,知识模型的图形化。
通过上述步骤得到了直观的本体模型,然后利用XML技术作为知识库的开发平台,以DTD作为本体与XML的结合点,通过精心设计DTD完成了本体论与XML的结合,实现了从本体模型到XML文档的映射。
文章最后完成了本体模型的编码即生成了XML文档。
关键词:
XML;
本体;
知识;
知识库;
智能答疑系统
DesignRepositoryofIntelligentQuestionAnsweringSystemBasedonXML
Major:
ComputerScienceandTechnologyClass:
2
Author:
HeGuoqiangSupervisor:
GuQiyuan
Abstract:
ThispaperhasresearchedthedesigningrepositoryfromtheviewofcombinationbetweenOntologyandXML.Atfirst,thispaperintroducedsometheoriessuchasknowledge,repository,IQASandXML.Thesearethebasictheoriesofdesigningrepository.Andthenitexpatiatedontwokeytechniquestodesignrepository.TheoneisMicrosoftVisioandtheotherisXML.Theformeristhegraphictoolofontologymodelingandthelatterisusedtoformalizetheontologymodel.Basedonbasictheoriesandkeytechniquesabove,thispaperhasbuilttheontologymodelofthepartialknowledgeinthebookcalledCOMPUTEROSTEXT.BecauseofthetraitofOS’knowledgeandproblem,theauthorhasmodifiedOntologytheoryinpartanddefinedfoursymbols’meaningsaccuratelyinordertousethesesymbolstobuildOntologymodelgraphicallywithMicrosoftVisio.Astoconcretemodelingprocess,theauthorhasbroughtforwardthethreestepsinOntologymodeling.Thefirstisconfirmingthepurposeandscope;
thesecondisacquiringknowledgeandthelastischangingknowledgemodeltograph.Accordingtothethreestepsabove,thispaperhasgivenbirthtographicOntologymodel.Then,usingtheXMLastheplatformofdesigningrepositoryandusingtheDTDasthebridgebetweenOntologyandXML,theauthorhascompletedthecombinationbetweenOntologyandXML,andactualizedthemapfromOntologymodeltoXMLdocumentviadesigningDTDcarefully.FinallypaperhascodedtheOntologyviaDTDnamelyhascreatedXMLDocument.
Keywords:
XML;
Ontology;
Knowledge;
Repository;
IQAS
1引言
1.1研究背景
随着远程教学的发展,智能答疑系统也变得倍受关注,对智能答疑系统的需求也与日俱增。
知识库作为智能答疑系统的大脑运行在系统的后台。
它是问题求解的基础,为了使智能答疑系统取得理想的效果,领域知识库本身的建设也至关重要,领域知识库中知识的数量与质量,在很大程度上决定了系统的有效性与智能性[24]。
目前人们对知识库的研究越来越重视,同时产生了大量的知识库,但是这些知识库都是基于一定的系统,其独立性和跨平台性都较差,共享能力和重用能力都较弱。
这两大弱点是构建知识库极难克服的障碍。
1.2研究内容
基于上述所提到的知识库的不足,本文从本体论和XML技术相结合的角度研究知识库的构建。
领域知识的本体建模和XML文档的生成是本文研究的重点内容。
首先,本体论满足了知识的共享和重用,可避免知识库的重复开发,领域知识的本体建模就是通过对领域知识特点的分析,在充分掌握领域知识结构的基础上,对领域知识进行抽象,建立本体模型的过程。
其次,XML是一种纯文本格式,XML技术能够保证知识库的独立性和跨平台性。
本文利用DTD作为本体与XML的结合点,给出了从本体模型到DTD的映射算法,并生成了一个以《计算机操作系统教程》作为领域知识的DTD实例,在该DTD的指导了完成了XML文档的生成。
本体论和XML技术还具有一层互补的关系。
本体论能够精确定义语义,而XML在形式上统一了语法的表示。
统一语义的本体和统一语法的XML相结合成为了构造知识库的一把利刃。
本文分四部分阐述了基于XML智能答疑系统知识库的构建,分别是:
理论基础,
相关技术,
领域知识的本体建模,
XML文档的生成。
1.3研究意义
(1)以XML文档作为知识库,大大提高了知识库的可移植性,使得知识库的独立性得到的提高。
XML本身是一种开放的标准,很多人都可以参与到XML文档的开发工作中来,这样XML便成了一个构建知识库的平台,从而促进了知识的融化与集成。
(2)由于本体建模目前还没有形成统一的标准,更没有统一的工程方法论用以指导本体的建模,所以本文也对本体建模作了尝试,并结合图形工具完成了一个本体模型的构建。
2理论基础
2.1知识
2.1.1知识的定义
所谓知识,简而言之,就是人类对世界的认识。
这里的世界既包括远到宇宙深处的外部世界、也包括触及人类心灵的内心世界;
既包括大到天体宏观世界,也包括小到原子的微观世界;
即包括能够被人类直接经验的世界,也包括不能被人类经验的世界。
这里的认识是人的头脑对客观世界的反映[1]。
2.1.2知识的类型
为了便于对知识进行表征,需要对知识进行分类。
通常情况下,知识可以分为陈述性知识和程序性知识。
陈述性知识包括事件、概念、定理、公理和规则等。
事件如“爱因斯坦发现了相对论”;
概念有抽象和具体之分,如“学生”是一个具体概念,指“在学校读书的人[1]”,而“函数”则是一个抽象概念,其定义是“给定两个实数集
和
,若有对应法则
,使对
内每一个数
,都有唯一的一个数
与它相对应,则称
是定义在数集
上的函数[2]”。
程序性知识是指作为技巧性动作基础的知识,倾向于动力的(变化的)[3]。
直观地说,程序性知识就是指描述做某事的过程,使人或计算机照此去做[4]。
2.1.3知识的表示
知识表示实际上就是对人类知识的一种描述,以把人类知识表示成计算机能够处理的数据结构[18]。
在人类世界,除了少数领域如数学领域外,知识主要是用自然语言表示的。
由于自然语言的三位一体性,即思想、方法、对象三者同时融于语言之中,因此,人类自然语言既是交流的工具,又是认知的工具,同时也是思维的工具[5]。
知识表示语言应该仿生自然语言,所谓知识表示就是指知识的形式化。
在知识表示的过程中要遵循以下一些原则[4]:
①表示知识的范围是否广泛?
②是否适合于推理?
③是否适合于计算机处理?
④是否有高效的算法?
⑤能否表示不精确知识?
⑥能否模块化,以便于知识分层?
⑦知识和元知识能否用统一的形式表示?
⑧是否适合于加入启发式信息?
⑨过程性表示还是说明性表示?
⑩表示方式是否自然?
知识表示有两个层次,第一层是用某种数据结构如语义网络来描述知识,这个层次的知识表示主要用于对知识进行抽象,生成知识模型。
工作在这个层次上的知识表示方法(数据结构)有语义网络、框架、谓词逻辑、产生式等。
第二层是用某种具体的语言如XML、Prolog来表示实现第一层建立起的知识模型,其结果就是一个具体的知识库。
这一层的作用把知识模型转化成计算机可以存储和处理的代码。
2.2知识库
简单地说,知识库就是知识的集合。
人的大脑就是一个知识库,里面存放着形形色色、内容繁杂的知识。
一台智能计算机或者一个智能系统必须要有一个知识库,这个知识库是计算机或系统做出行为的根据。
一个良好的知识库能够对系统提供很好的支持,这种支持尤其表现在系统的搜索和推理能力。
目前,知识库主要以以下几种形式存在于各种系统中:
(1)嵌入源程序;
(2)知识文件;
(3)知识数据库[20]。
构建知识库的过程是就利用计算机相关技术对知识进行抽象及编码的过程。
2.3智能答疑系统
智能答疑系统是一个基于知识库的问题求解系统,问题求解是智能答疑系统的重要功能。
问题理解和问题求解是实现智能答疑系统的关键问题。
2.3.1问题理解
正确地理解问题,知道提问者的用意是正确回答问题的前提。
一般说来一个问题包含两个功能,第一个功能是提供相关信息,第二个功能是揭示提问点。
问题里提供的信息是问题求解的前提条件,这些信息可以是显式给出的,也可以是隐式给出的;
可以是完全的,也可以不完全的。
提问点是指提问者的用意或目的。
问题理解的任务就是完整地抽取信息和正确地把握提问点。
同时,思考人们回答的各种问题所属类别[6],有助于对问题进行理解,问题的类型加上专业词便可知道提问者到底要得到哪方面的、是什么性质的答案[7]。
只有对问题进行了全面和合理的理解之后才能对问题作出正确的解答,从而避免答非所问。
由《计算机操作系统教程》可归纳出以下一些问题类型:
概念、功能、原理、关系、计算、意义、异同、分类、是非、论述、特点、原因、优缺点、举例。
2.3.2问题求解[18]
问题求解有两种主要策略,一种是通过搜索来求解,搜索包括盲目搜索和启发式搜索。
盲目搜索能够保证问题得解,而启发式搜索大大提高了搜索的效率;
另一种是通过推理来求解,推理能够产生新的知识。
搜索是推理的前提,推理所需的数据和规则都是由搜索来发现和提取的。
2.4本体论
本体论(Ontology)是表述哲学理论上的术语,指关于存在及其本质和规律的学说[8]。
本体论的哲学含义告诉我们,本体论研究实体的存在性和实体存在的本质,这是深层次上的知识,是本质上的知识。
因此,本体论把知识工程研究中的知识向更深入、更本质的方向推进[11]。
本体(ontologies)是最近引入到计算机界的一个述语。
在计算机界对本体的定义存在着很大的分歧。
本文采用Borst于1997年给出的本体的一个定义,即“本体可定义为被共享的概念化的一个形式的规格说明[9]”。
随后,Studer、Benjamins和Fensel[10]对上述定义作出了如下的解释:
“概念化涉及通过标识某个现象的相关概念而得到的这个现象的抽象模型。
显式地指出所用到的概念的类型,以及定义概念的约束。
形式化是指本体应该是机器可读的。
共享反映了这样一个观念,即本体获取了一致的知识,它不是某个个体私有的,而是可以被一个群体所接受的”。
由此可见,本体论给我们提供了一个对知识进行建模的指导方针[12],也可以简单地把本体理解为“知识的主体[19]”。
2.4.1本体的组成
形式地说,一个本体可由概念类、关系、函数、公理和实例5种元素组成[11]。
(1)本体中的概念是广义上的概念,它除了可以是一般意义上的概念以外,也可以是任务、功能、行为、策略、推理过程等。
本体中的这些概念通常构成一个分类层次。
概念也是构成知识的基础,任何一个概念都可以被其它一些概念所定义,但在实际生活中,有一些概念是无法或者是没有必要给出文字的定义的,也就是说,我们只需经验而不借助其它概念就能理解某些概念。
按照罗素[13]的说法,这就是对这些概念作出了“实指的定义”。
在这里,本文引入“元概念”来描述这类概念,即元概念是概念的基础,处于本体的最底层。
(2)本体中的关系表示概念之间的一类关联,典型的二元关系如子类关系形成概念的层次结构。
这里总结出几类典型的二元关系,分别是①ISA;
②AKO(AKindOf);
③AMO(AMemberOf);
④AIO(AInstanceOf);
⑤APO(APartOf);
⑥Have(占有关系);
⑦时间关系,包括Before、After和During;
⑧位置关系,包括On、At、Under、Inside和Outside;
⑨Same(同一关系);
⑩If(因果关系)。
(3)函数是一种特殊的关系,n元函数中的第n个元素由前面n-1个元素惟一确定。
一般地,函数采用F:
C1×
C2×
C3×
...×
Cn-1→Cn的形式表示。
(4)公理用于描述一些永真式。
(5)实例是指概念的具体实例,即某概念类所指的具体实体,特定领域的所有实例构成领域概念在该领域中的指称域。
2.4.2本体的类型
按照本体的主题,当前常见的本体可以分为如下5种类型[11]:
(1)知识表示本体。
开发这类本体的目的是用来描述知识,KIF就是一种知识描述语言,目前普遍认为,所有其它知识表示形式都可以转换为KIF形式。
(2)通用或常识本体。
(3)领域本体。
领域本体研究如何定义特定领域中的概念、概念之间的关系、发生的活动以及该领域的主要理论和基本原理等。
(4)语言学本体。
语言学本体是指关于语言、词汇的本体。
(5)任务本体。
任务本体主要涉及到动态知识。
任务本体主要研究可共享的问题求解方法,这里的推理与领域无关,研究的主题包括:
通用任务、与任务相关的体系结构、任务方法结构、推理结构和任务结构等。
2.4.3本体的作用
本体不是一种知识表示方法,所以本体的作用不在于描述知识,而在于对知识进行抽象,以形成知识的抽象模型。
在计算机世界,存在着各种各样不同的计算机语言,但这些语言之间很难进行知识的交流与共享。
此时引入了本体,本体体现的是事物的本质属性、表达了实体的固有特征。
是计算机之间进行交流和共享的基础。
2.4.4构造本体的原则
目前,不存在公认的本体设计和评价标准以及质量保证标准,构造本体的原则也没有一个标准。
不同的人有不同的原则。
但笔者认为,在构造本体的过程中,应当忽略实现(表示)语言的所有因素,这样能够保证本体的独立性;
在本体描述语言的选择方面,应当以是否直观为标准,越直观越好,本文首推图形描述语言,这样能够保证本体的共享性与可扩展性。
2.5小结
本节对知识、知识库、智能答疑系统和本体论的基础知识作了介绍,这些基础知识级成了本文得以深入的理论基础。
3相关技术
3.1MicrosoftVisio[22][23]
Visio是微软的产品,由于Visio原来仅是一种画图工具,能够用来描述从电路图到房屋结构图的各种图形,该系列产品直到Visio2000才开始引入软件分析设计功能。
Visio2002是Visio2000的升级版本,在其企业版里具备了更先进的建模功能,包括自动生成数据库架构并支持UML1.2规范所定义的9种类型的图。
在VisualStudio.NET的企业级架构中则不仅包含了Visio2002企业版所具有的特性,它同时还支持微软VisualStudio生成项目的逆向工程,以及相应的代码生成功能。
可以说它是目前最能够用图形方式来表达各种商业图形用途的工具(其中对软件开发中的UML支持仅仅是其庞大功能中很少的一部分)。
Visio的有如下的一些特点。
(1)方便的比例尺换算。
对于工程技术人员来说,比例尺换算是一件头痛的事,而在Visio中用户只要设定好绘图单位后,就可以在图纸上按实际尺寸进行绘图,勿需进行比例尺换算。
(2)众多的图标库。
Visio含有众多的图标库,这些图标库都是国际通用的标准,这减少了许多计算机绘图的基础工作(制作各种图标)。
如果用户对这些图标不满意,亦可建立自己的图标库或修改已有的图标。
(3)面向对对象的绘图软件。
其中的每一个对象可通过改变其属性而改变其特征,比如一直线可通过改变其属性而使其成为虚线、点划线或改变其方向。
(4)采用拖放机制进行绘图。
在Visio中绘图只需用鼠标将所需图标拖到自己的绘图区域中即可,同时在Visio中用拖放方法可选中一个或多个对象,进行拷贝、粘贴或改变位置。
(5)方便的尺寸标注功能。
在图标库中有尺寸标注图标,用户可把尺寸标注图标拖到需标注的物体中,通过用户设置的比例尺与拖动尺寸边框,即可对物体方便地进行尺寸标注。
(6)方便的连线工具以及阵列方式绘图。
Visio的连线只需指定两个对象,即可实现两个对象间的连线。
同时在需绘制多个均匀间隔的物体时,可采用阵列(Array)方式绘图,减少了重复工作。
(7)方便的标题块工具与画图工具。
在Visio中无须记画图命令,即可实现两点、三点画图等等,同时用户可根据自己的需要,设立图纸样式。
(8)模板和向导工具。
用户通过模板和向导工具,可根据自己的要求先对Visio提要求,然后再在Visio给的图纸上进行修改,这样可以大大缩短绘图周期。
3.2XML
WEB的发展,再加上HTML和SGML的实用性差,这样XML便应酝而生。
可扩展标记语言(XML)是一种从SGML(ISO8879)发展而来的既简单、又很灵活的文本格式。
XML最初是为满足大规模电子出版要求而设计的,同时它在WEB和其它任何领域中的数据交换中起着很重要的作用[14]。
相比较于HTML,XML能够表示任意结构的数据;
相比较于SGML,XML易于在WEB上实现,所以XML可以说是HTML和SGML的结合体。
XML具有跨平台性、内容与形式相分离性、良好的可扩展性、对数据的易集成性、健壮性等众多优点。
XML文档是一种纯文本格式,独立于任何系统,除了受自身的限制外几乎不受任何限制。
一个XML文档具有结构良好和有效性两个特征,所谓结构良好是指XML文档的编写要符合XML语法规范,所谓有效性是指XML文档必须遵守DTD或XMLSchema的约束。
当前Internet已成为业界不可缺少的生命线,信息系统不管处于何种形态都要考虑接入Internet。
在Internet领域中,主要厂商都在关注的新技术就是XML[15],当前XML主要应用领域体现在4个方面[15]:
(1)企业间的电子商务;
(2)知识管理;
(3)文档管理;
(4)实现企业间自动化处理。
XML是一个庞大的技术体系,XML体系中除了自身的标准外,还包括一系列重要的XML相关技术标准,如XLink、XPointer、XPath、XQuery等,这些技术的综合使用将会产生完美的XML文档。
XLink提供了一个创建基本单向链接和复杂链接结构的框架[16]。
因此XLink描述了WEB资源间的链接关系。
XLink允许文档中任何元素都可以进行链接,方法是在对应元素中加入链接属性,同时XLink允许不同的XML文档之间做链接,也允许同一个XML文档中不同元素之间做链接,当然也可以是不同XML文档之间的元素做链接[17]。
借助于XLink可以实现文档间及文档内部元素的关联。
简单地说XLink可以实现网络结构。
XPath主要是描述一个位置路径,其操作对象是XML文档中的节点。
XPointer以XPath为基础的指针语言,主要用来定义XML文档内部的链接设置。
XPointer相对于XPath而言,它不仅可以用来在XML文档中找寻特定的节点外,它还可以在XML文档中找到一个特定点,甚至是一个范围,所以在XML中定义了位置,以取代XPath中所谓的节点。
3.3小结
本节对构建知识库所需的相关技术作了介绍。
MicrosoftVisio由于其图形所具有的丰富性,故用来作为本体建模的图形化工具。
由于XML的灵活性与自描述性,本文用他作为知识库的开发平台,用来完成对本体模型的编码。
4领域知识的本体建模
本体的开发是一个交替反复的过程[21]。
构造本体没有一个统一的标准。
这里引用文献[19]中的关于CYC的说法:
“CYC小组不相信在通往智能化或创造基于人工智能的代理的途中存在什么捷径。
他们强调需要有大型的内容知识主体,而联系只能通过手工组织和比较信息而获得。
”这也是本文关于开发本体的观点。
4.1本体理论的改造
在第二节中曾提到本体由概念、关系、函数、公理和实例五部分组成,现对其作出以下三点的改造:
由于函数和公理在本质上都是概念间的关系,所以把函数和公理统一纳入到关系这一范畴。
(1)知识主要包括陈述性知识和程序性知识两在类。
本体的组成当中缺乏对程序性知识的描述,而本体是有义务对这部分知识进行描述的,所以,本文引入“过程”这一术语作为本体的一个组成部分,专门负责描述程序性知识。
(2)本文本体建模针对的领域知识是《计算机操作系统教程》这本教材,即知识来源于抽象世界而非现实世界,所以可以把实例从本体的组成部分中去掉。
经过上述的改造,本体就由概念、关系和过程三部分组成。
4.2图形符号的定义
图1图形符号定义图
本文采用MicrosoftVisio作为本体建模工具。
虽然Visio中有丰富的图形,但这些图形都缺乏具体的含义,所以还是有必要对一些图形符号加以定义。
定义如图1
说明:
元结点隶属于概念,不像概念那样和实体具有对应关系,元结点没有对应的实体。
如“中断”这一概念,中断具有作用、特点、类型等,这里的作用、特点、类型等就称作元结点。
元结点的目的是用于图形化的本体建模,而且在一定程度上使得DTD的设计简单化。
4.3本
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 XML 智能 答疑 系统 知识库 构建