知识图谱docxWord下载.docx
- 文档编号:14252561
- 上传时间:2022-10-20
- 格式:DOCX
- 页数:8
- 大小:28.41KB
知识图谱docxWord下载.docx
《知识图谱docxWord下载.docx》由会员分享,可在线阅读,更多相关《知识图谱docxWord下载.docx(8页珍藏版)》请在冰豆网上搜索。
此外,它们均包含“用户还搜索了”或“其他人还搜”的功能来展现相关的人物。
该功能允许用户去浏览其他与绥明相关的人物的详细信息。
Google在其知识卡片中也展示了很多与姚明相关的图片,以图文并茂的方式来展示姚明的方方面面。
XX则结合了XX风云榜的信息,列出了姚明的类别(体坛人物)及其XX指数(今日排名和今日搜索热度等信息)。
XX还展示了其特有的专题搜索,包含了与姚明相关的百科、图片、微博、新闻、音乐、贴吧和视频等七大类的结果,基本涵盖了用户最基本的需求。
搜狗在列出与姚明相关的百科、图片,电影和最新相关消息等专题的同时,其知识卡片额外显示了诸如“主持电视节目”、“效力篮球队”、“人物关系”等各种细粒度的语义关系。
当遇到含有歧义的用户查询时,知识卡片还会列岀其他可能的查询目标对象。
在上面的例子中,搜狗还列出了一项“您是否要找”的功能,列出一位也叫姚明的一级作曲家。
该功能用于去歧义,在显示最相关实体的同时也给岀其他可能的对象,达到去歧义的作用。
•知识图谱的数据来源。
为了提高搜索质量,特别是提供如对话搜索和复杂问答等新的搜索体验,我们不仅要求知识图谱包含大量高质量的常识性知识,还要能及时发现并添加新的知识。
在这种背景下,知识图谱通过收集来自百科类站点和各种垂直站点的结构化数据来覆盖大部分常识性知识。
这些数据普遍质量较高,更新比较慢。
•而另一方面,知识图谱通过从各种半结构化数据(形如HTML表格)抽取相关实体的属性■值对来丰富实体的描述。
此外,通过搜索日志(querylog)发现新的实体或新的实体属性从而不断扩展知识图谱的覆盖率。
。
•相比高质量的常识性知识,通过数据挖掘抽取得到的知识数据更大,更能反映当前用户的查询需求并能及时发现最新的实体或事实,但其质量相对较差,存在一定的错误。
这些知识利用互联网的冗余性在后续的挖掘中通过投票或其他聚合算法来评估其置信度,并通过人工审核加入到知识图谱中。
在知识图谱辨?
要詡三个环节就是知识单元的抽取、知识单元间关系的识别,以及知识图谱的存储与使用。
其中尤以知识单兀抽取和知识单兀间关系的识别最为关键。
知识图谱主要有自顶向下(top-down)^自底向上(bottom-up)两种构建方式。
自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。
该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如Freebase项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。
自底向上指的是从一些开放链接数据中提取岀实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。
目前,大多数知识图谱都采用自底向上的方式进行构建,其中最典型就是Google的KnowledgeVaulto
RDF是一种资源描述框架,可以形式化地表示结构信息,它一般用来描述网络资源,例如某个Web页面的内容、作者等。
采RDF可以对知识进行结构化组织,进而采用图形化的方式展示出来。
在知识图谱的存储研究中,目前主要是RDF数据库和图数据库,从顶向下设计的RDF数据库没有从底向上设计的图数据库成功,图形数据库在存储知识图谱的知识单元和单元关系上效果最佳。
目前,图形数据库并没有一套完整的标准,但是大部分图形数据库都包含了节点、关系、属性这三个元素。
节点可以用来存储知识单元,关系可以用来展示知识单元之间的联系,属性可以表征知识单元的相关特性。
大规模知识库的构建与应用需要多种智能信息处理技术的支持。
通过知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。
通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。
知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。
分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。
知识抽取
知识抽取主要是面向开放的链接数据,通过自动化的技术抽取出可用的知识单元,知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素,并以此为基础,形成一系列高质量的事实表达,为上层模式层的构建奠定基础。
实体抽取
•指的是从原始语料中自动识别岀命名
•实体。
由于实体是知识图谱中的最基本元素,其抽•取的完整性、准确率、召回率等将直接影响到知识•库的质量。
因此,实体抽取是知识抽取中最为基础•与关键的一步。
•实体抽取的方法分为3种:
基于规则
•与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法。
基于规则的方法通常需要为目标实体编写模板,然后在原始语料中进行匹配;
基于统计机器学习的方法主要是通过机器学习的方法对原始语料进行训练,然后再利用训练好的模型去识别实体;
面向开放域的抽取将是面向海量的Web语料
基于规则与词典的实体抽取方法
早期的实体抽取是在限定文本领域、限定语义单元类型的条件下进行的,主要采用的是基于规则与词典的方法,例如使用已定义的规则,抽取出文本中的人名、地名、组织机构名、薛定时间等实栋。
然而,基于规则模板的方法不仅需要依靠大量的专家来编写规则或模板,覆盖的领域范围有限,而且很难适应数据变化的新需求。
基于统计机器学习的实体抽取方法
•三将机器学习中的监督学习算法用于命名实体的抽取问题上•例如利用KNN算法与条件随机场模型,实现了对Twitter文本数据中实体的识别。
•单纯的监督学习算法在性能上不仅受到训练集合的限制,并且算法的准确率与召回率都不够理想。
相关研究者认识到监督学习算法的制约性后,尝试将监督学习算法与规则相互结合,取得了一定的成果。
例如基于字典,使用最大爛算法在Medline论文摘要的GENIA数据集上进行了实体抽取实验,实验的准确率与召回率都在70%以上。
面向开放域的实体抽取方法
•针对如何从少量实体实例中自动发现具有区分力的模式,进而扩展到海量文本去给实体做分类与聚类的问题,有文献提岀了一种通过迭代方式扩展实体语料库的解决方案,其基本思想是通过少量的实体实例建立特征模型,再通过该模型应用于新的数据集得到新的命名实体。
另外还有一种基于无监督学习的开放域聚类算法,其基本思想是基于已知实体的语义特征去搜索日志中识别岀命名的实体,然后进行聚类。
知识表示
•虽然,基于三元组的知识表示形式受到了人们广泛的认可,但是其在计算效率、数据稀疏性等方面却面临着诸多问题。
近年来,以深度学习为代表的表示学习技术取得了重要的进展,可以将实体的语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义。
知识融合
由于知识图谱中的知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。
知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。
实体对齐
•实体对齐(entityalignment)也称为实体匹配
•(entitymatching)或实体解析(entityresolution),主要
•是用于消除异构数据中实体冲突、指向不明等不一
•致性问题,可以从顶层创建一个大规模的统一知识
•库,从而帮助机器理解多源异质的数据,形成高质
•量的知识。
•在大数据的环境下,受知识库规模的影响,在进行知识库实体对齐时,主要会面临以下3个方面的挑战
•1)计算复杂度。
匹配算法的计算复杂度会随知识库的规模呈二次增长,难以接受;
•2)数据质量。
由于不同知识库的构建目的与方式有所不同,可能存在知识质量良莠不齐、相似重复数据、孤立数据、数据时间粒度不一致等问题;
•3)先验训练数据。
在大规模知识库中想要获得这种先验数据却非常困难。
通常情况下,需要研究者手工构造先验训练数据。
•根据知识图谱的逻辑结构,其更新主要包括模式层的更新与数据层的更新。
模式层的更新是指本体中元素的更新,包括概念的增加、修改、删除,概念属性的更新以及概念之间上下位关系的更新等。
其中,概念属性的更新操作将直接影响到所有直接或间接属性的子概念和实体。
通常来说,模式层的增量更新方式消耗资源较少,但是多数情况下是在人工干预的情况下完成的,例如需要人工定义规则,人工处理冲突等。
因此,实施起来并不容易
•数据层的更新指的是实体元素的更新,包括实体的增加、
修改、删除,以及实体的基本信息和属性值。
由于数据层
的更新一般影响面较小,因此通常以自动的方式完成
知识推理
知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。
在推理的过程中,往往需要关联规则的支持。
由于实体、实体属性以及关系的多样性,人们很难穷举所有的推理规则,一些较为复杂的推理规则往往是手动总结的。
对于推理规则的挖掘,主要还是依赖于实体以及关系间的丰富同现情况。
知识推理的对象可以是实体、实体的属性、实体间的关系、本体库中概念的层次结构等。
知识推理方法主要可分为基于逻辑的推理与基于图的推理两种类别。
知识图谱的典型应用
知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及爭用提供了一种更为有效的方式,[吏得网络的智能化水平更高,更加接近于人类的认知思维。
目前,知识图谱已在智冃呂搜索、株度冋答、社父网络以及一些垂直行业中有所应用,成为支撑这些应用发展的动力源泉。
智能搜索
基于知识图谱的智能搜索是一种基于长尾的搜索,搜索引擎以知识卡片的形式将搜索结果展现出来。
智能搜索引擎主要以3种形式展现知识:
1)集成的语义数据。
例如当用户搜索梵高,搜索引擎将
以知识卡片的形式给出梵高的详细生平,并配合以图片等信息;
2)直接给岀用户查询问题的答案。
例如当用户搜索“姚明的身是多少?
”,搜索引擎的结果是“226cm”
3)根据用户的查询给出推荐列表等。
•国外的搜索引擎以谷歌的GoogleSearch[6]>微软的BingSearch[116]最为典型。
谷歌的知识图谱相继融入了维基百科、CIA世界概览等公共资源以及从其他网站搜集、整理的大量语义数据,微软的BingSearch和Facebook,Twitter等大型社交服务站点达成了合作协议,在用户个性化内容的搜集、定制化方面具有显著的优势。
社交网络
社交网站Facebook于2013年推出了GraphSearch产品,其
核心技术就是通过知识图谱将人、地点、事情等联系在一起,并以直观的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 知识 图谱 docx