开放语义云平台方案白皮书.docx
- 文档编号:29232663
- 上传时间:2023-07-21
- 格式:DOCX
- 页数:19
- 大小:1.17MB
开放语义云平台方案白皮书.docx
《开放语义云平台方案白皮书.docx》由会员分享,可在线阅读,更多相关《开放语义云平台方案白皮书.docx(19页珍藏版)》请在冰豆网上搜索。
开放语义云平台方案白皮书
开放语义云平台方案白皮书
Dolphin开放平台致力于企业的数字化转型
1.0引言
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音及图像识别、自然语言处理和专家系统等。
在我们看来,自然语言处理在AI中的作用与定位应相当于人脑的语言中枢,其核心功能不外乎寻址、思维与交流。
所谓寻址功能,是指在互联网上根据对自然语言的理解定位并访问(或获取)各种服务与内容资源。
所谓思维功能,是指利用自然语言的编码功能为进一步的计算提供必要的计算入口、输入输出参数信息,并提供有助于联想展开、逻辑推演的启发式信息和线索。
所谓交流功能,则是指将各种上述寻址、思维的结果(甚至过程)用自然语言再表达出来,供其他用户(包括系统)访问或使用。
从本质上看,寻址是自然语言处理最基本的功能,因为交流在本质上是提供了一种在其他大脑(或系统)中寻址的能力。
总之,在AI体系中,自然语言处理将起到不可替代的枢纽和支撑作用:
既是推理的起点,也是推理的终点,同时还可以在全网范围内完成资源整合。
综上所述,在AI中自然语言处理具有极为重要的作用;而自然语言又是人类与生俱来的技能,即使是普通人也能得心应手地使用;并且人类绝大多数的知识都是以自然语言的形式记载的,因此基于自然语言的人机交互(即语义交互)、在自然语言理解基础上的知识自动化应用必将具有广泛的前景。
知言科技专注于自然语言处理的相关技术研发及应用,致力于实现“知行合一、知无不言”的嵌入式语义计算,为实现知识自动化打下坚实的基础。
所谓“语义计算”,简单来讲,就是指语义分析及处理。
所谓“知行合一”,是指系统不仅能理解、知道用户的意图和要求,而且强调系统应该能进一步按照用户的意图和要求执行相应的任务,并向用户反馈相应的结果,在知言科技提供的语义分析及处理技术架构中,除了能够理解用户的意图和要求之外,还特别强调应输出宿主系统能够理解并执行的结构化指令。
所谓“知无不言”,则是指所有的知识和数据都可以通过自然语言在互联网上被精准地访问到,从而促进知识、数据的有效快速流动。
知言开放语义云平台是知言科技面向各类软硬件开发者开发的一个基于互联网的、实现嵌入式语义计算(语义分析及处理)服务的SaaS平台,开发者们利用知言开放语义云平台可以在自己的系统中嵌入语义计算能力,从而实现资源语义化、功能语义化。
知言开放语义云平台是在知言语义计算框架的基础上实现的。
知言科技拥有知言语义计算框架和知言开放语义云平台的完整知识产权。
在知言语义计算框架中,自然语言在推理中的作用通过语义推理来实现,而自然语言对资源整合的作用则通过按需计算来实现。
2.0产品概述
公司专注于自然语言理解(NLU)、知识自动化等技术的研发和应用。
在多年沉淀的基础上,形成了拥有完全自主知识产权的知言语义计算框架(ZYSCF,ZhiYanSemanticComputingFramework,以下简称SCF框架)。
在SCF框架基础上,知言科技进一步推出了知言开放语义云平台(域名为Dolphin.ai,以下简称为Dolphin平台)。
Dolphin平台本质上是机器人的语言中枢,为各类软硬件开发者提供嵌入式的语义分析及处理能力。
在Dolphin平台的帮助下,开发者可以在其应用中轻松地嵌入语义分析及
处理机器人,包括语义交互机器人、客服机器人、知识协作机器人以及文本挖掘机器人等,
极大地改善宿主系统的用户体验,提升宿主系统的应用价值。
简而言之,就是SCF框架提供语义计算能力,Dolphin平台则提供将语义计算能力嵌入到具体应用中的的能力。
SCF框架包括语言知识获取、语言知识共享及迁移、语义训练、语义分析、语义处理、智慧问答等子系统。
该框架的主要特点是能够通过语料挖掘自动获取语言知识,利用已知的语言知识完成对各类文本的语义分析,实现对语义层次、语义角色、语义成分、语法结构、命名实体的精准识别,并完成对话控制、指代消解、歧义消解、即时猜测、语义归一化、最大似然分析等语义分析任务,进而根据特定的语义触发相应的语义事件,并通过语义事件以嵌入式的方式在各类软硬件系统中实现语义驱动、智慧问答、文本挖掘、按需计算、语义推理、结构化信息转换及抽取等语义处理任务,最终赋予宿主系统以样本驱动、内容驱动为主要特征的基于语义的认知计算能力。
知言科技通过Dolphin平台将SCF框架封装起来,使得语义训练、语义分析及处理服务成为各类软硬件系统开发者可以通过互联网方便获取的基础性服务设施。
其主要特点是:
封装各种底层控制机制,允许开发者通过简单易懂、好用易用的语义训练工具自定义应用场景;通过语言知识共享与迁移机制实现小样本训练;在精准语义分析的基础上实现基于上下文的对话控制;利用语义事件实现Dolphin平台与应用系统的松耦合。
从而帮助各类软硬件系统的开发者在其应用中嵌入以对话式语义驱动、智慧问答、文本挖掘等功能为主要特色的语义分析及处理机器人。
Dolphin平台可以帮助开发者实现应用内语义交互,将宿主系统的人机交互从“菜单驱动”提升到以“语义驱动”为主,为终端用户提供“所想即所得”的交互体验,进而实现以按需计算为核心的云端嵌入式语义计算架构,将用户和开发者以语义化、智能化的方式连接起来;也可以帮助企业对其文本型资产进行深度挖掘及加工再利用,从而创造更大的价值。
Dolphin平台能够广泛应用于各种互联网应用、企业级应用、以及智能硬件和机器人等领域,为各种互联网应用、企业级应用及智能硬件开发者提供资源语义化、功能语义化的技术手段,帮助这些领域的开发者赋予其系统理解并处理自然语言的能力。
知言科技基于Dolphin平台为开发者提供的嵌入式语义计算能力具有“样本驱动、内容驱动”的特点。
即开发者不需要面对复杂的参数配置、脚本编写,只要提供训练样本、导入内容,知言科技的嵌入式语义计算就可以起作用了。
3.1技术架构
3.2Dolphin平台技术架构
整个平台分为五层:
UI层、业务层、数据层、分析层、代理层。
由语言知识共享、语义分析、后台管理、以及语义代理等子系统组成,帮助开发者构建自己的语义分析及处理机器人。
图1平台架构图
UI层包括语义训练工具、增值服务、运营管理工具等。
其中,语义训练工具、增值服务的使用者主要是应用开发者,运营管理工具的使用者主要是Dolphin平台的运营人员。
业务层负责实现具体的业务逻辑,包括领域知识管理、语言知识共享、用户刻画、按需分发、结算、用户管理等。
数据层包括数据访问层、数据库等。
其中,用户数据库主要是用来保存开发者定义的语义事件、语义训练用例等信息,平台数据库用于保存平台的用户、广告、充值、消费、结算等信息。
分析层,即语义计算层,包括语义分析、按需计算、自然语言生成、智能诊断等功能,是Dolphin的核心服务层。
代理层,是指分散在各个目标应用中的语义代理所构成的外围接入层。
值得注意的是,语义代理还可以用来接入目标应用的云端服务。
3.1语义事件知言语义计算框架(ZYSCF)
Dolphin平台基于知言语义计算框架(ZYSCF,ZhiYanSemanticComputing
Framework)是为用户提供语义分析及处理服务的基础架构。
4.1原理简介
图2ZYSCF架构
Dolphin平台的使命是为各类软硬件开发者提供云端部署的、开放的、易获取、易使用的、稳定可靠的、流畅的语义训练、语义分析及语义处理服务。
Dolphin平台为各类软硬件开发者提供的服务可以概括为语义事件、语义训练、语义分析、语义处理、语义代理等五个方面。
4.2语义事件
通过语义事件,开发者可以定义符合自己需要的语义交互场景,这是Dolphin平台的核心功能之一。
语义事件是一个目标应用能够理解并执行的结构化指令,包括名称(功能号)、参数列表(包括输入参数、输出参数)等要素。
语义事件是由系统的开发者自己定义和维护的,同时开发者还需要实现语义事件的实现代码,这个实现代码就是对目标系统API接口的适配。
为了让语义分析引擎能够触发语义事件,需要开发者事先定义语义事件、完成训练用例标注、编写语义事件响应代码、产生可以驱动分析引擎工作的语义规则。
语义事件可以在前端响应,也可以在云端响应。
语义事件的响应代码通常包含在目标系统为使用Dolphin语义代理而增加的适配代码中。
和语义事件存在两种响应方式一样,目标系统同样可以根据自身需要,决定是在目标系统的前端,还是在后台实现引入Dolphin语义代理。
图3使用Dolphin插件示意图
例如在一个预订飞机票的目标应用中,开发者事先在Dolphin平台上定义好“BookAirLines”这个语义事件,并且设定好事件的相关参数:
图4语义事件
对于用户输入的复杂需求,系统将会触发多个语义事件,并根据其内在逻辑关系形成事件流,这就是按需计算(CDR,ComputingDrivenbyRequirements)。
4.3语义训练
语义训练是指,开发者在Dolphin平台上提供与特定语义事件关联的典型的自然语言表达,即训练用例,从而达到告诉Dolphin平台,这些语义事件是“什么意思”的效果。
完成语义训练需要经过三个阶段:
准备阶段,实施阶段和维护阶段。
在准备阶段,开发者需要整理业务模型相关的实体、词库和同义词,例如实体:
语言,其词库可能包括:
中文、俄文等等。
图3实体管理界面
为什么要设置同义词?
同义词能够帮助目标信息系统建立一个归一化的词典,从而减少对系统的维护工作。
例如在语言实体中,俄文和俄语互为同义词,假设目标系统只能处理俄语,则可以在Dolphin平台上将俄文设置为俄语的同义词。
在实施阶段,标注训练用例,用于告知引擎在什么时刻触发语义事件。
标注训练用例时,可以首先为单个语义事件参数构造简单表达,在将所有参数合在一起标注训练用例。
例如依然用预订机票的场景为例,用户的标注用例应该如下:
1.到广州的飞机票(单独构造目标城市的简单例句)
图4标注“到广州的飞机票”
2.从北京出发的飞机票(单独构造出发城市的简单例句)
图5标注“从北京出发的飞机票”
3.明天的飞机票(单独构造出发时间的简单例句)
图6标注“明天的飞机票”
4.经济舱的机票(单独构造舱位等级的简单例句)
图7标注“经济舱的飞机票”
5.明天从北京出发到广州的经济舱机票(将所有参数合并一起构造例句)
图8标注“明天从北京出发到广州的经济舱机票”
采用这种方法标注训练用例后,知言的引擎就可以自动理解由这些简单语句嵌套构成的复杂语句。
4.4语义分析
Dolphin平台通过线上服务的方式,接受来自语义代理的用户使用自然语言发出的需求,并对这些需求进行语义分析,将分析的结果以语义事件返回给宿主应用。
语义分析的任务主要包括:
语义层次、语义角色、语义成分、语法结构、命名实体的精准识别;以及基于上下文的对话控制、指代消解、歧义消解、即时猜测、语义归一化、最大似然分析等。
4.5语义处理
在语义分析的基础上,宿主系统可以通过调用语义事件响应代码来实现各类语义处理任务。
这些语义处理任务包括:
语义驱动、智慧问答、文本挖掘、按需计算、语义推理、结构化信息转换及抽取等。
语义驱动(IDS,InteractionDrivenBySemantic),包括自然语言查询、操控及事务处理、应用导航、基于上下文的多轮对话等,语义驱动赋予最终用户“所想即所得”的应用体验。
智慧问答(IQA,IntellectualQA),是指基于相关相似搜索、主题词分析、问点分析、意义搜索、语义推理、语义归一化等技术形成的,以样本驱动、内容驱动为主要特征的具有认知能力的智慧型问答系统。
文本挖掘(TM,TextMining),对文本型数据进行转换抽取,形成多维数据,进而通过各种挖掘分析,揭示潜在的有价值信息。
按需计算(CDR,ComputingDrivenbyRequirements),是指当用户发出复杂的要求时,可能会触发多个语义事件,这时就需要按需计算引擎按照这些语义事件的逻辑关系形成语义事件流,并执行这个事件流,从而精准地按照用户的意图和要求执行相应的任务。
按需计算意味着系统具备能够在理解简单语句的基础上,自动实现对复杂语句的理解,从而彻底突破传统的基于模板进行语义分析的局限。
语义推理(SI,SemanticInference),即基于知识图谱的推理,相当于在专家系统的基础上,包装一层自然语言理解的外壳,允许普通用户直接以自然语言向系统提交事实和知识,或者直接通过自然语言与专家系统交互,实现what-if、prove等分析手段。
结构化转换及抽取(SCE,StructuralConversionandExtraction),根据已知的语言知识,自动将非结构化文本转换为结构化数据,实现从非结构化到结构化的转换,使得真正的语义搜索成为可能,同时也生成用于实现知识自动化的事实库。
4.6语义代理
语义代理是一个驻留在宿主系统的前端组件,主要是用来封装语音识别服务,实现与
Dolphin平台通讯,并负责上传用户输入(可以是语音识别的结果,也可以是触屏输入)、分发语义事件、管理语义交互界面等功能。
5.1功能简介
利用Dolphin平台提供的语义分析及处理服务,各类软硬件开发者可以轻松地在自己的系统中构建专属的语义分析及处理机器人,例如语义交互机器人、客服机器人、知识协作机器人或文本挖掘机器人等。
通过Dolphin平台的整合,开发者可以自由地组合使用上述各种服务,训练生成符合自己需求的语义分析及处理机器人。
5.2语义交互机器人
语义交互机器人驻留于开发者的系统中,使开发者的软硬件系统(即语义分析及处理服务的宿主系统)能够以自然语言与用户交互,按照用户的意图和要求执行相应的任务,并即时向用户反馈结果,即能听,会说,会干活。
从而简化人机交互,提升用户体验,创造更大的客户价值。
语义交互机器人包括以下功能:
自然语言查询、操控及事务处理、应用导航、多轮对话、智慧问答等。
5.2.1自然语言查询
允许用户通过自然语言直接查询数据信息。
例如:
“2015年刘德华主演的动作片”、“上世纪九十年代日本的科幻小说”。
图9自然语言查询效果图
5.2.2操控及事务处理
用户可以通过自然语言直接完成对目标应用或设备的某一项控制、设置某个参数项。
这类交互的特点是一般不需要涉及后台数据库查询,而是更多在本地执行一些常用操作及指令。
例如:
“帮我打开WIFI”、“把空调调高2度”、“打开夜间阅读模式”。
如下图,用户只需要简单的说“提醒我明天早上8:
00机场接老赵”,目标应用就自动新建一条提醒。
图10指令操控效果图
5.2.3应用导航
用户可以直接通过自然语言指令找到相关的功能及页面。
例如:
“我想更改我的个人信息”、“打开某某的微信朋友圈”。
下图是一个在线教育培训的APP,当用户发出“宝山区的培训机构”来操作指令后,该APP直接可以跳到查询界面、自动完成填充参数和执行。
这种方式可以节省用户50%以上的操作时间。
图11应用导航效果图
5.2.4多轮对话
对话过程中,系统可根据对用户意图和要求的理解,结合当前上下文,主动发起与用户的交互,以及引导用户提供补充或做出澄清,并实现追加、跟进、撤销等交互效果。
以下是在某应用中多轮对话的效果图。
图12多轮对话效果图
5.2.5智慧问答
语义交互也包括基于问答式知识库的自动问答功能。
例如用户可以问“补办身份证需要准备哪些资料”、“我的账户被冻结怎么办”、“办理公积金支取需要带哪些资料”等,系统会立即返回相应的答案。
又如,当用户明确提出类似“我需要帮助”的要求时,系统会根据语义训练的内容,给出相关的提示信息,引导用户如何与系统交互,例如可以问哪些问题,发出哪些指示。
开发者可以整理关于目标应用的问答知识库(经验库)并提交到Dolphin平台,这样
Dolphin平台的语义分析服务就可以为目标应用的用户提供基于问答知识库的自动问答服务。
Dolphin平台的自动问答采用语义分析技术进行强化:
首先对用户的问题进行精准的语
义分析以确定用户的意图和要求,再根据用户的问题针对知识库进行相关相似搜索,然后再根据用户的意图和要求对前述搜索结果进行筛选过滤,从而确保得到更加精准的问答效果。
5.3客服机器人
利用Dolphin平台,可以将企业的客服知识整理成问答形式的经验库,并将企业提供给客户的各种应用功能语义化,从而形成供企业的客户使用语义交互机器人,即客服机器人。
客服机器人可以驻留于各种CallCenter系统、CRM系统、网站、移动APP、微信公众号中,能够直接准确地响应用户以自然语言形式提出的要求,从而极大地改善用户体验,创造更大的客户价值。
基于Dolphin平台形成的客服机器人具有以下优点:
一、内容驱动的智慧型自动问答
所谓内容驱动的自动问答服务,是指得益于Dolphin平台提供的底层服务,如自动分类、聚类、语义分析、主题词分析、语义归一化、等价知识迁移、问点分析、意义搜索、基于知识图谱的推理等,企业不需要花费太多的精力去为问答条目设计各种问句,只要把相关的知识点按照适当的颗粒度整理好导入Dolphin平台即可。
系统能够自动根据对问句的语义分析,在问答知识库中找到最能符合用户意图的答案。
二、语义驱动的智能化体验
如前所述,利用Dolphin平台搭建的客服机器人除了具备智慧型自动问答服务能力外,还同时能够为用户提供包括自然语言数据库查询、操控及事务处理、应用导航、基于上下文的多轮对话等语义驱动型人机交互服务,可以为用户直接提供端到端的问题解决能力,从而大大改善用户体验,提高用户满意度和用户留存等关键指标。
三、问答知识库的质量可以得到充分保证
除了智慧型问答服务能力之外,客服机器人的实际使用效果还取决于问答知识库的质量。
Dolphin平台还提供了有效的措施,包括防止多重拷贝、纠缠降解、基于决策树的复杂条目分解、多维自动分类聚类等,以确保问答知识库高度可用、可管理、易维护。
5.4知识协作机器人
利用前述构建客服机器人的技术,将企业的各种知识以经验库的形式组织起来,并允许企业内部用户能够方便地访问这些经验,就形成了内容驱动的知识协作机器人。
知识协作机器人可以帮助企业建立面向全生命周期的,自底向上的,自组织、自增长的,碎片化知识的管理与协作机制。
达到“存得下去、找得回来、用得起来”的效果,确保企业知识能够及时地沉淀,方便地共享,充分地利用,从整体上改善企业运作绩效,避免或减少人员变动流失带来的损失。
面向企业的知识协作机器人的典型应用如IT运维知识协作、营销知识协作等。
知识协作机器人可以是面向企业的,也可以为个人所有。
设想一下,如果一个用户从学生时代起,就开始建立并维护自己的知识体系,并与朋友分享这个体系,十年、二十年之后,将可以得到一个怎样庞大的体系?
再设想一下,在整个互联网上,成千上万的用户形成各自的知识体系,并能为其他用户分享,整个社会的知识自动化水平将提升到怎样的高度?
5.5文本挖掘机器人
利用Dolphin平台可以构建文本挖掘机器人。
文本挖掘机器人主要负责将大量的文本数据,特别是数据库中的碎片化的非结构化数据转换为结构化数据,形成多维数据集,通过分类、估值、预测、聚集、可视化等挖掘分析手段,揭示隐含在这些数据中的、人们所不知道的、但有用的信息和知识的过程。
根据挖掘的对象,文本挖掘可以细分为病历挖掘、日志挖掘等。
6.0主要特点
一、简单易用,精准精确
Dolphin平台提供的语义接口训练工具对语义映射、语言知识管理等技术细节进行了精心的封装,因此不需要开发者事先掌握语言知识,也不需要面对复杂的脚本编程,只需要了解终端用户的需求,有一定的领域业务知识,了解应用提供的服务接口,经过几个简单的步骤就可以完成所需的训练工作。
开发者在训练工具上只需要对典型表达(例句)进行拖拉式操作就可以完成,可视化程度高,非常容易操作。
Dolphin平台能根据对语句的分析精准触发相应的语义事件,而不同于业界常用的关键词模糊搜索,也不同于某些语义分析产品那样只能分析出部分主语、谓词或切词等中间结果。
二、自主共享,上下文交互
开发者完全自主。
首先目标应用的自定义的语言知识是由开发者自主维护的,开发者可以根据需要随时修改;其次平台提供的语义接口训练工具是向开发者完全开放的,开发者可以自行维护应用所需的语义接口,不受任何限制;最后开发者只需要开放接口,可以保留完整的数据主权,而无需担心数据泄露问题。
此外Dolphin平台还是一个社区,让开发者们能够有机会互相共享,同时Dolphin平台还会源源不断地提供基础语言资源的支持,减轻开发者训练语义接口的负担。
三、低门槛,智能化
任何有需要的开发者都可以使用Dolphin平台实现应用内语义交互。
Dolphin平台提供语义代理或Restful接口由开发者自行接入,简单便捷,大大降低接入难度及缩短开发周期。
Dolphin平台拥有业界领先的语义分析专有技术,智能化程度高,语义分析的结果正确率超过98%。
1)Dolphin平台在理解用户输入语义的基础上,完成精准查询或执行符合用户预期的某项任务;
2)自动识别等价的语义。
用户输入“哪些股票的每股收益超过3元”时,Dolphin平台可以自动识别这个查询与“每股收益超过3元的股票”具有相同的语义,进而给出查询结果;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 开放 语义 平台 方案 白皮书