828 知识图谱大数据环境下知识工程的机遇和挑战文档格式.docx
- 文档编号:17669968
- 上传时间:2022-12-08
- 格式:DOCX
- 页数:21
- 大小:2.58MB
828 知识图谱大数据环境下知识工程的机遇和挑战文档格式.docx
《828 知识图谱大数据环境下知识工程的机遇和挑战文档格式.docx》由会员分享,可在线阅读,更多相关《828 知识图谱大数据环境下知识工程的机遇和挑战文档格式.docx(21页珍藏版)》请在冰豆网上搜索。
争辩爱好是语义Web,旧事挖掘与跨言语学问图谱构建。
多篇论文在重要国际会议(WWW、IJCAI、SIGIR、SIGKDD)和学术期刊(TKDE、TKDD)上发表。
掌管多项国家级、部委级和国际合作项目争辩,包括国家自然科学基金重点项目、欧盟第七合作框架、新华社项目等。
获得2013年人工智能学会科技进步一等奖,2013年电子学会自然科学二等奖。
以下是演讲实录:
今日我的演讲主题是“学问工程:
机器智能的加速器”,下面我将结合数据、信息、学问、智能等相关概念及其关系回顾学问工程四十年来的争辩和使用进展,包括大数据时代学问工程的挑战以及我们的部分相关工作。
一、学问工程四十年:
让机器更智能
我们迎来了大数据时代,大数据具有规模性、多样性、快速性和真实性等特点。
大数据正在转变我们的生活、工作和思考方式。
在这样的背景下,大数据对智能服务的需求已经从单纯的搜集猎取信息,转变为自动化的学问供应服务,这也给学问工程提出了很多挑战性的问题。
我们需要利用学问工程为大数据添加语义/学问,使数据产生才智(smartdata),完成从数据到信息再到学问,最终到智能使用的转变过程,从而实现对大数据的洞察、供使用户关怀问题的答案、为决策供应支持、改进用户体验等目标。
今年恰逢学问工程提出40年,我们梳理了学问工程的四十年进展历程,总结学问工程的演进过程、技术进展以及为机器智能所做的贡献。
1950-1970年月图灵测试:
人工智能旨在让机器能够像人一样处理简约问题,智能的评测是图灵测试。
这一阶段次要涌现出两种人工智能方法:
符号主义和连结主义。
通用问题求解程序(GPS)成为当时代表性的方法:
将问题进行形式化的表达,通过搜索,从问题的初始外形,结合定义的规章或表示,得到目标外形。
典型使用是博弈论和机器定理证明等。
这一时期的学问表达次要有规律学问表示、产生式规章、语义网络等。
1970-1990年月专家系统:
只需通用问题求解不足以支持实现智能,Feigenbaum认为学问是机器实现智能的核心,在70年月中后期年正式提出以专家系统为代表的学问工程概念,通过学问库+推理实现更智能的系统。
这表明在求解问题过程中还需要注入领域学问,以此确立学问工程在人工智能领域的核心地位。
这一时期学问表示有新的演进,包括框架和脚本等。
80年月后期毁灭很多专家系统的开发平台,可以挂念将专家领域的学问转变成计算机可以处理的学问。
1990-2000年月Web1.0万维网:
万维网(WorldWideWeb)的产生为人们供应了一个开放平台,使用HTML定义文本内容,通过超链接把文本连接起来,以此共享信息。
随后毁灭了XML—标签言语,对内容结构通过定义标签进行标记,为后续互联网环境下学问表示奠定了基础。
2000-2006年月Web2.0群体智能:
这一时期是信息爆炸式增长的过程,万维网的毁灭使得我们的学问从封闭走向开放,从集中成为分布。
原来专家系统是系统内部定义的学问,现在可以实现学问源之间相互连接,可以通过关联来产生更多更丰富的学问,而非完全由确定的人或者单位生产。
这个过程就是群体智能,最典型的代表就是维基百科,大众用户去建立学问,体现了互联网大众用户对学问的贡献,也今日的大规模学问图谱的基础。
同时,在2001年万维网制造人、2016年图灵奖获得者TimBerners-Lee提出语义Web的概念,旨在对互联网内容进行结构化语义表示,而RDF和OWL就是对内容结构化表示的标识定义,在这样的语义表示支持下,人和机器才能够更好协同工作。
2006年至今学问图谱:
这一时期有很多工作在对维基百科进行结构化,例如DBpedia、YAGO和Freebase等。
Google的学问图谱(knowledgegraph)就是收购了Freebase之后产生的大规模学问图谱。
现在我们看学问图谱的进展和使用情况,除了通用的大规模学问图谱,各行各业也在建立行业和领域的学问图谱。
我们也看到了恨到大规模学问图谱的使用,包括语义搜索、问答系统与谈天、大数据语义分析以及智能学问服务等,更多学问图谱的创新使用还有待开发。
二、学问工程与大数据机器学习的结合
随着信息技术进步和大数据时代的到来,大数据机器学习也得到快速进展,基于表示学习和深度神经网络的机器学习方法获得了巨大成果,并已经成功使用于语音识别、图像识别和机器翻译等。
总结大数据驱动的深度学习的优点和局限性可以看出,当前大数据驱动的机器学习是一个黑盒的学习过程。
而计算机若要实现智能,就意味着能够挂念人类做完成简约工作或则做出决策。
目前的大数据机器学习能够赐予一些决策支持,但用户不会满足于只给推举结果,用户期望的习得的模型解释给出的模型为何成功何时成功等。
这就是可解释的人工智能,这就需要与人的认知进行结合。
比如机器自动识别出一张图片中的物体是猫,它还需要告知我们为什么推断为猫,如应为猫有毛、有胡须有爪子等毛的特征,也就是告知人们机器做决策的依据是什么。
由此,大数据深度学习学到的是事物底层特征空间,人能理解的对应的是事物语义空间,这当中存在语义鸿沟,而学问图谱可以用来弥合这个鸿沟。
现在我们来看以学问驱动为代表的专家系统的典型结构:
学问库、推理引擎和人机接口。
当时专家系统没有进展起来次要受限于专家学问难以获得以及计算机计算力气的限制。
在大数据环境下,我们可以接受自动或者半自动方法利用大数据机器学习方法从大数据中获得学问,由此建立大数据环境下智能系统。
三、大数据环境下学问工程的争辩和挑战
在大数据环境下,我们期望能够从互联网开放环境下的大数据获得学问,用这些学问供应智能服务反哺互联网/行业。
这是一个迭代的相互添加过程,最终的目的是实现从互联网信息服务到智能学问服务的跃迁。
由于提出学问工程而在1994年获得图灵奖的Feigenbaum教授将学问工程定义为:
将学问集成到计算机系统完成只需特定领域专家才能完成的简约任务。
在大数据时代,我们对此进一步改进:
学问工程是从大数据中自动或半自动猎取学问,建立基于学问的系统,以此供应互联网智能学问服务,如语义搜索和问答系统等。
总结当前学问驱动和数据驱动的人工智能方法,以符号表示为代表的学问驱动方法表示的学问明确、可以举一反三、进行解释和推理。
而大数据深度学习为代表的数据驱动方法可以进行感知和记忆,进行关联计算,但是难以解释其推理计算过程。
因此两种方法的融合为我们争辩基于学问的智能技术供应了契机。
同时,两种方法的融合也带来很多挑战性问题。
下面从组成学问工程生命周期的学问建模、学问猎取、学问存储和计算、以及学问重用的四个阶段看每个阶段所面临的挑战。
学问表示方面,次要是争辩大数据学问表示的理论与方法,使学问既具有显式的语义定义,又便于大数据环境下的学问计算与推理。
学问猎取与融合方面,次要争辩学问猎取和语义关联技术。
目前符号表示的学问是稀疏的,如何在学问稀疏和大数据环境下争辩学问引导的学问猎取方,获得大规模和高精度的学问是我们面临的挑战。
在学问计算和推理方面,当前基于符号的推理虽然有一些很好的推理工具,但是大规模学问推理效率还很受约束。
深度学习或概率的推理方法便利计算但是难以解释。
大数据环境下学问计算和推理需要争辩深度学习和规律规章相结合的学问推理和演化方法,以提升新学问发觉的力气。
学问工程的最终目标是实现学问驱动的共性化智能服务。
以学问图谱关联和分析用户行为,通过情景感知分析用户需求,以供应不同形式的共性化服务如学问导航、语义搜索和问答等。
学问工程进展趋势可以归纳为四个方面。
四、我们的相关工作
下面首先引见我们试验室在ACL2017上发表论文基于实体提及表示学习的实体链接工作。
实体链接是学问图谱中的基础争辩问题。
有两个挑战,一是文本中同一个实体会有多个提及形式,例如独立日可以用IndependenceDay,也可以JulyFirst。
二是同一个短语可能会对应不同的实体,独立日有可能指电影,也可能是节日。
因此,组成实体提及的词或者短语具有多义性。
我们提出一种词、实体提及和实体的联合表示学习模型,学习实体提及不同语义的向量表示,实现了基于实体提及的无监督实体链接方法,取得了高精度的实体链接结果。
以此为次要技术研制实现的跨言语实体链接工具XLink已经使用于我们开发的跨言语学问图谱系统XLORE中,并供应中英文文本的实体链接服务。
另一项工作,是我们试验室唐杰掌管的从2006年就开头上线运转的科技大数据的挖掘和服务平台AMiner。
AMiner目标一是建立科技领域学问图谱,二是对争辩者进行画像,猎取争辩者爱好和争辩者信息,最终实现学问推举等智能服务。
Aminer在专家搜索方面利用专家结构化信息供应精细化的搜索服务。
例如输入“美国”、“数据挖掘”和“华裔女性”就能得到满足用户需求的结果。
Aminer还可以通过专家基本信息、争辩成果等进行专家画像,做争辩者争辩爱好的演化分析;
可以依据用户需求动态建立全球人才分布地图;
可以做会议影响力分析;
供应论文、争辩报告评审专家推举等。
AMiner还建立了100余个专家智库。
总结汇报内容。
首先,从数据、信息、学问到智能概念及关系看学问工程的在机器智能中重要性;
其次,学问图谱将互联网信息表达成更接近人类认知世界的形式,可以将互联网内容从符号转化为计算机可理解和计算的语义信息,可以更好地理解互联网内容;
然后,学问工程从大数据中挖掘学问,可以弥合大数据机器学习底层特征与人类认知的鸿沟;
最终,构建大数据环境下由数据向学问转化的学问引擎,是实现从互联网信息服务到学问服务新业态的核心技术。
人工智能赛博物理操作系统
AI-CPSOS
“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPSOS”:
云计算+大数据+物联网+区块链+人工智能)分支用来的今日,企业领导者必需了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPSOS构成数字化+智能化力气,实现行业的重新规划、企业的重新构建和自我的焕然重生。
AI-CPS
OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。
假如不能实现跨功能的更大规模融合,没有颠覆现状的志愿,这些将不行能实现。
领导者无法依靠某种单一战略方法来应对多维度的数字化变革。
面对新一代技术+商业操作系统AI-CPSOS颠覆性的数字化+智能化力气,领导者必需外行业、企业与个人这三个层面都保持领先地位:
1.重新行业规划:
你的世界观要怎样转变才算足够?
你必需对行业典范进行怎样的反思?
2.重新构建企业:
你的企业需要做出什么样的变化?
你预备如何重新定义你的公司?
3.重新打造本人:
你需要成为怎样的人?
要重塑本人并在数字化+智能化时代保有领先地位,你必需如何去做?
AI-CPSOS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以挂念企业将创新成果融入本身业务体系,实现各个前沿技术在云端的优势协同。
AI-CPSOS构成的数字化+智能化力气与行业、企业及个人三个层面的交叉,构成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:
1.精细:
这种力气能够使人在愈加真实、细致的层面观看与感知现实世界和数字化世界正在发生的一切,进而理解和愈加精细地进行产品共性化把握、微观业务场景大事和结果把握。
2.智能:
模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的力气。
3.高效:
企业需要建立实时或者准实时的数据采集传输、模型猜想和响应决策力气,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
4.不确定性:
数字化变更颠覆和转变了领导者已经仰仗的思维方式、结构和实践阅历,其结果就是构成了复合不确定性这种颠覆性力气。
次要的不确定性包含于三个领域:
技术、文化、制度。
5.边界模糊:
数字世界与现实世界的不断融合成CPS不只让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。
这种效应正在向生态系统、企业、客户、产品快速集中。
AI-CPSOS构成的数字化+智能化力气通过三个方式激发经济增长:
1.制造虚拟劳动力,担当需要顺应性和灵敏性的简约任务,即“智能自动化”,以区分于传统的自动化处理方案;
2.对现有劳动力和实物资产进行有利的补充和提升,提高资本效率;
3.人工智能的普及,将推动多行业的相关创新,开辟簇新的经济增长空间。
给决策制定者和商业领袖的建议:
1.超越自动化,开启新创新模式:
利器具有自主学习和自我把握力气的动态机器智能,为企业制造新商机;
2.迎接新一代信息技术,迎接人工智能:
无缝整合人类才智与机器智能,重新
评估将来的学问和技能类型;
3.制定道德规范:
切实为人工智能生态系统制定道德准绳,并在智能机器的开
发过程中确定愈加明晰的标准和最佳实践;
4.留意再支配效应:
对人工智能可能带来的冲击做好预备,制定战略挂念面临
较高失业风险的人群;
5.开发数字化+智能化企业所需新力气:
员工团队需要乐观把握推断、沟通及想象力和制造力等人类所特有的重要力气。
对于中国企业来说,制造兼具包涵性和多样性的文化也格外重要。
子曰:
“君子和而不同,小人同而不和。
”
《论语·
子路》云计算、大数据、物联网、区块链和人工智能,像君子一般融合,一起体现科技就是生产力。
假如说上一次哥伦布地理大发觉,拓展的是人类的物理空间。
那么这一次地理大发觉,拓展的就是人们的数字空间。
在数学空间,建立新的商业文明,从而发觉新的创富模式,为人类社会带来新的财宝空间。
云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!
新一代技术+商业的人工智能赛博物理操作系统AI-CPSOS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并制造新的强大引擎。
重构生产、支配、交换、消费等经济活动各环节,构成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。
引发经济结构严峻变革,深刻转变人类生产生活方式和思维模式,实现社会生产力的全体跃升。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 828 知识图谱大数据环境下知识工程的机遇和挑战 知识 图谱 数据 环境 知识工程 机遇 挑战