人工智能讲解.docx
- 文档编号:1112101
- 上传时间:2022-10-17
- 格式:DOCX
- 页数:5
- 大小:23.89KB
人工智能讲解.docx
《人工智能讲解.docx》由会员分享,可在线阅读,更多相关《人工智能讲解.docx(5页珍藏版)》请在冰豆网上搜索。
人工智能讲解
人工智能讲解
胡郁:
非常高兴今天有机会在这里和大家分享。
上午的演讲环节科大讯飞的董事长刘庆峰博士已经和大家展示了科大讯飞在人工智能领域的很多最新成果和进展,但是我想大家一定非常有兴趣知道科大讯飞在取得这些成果的背后我们的技术到底是怎么演变的。
上午的论坛当中微软的邓力研究员也提到了在过去的五年当中科大讯飞作为国内一家深度技术创新的企业,在国内率先开展了深度神经网络的研究工作,并且取得一系列的成果。
今天下午我会给大家在这里详细揭示我们在深度神经网络,在智能语音和认知智能方面所进行一系列的工作和最新成果。
今天演讲的题目是从“能听会说”到“能理解会思考”——以语音和语言为入口的认知革命。
人工智能是什么,什么时候取得突破,以什么方式取得突破,以及现在人工智能发展到什么阶段,那些方面人工智能比人强,那些方面比不过人类。
在过去的两年当中,2015年到2016年,学术界、产业界和大众的认知都进行越来越细化的描述,今天上午王飞跃老师的报告其实非常深刻地给大家上了一堂什么是真正的学术领域的人工智能,从王飞跃老师的报告可以看到,人工智能不仅仅是现在非常HOT的自动驾驶汽车、图像识别、语音识别,其实是一个非常严肃的理论、数学、哲学、认知科学的综合。
今天上午提到的很多著名的科学家并不是仅仅从应用的角度来认识人工智能,更是从科学理论的角度来分析为什么智能会产生,而人工智能的模式到底是什么样的。
今天我们已经把人工智能简化到深度神经网络,简化到人脸识别、图像识别以及一个个能在我们身边蹦跶的机器人身上。
为什么当年提出ArtificialIntelligence,他们可以成为图灵奖得主、信息论创始人和诺贝尔得主,他们从最基础的领域诠释了对未来人工智能的憧憬,也为人工智能今天可以在各种产品上进行应用提供了开创性的理论基础。
历史总在往前进,过去的60年可以看到这些卓越的学者他们已经逐渐逝去了,但我们在他们研究的基础上开始正式迎来人工智能蓬勃发展大的趋势。
在过去的几次浪潮中可以看到,因为个人计算机、互联网的不断发展,因为大数据及计算能力的不断增强,人工智能现在已经看到了第三次浪潮的机会。
我们可以看到将来我们人类的每一项工作都能够被分解出来,都可以逐步被我们日益不断进展的人工智能所替代。
德勤咨询发表过一个报告,把人类每一项工作都分解成对应的技能,对每项技能列出百分比,表示有多少工作可能被人工智能所代替。
而现在每天都可以看到这样的进展,我们所关心的是我们的生活到底哪天被人工智能彻底改变。
很多科学家指出我们现在的整个技术爆炸就像当年宇宙的奇点爆炸一样,一旦突破了这个点以后有可能是一个史无前例的彻底的改变。
昨天在闭门会议上我提到《人类简史》的作者在《未来简史》里面提到如果将来人工智能达到一定的程度,就会像现在日常生活所用的水、电、煤气、互联网一样成为日常生活中的必需品。
人工智能为什么重要?
上午的报告当中提到人类的突破是因为我们对语言的精确的掌握,我们掌握了语言后才能能够更好描述世界,描述人和人之间的关系,才可以描述虚拟的东西。
语言和语音相对应,这些在人工智能里面非常重要,过去两年当中越来越多人接触运算智能、感知智能和认知智能。
在这几项智能中,从实现方法上来讲也有不同的路径。
有些人相信随着神经科学、脑科学的发展,我们可以把大脑里面的整个拓扑结构和思考的规律完全掌握,甚至可以用计算机、量子计算机来模拟这个过程,我们把这种叫做脑科学与人工智能的结合。
那么在另外一方面,现在互联网和将来到来的物联网将给我们带来大量的大数据,利用大数据和现有的神经网络可以做出大数据人工智能,甚至有人觉得大数据人工智能比人要更加超过人类,同时处理的数据维度和数据的量是人脑所不能负载的。
这两种思路在我看来应该说对脑进行进一步的研究,可能是将来20年或30年以后能够对我们人工智能本质和实现强人工智能必由的道路,但是在最近的五到十年里面,我相信还是主要的还是基于大数据的人工智能,是能让我们获得工业上应用红利的一个主要方向。
关于脑科学和人工智能的讨论,很多人有不同的想法,刚才提到的《未来简史》,虽然作者没有完全这样表达,但我们可以看出他的观点是将来的人工智能不一定拥有自我意识。
这一点上我们俩意见是一样的。
人类想学会飞行,一开始学习鸟类,但是我们发现没办法像鸟一样装上羽毛就可以飞翔,后来人类发明了空气动力学。
现在对脑科学的认识和研究是不是要模仿整个脑的智能,包括它的自我意识,不一定。
也许我们在这里面能发现智能动力学,利用这些智能动力学就能够研究出来既非常聪明又不一定拥有自我意识的这种人工智能,这种人工智能才能真正成为我们的工具,才是提升我们生活必要的手段。
我们在产业上获得了这么多的进步,如果总结出以前的经验,我们在人工智能方面的经验主要是什么?
归根到底,不管用什么样的词语来描述,主要有三大因素。
第一是深度神经网络。
今天邓力老师作为深度神经网络在工程应用上的创始人之一,已经非常详细阐述了整个神经网络的发展。
第二,大数据。
很多人对大数据的了解只是认为它的规模比较大,但真正有价值的是它是实际的数据,只有在实际应用中应用这些数据对我们才有用,因为这些实际数据和真正应用中的数据概率分布是相同的。
这在我们的整个机器学习理论里面有一个非常重要的理论,你的训练数据概率的分布必须和你在实际使用中测试的数据概率分布是同样的。
第三,利用互联网和移动互联网的快速迭代。
小步快跑的产品优化的方式可以快速优化我们的人工智能系统,也就是这里提的研究工程产品用户的大规模优化体系也可以叫做涟漪效应。
很多人觉得这是比较难的事情,人工智能一开始的效果不是很好,不好的效果怎么被大家所接受?
事实证明,我们这个世界上总有一些发烧友和爱好者,他们会去使用一些不完善的技术,但是人工智能系统最大的挑战是当少量人使用你技术的时候,你的系统能不能快速进行提升,就像一个水滴滴到水面中,他会形成很多的水波纹,这个水面就像人群,当一个水滴刚滴下去的时候,大家可以看到它的振动很大。
这时候虽然系统的误差比较大,但是当这个水滴扩散出去扩散的越多,覆盖的人群越多,搜集到的数据越多,系统学习以后它的性能就提升了。
我们可以看到水波纹的振幅下降,意味着它的错误减低了,当水波纹没有扩散到整个水面,也就是全部人群的时候,可能这个系统已经优化到足以让一个人觉得它非常非常聪明的时候,这样利用一小部分人的参与数据和经验,我们最后就能得到一个近乎完美的人工智能系统。
利用这样的在工业界中的经验和过去我们在人工智能技术方面的积累,科大讯飞在2014年科大讯飞的发布会上我们正式提出来讯飞超脑计划,并且提出了讯飞超脑就是要瞄准刚才说的运算智能、感知智能和认知智能当中最难的部分——认知智能的突破。
如何实现突破?
大家知道我们的大脑完全是生物界里面的杰作,借鉴脑科学方面的一些最新的理论和进展。
相比其它哺乳动物,人类是最优秀的。
如果我们把大脑皮层展开,它大概有一个大的餐布那么大,根据感知认知不同的作用,可以把这个大的餐布划成几块,有一部分专门处理视觉的,处理视觉的部分明显比其它地方大,因为大量的信息从视觉过来的,还有处理听觉的,还有处理触觉的部分,感知部分的大脑皮层的处理抽象成概念之后都会会聚到一个专门处理概念和语言的层面。
给大家举一个例子,当我们看到一个猫的图像,听到猫的声音或者是摸到猫身上的毛的话,大脑皮层的语言上会出现猫的概念,我们可以相互在不同的视觉和听觉之间进行切换,看到猫的图像就会联想到它的叫声应该是什么样的。
利用这样的框架结构,我们希望讯飞超脑应该包括两个层面的组织。
感知层面上我们有NeuralViewingMachine,再上升到概念层面,在概念层面会进行最重要的关于知识的表达、概念的推理和最后的做决策,在做完这些决策以后还要把信息返回到感知层面。
利用这样的结构,结合在过去的五到六年当中我们在深度神经网络方面做出的不懈努力,在2010年科大讯飞在国内首次将深度神经网络用于语音识别,而且我们是国际上第一个把深度神经网络的算法用于语音识别引擎的公司。
在随后的几年当中我们将深度神经网络拓展到语音合成,拓展到自然语言理解、语言评测、图像识别等各个方面。
应该讲经过这么多年的发展,我们的深度神经网络不仅仅可以用工具来训练各种各样的模型,而且我们可以非常灵巧地去改变深度神经网络的各种架构。
大家都知道,深度神经网络只是一种概念,具体里面的网络设计、网络拓扑结构、网络权重、网络训练方法、网络迭代参数的优化方法都是要自己进行优化学习的。
大家都在相互看什么样的结构是最好的。
我大家讲两个实际的例子。
DNN给语音识别带来非常显著的提升,很有意思的事情是现在做语音识别最新的技术是用图像处理的方法做语音识别,很多人觉得很奇怪。
图像处理的方法怎么处理语音识别?
语音在我们的耳蜗里面进行传播的时候它其实会被不同长度的纤毛进行滤波,对耳神经产生不同震动频率,发出各种各样的信号,这些信号变成一个频率上的语谱。
虽然我们的卷积神经网络用于图像识别,但最新结果表明如果用于语音识别会取得非常好的效果。
利用最新的图像识别的方法做语音识别能达到什么样的效果?
相对于最好的,前段时间风头最热的在去年发布会上有提到过的递归性神经网络、卷积神经网络可以取得40%以上的效果提升。
最近微软研究院的余东研究员写过一篇文章,当前最新的包括IBM、微软、谷歌和讯飞同时将卷积神经网络用于语音识别,可以说语音识别进入读图时代。
更加重要的是,认知智能是待突破的点。
在认知智能里面比较大的挑战是语音理解、知识表示、联想推理和自主学习,这中间涉及到非常详细的框架。
首先我们要知道如何对知识进行表述,我们在表述的基础上再进行各种复杂的推理。
在知识表述方面需要从词语、语句和篇章层面分别进行。
而现在的这种表示方法是用一种将词和词之间用连续的分布变量来进行描述的,用这种方法以后可以轻松将我们的各种大学名称比如清华、北大、科大和古代朝代的名称唐朝、宋朝、元朝聚合到一起,为什么能做到这一点?
这是因为这些词语在他们篇章中在他们的语境中使用的外部环境是类似的,比如出现唐朝的地方可能都会出现相关的类似的词语。
利用这些高维的表示信息已经可以在连续的概率空间上表示词语和词语之间的距离,这样就像度量地图上两个点的距离一样,我们可以描述两个词语之间的远近程度,不是在二维平面而是高维平面上,这种技术叫做Wordembedding,可以把词语进行更好的卷积和折叠,可以看到词分布的情况。
这是词语的分布空间做出来的图,大家可以看到在概念上比较接近的词语,在物理空间上,映射到二维空间也比较接近。
利用这个东西可以做什么?
我们可以把这种分布和神经网络结合到一起,这里和大家介绍一个新的网络神经的架构设计,人在看事物的时候会有不同的关注度,比如看海边的灯塔,大家的注意力主要放在灯塔上。
右边的图是描述一个司机在开车的时候所看到的图景。
研究人员说上面这张图是男司机开车时看到的图像,下面是女司机开车时看到的图像,这也解释了为什么女司机开车容易出问题。
这些技术能不能被我们利用?
当然可以。
Attention神经网络的架构,可以自动根据输入和输出匹配之间的不同顺序之间的关系。
例如机器翻译,不同语言之间词语的顺序是不一样的,中文和英文的“我是谁”,“WHOAMI”,语序是颠倒的,神经网络自动将“I”和“我”的权重对应起来,“WHO”和“谁”对应起来,利用这种神经网络可以找到同样的概念单元在语境中的联系。
利用这样的方法,谷歌最近发表了一篇文章,说翻译取得了革命性的成果,其实就是用基于Attention的神经网络直接从一个语言到另外一个语言建立影射关系,当训练数据足够多的时候,相比传统的统计识别的方法识别率提高,进一步将它和语音识别整合到一起,构筑了世界上最先进的语言翻译系统。
作文是非常复杂的事,对一篇作文评分不仅要给出多少分数,还得给出给这个分数的理由,还要给出评语。
一开始很多老师不相信这一点,因为机器是不可能理解一个文章的内容,但是用机器学习的方法我们是可以找到一种映射关系,从过去的很多已经打过分的作文当中找到这种映射,从而让机器
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 讲解