机器学习行业分析报告Word文件下载.docx
- 文档编号:18494025
- 上传时间:2022-12-17
- 格式:DOCX
- 页数:30
- 大小:5.18MB
机器学习行业分析报告Word文件下载.docx
《机器学习行业分析报告Word文件下载.docx》由会员分享,可在线阅读,更多相关《机器学习行业分析报告Word文件下载.docx(30页珍藏版)》请在冰豆网上搜索。
谷歌AlphaGo与李世石第一场对战棋局回顾
图表4:
2016年7月世界职业围棋GoRatings排名
力克职业玩家:
德州扑克成为人工智能挑战人类的新战场
在攻陷围棋之后,人工智能的触角开始伸向德州扑克。
2017年初,加拿大和捷克的几位科学家在《DeepStack:
无限注德扑的专业级人工智能玩家》的论文中介绍了DeepStack这种能在一对一无限注德扑中击败人类玩家的新算法,奠定了人工智能征战德扑的里程碑。
论文记录的人机对战中,DeepStack平均胜率达到了492mbb/g。
研究者邀请了来自17个国家的33名专业扑克选手挑战DeepStack,进行了44852次较量。
DeepStack成为了首个在一对一无限注德扑中战胜人类玩家的人工智能,并且平均胜率达到了492mbb/g一般人类玩家到50mbb/g就被认为拥有较大优势,750mbb/g就是对手每局都弃牌的赢率)。
图表5:
DeepStack与职业扑克选手较量结果(以AIVAT和所赢得的筹码进行衡量,单位mbb/g)
图表6:
HUNL(heads-upno-limit,一对一无限注)公共树的一部分
围棋被攻陷后,为何是德州扑克来承载人类应战的责任?
“人心不可测”的德州扑克是典型的不完整信息博弈游戏,也是人工智能面临的长期挑战。
围棋对弈,双方的棋子都尽显在一方棋盘中,也就是“完整信息博弈”,因此阿尔法狗的胜利,实质上就是揭开了围棋玄而又玄的神秘面纱,证实了围棋背后的计算本质。
然而,德州扑克则是“不完整信息博弈”,信息不完全透明,玩家只看得到自己手中的牌,无法得知对手的牌,并在博弈过程中包含了欺骗、推测。
简单来说,这是一个“人心不可测”的博弈。
由于德州扑克包含了更接近真实世界情况的欺骗、推测等非完美信息,这一特征对人工智能的算法和数据处理能力提出了更高的要求。
DeepStack力挫专业德扑选手的奥秘究竟如何?
人工智能已经读懂人心了吗?
德扑对战中你不仅要思考别人要做什么,思考自己做什么,甚至要思考别人会认为你做什么,进而推理出自己的下一步,这些尔虞我诈的战术更像是兵法。
DeepStack注重培养人工智能德扑对战出牌时的“直觉、牌感”。
在这篇论文中,多次出现一个词:
“直觉”,也就是我们常说的“牌感”。
DeepStack结合循环推理来处理信息不对称,使用分解将计算集中在相关的决策上,并且使用一种深度学习技术从单人游戏中自动学习以获取对扑克任意状态的直觉形式。
在运用深度学习,反复自我博弈之后,DeepStack学会了在每一个具体情境出现时进行推理。
这非常接近人类玩家的“牌感”,即在当前情境下对个人牌面大小的感觉,并作出相应的决策。
对战超过一定手牌数时,运气成分将被稀释,人工智能强大的记忆力优势将被突显。
不同于围棋、国际象棋等纯技术类游戏,德州扑克短期的对局中运气因素十分重要。
人类完全靠记忆记录对手逻辑思维顺序,还有打牌的模式套路,而人工智能会直接存档,把你每一手牌的牌和过程全部记录下来,客观上这一点人类就比较难做到。
所以在一个较长手牌数的对局中,人工智能将数据充分收集并快速分析后,人类完全难以与之抗衡。
下一场人机德扑大战,何时揭晓战果?
2017年1月11日,由卡内基梅隆大学开发的同样适用DeepStack算法的人工智能“Libratus”开始在无限制德州扑克比赛中同四个顶级德扑职业玩家展开挑战,赛程为期20天,总共将对战12万手牌,一旦最终战果揭晓,人工智能征战“人机对战”的历史将再添浓重一笔。
图表7:
卡内基梅隆大学Libratus的德州扑克人机对战现场
不论是AlphaGo在围棋界连奏凯歌还是Libratus向德州扑克领域全力进发,都展现了近年来人工智能,特别是机器学习领域的迅猛发展。
通过本文,我们将为您深度解读“机器学习”技术的前世今生。
机器学习:
人工智能的璀璨明珠
机器学习是人工智能的方法,深度学习是机器学习的分支
通俗而言,人工智能(ArtificialIntelligence)目的就是使机器具备部分(甚至是全部)人类的智能。
人工智能作为计算机科学的一个分支,是研究用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科。
美国麻省理工学院的温斯顿教授认为:
“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。
”人工智能的研究领域主要包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
机器学习是人工智能范畴下的一种重要方法,是实现人工智能的一种途径。
人工智能可以根据其智能的程度分为响应式机器、有限记忆机器,心智理论机器和自我意识机器四类。
前文提到的AlphaGo就可以归类为有限记忆机器,即机器可以根据过去有钱的经验来决定未来的步骤。
为了实现机器智能的提升,“机器学习”是不可或缺的方法。
根据英特尔机器学习主管尼迪·
查普尔(NidhiChappel)的观点,人工智能的根本在于如何为机器赋予智能。
而机器学习则是部署支持人工智能的计算方法。
通俗来说,机器学习是让机器实现智能的方法,是机器学习成就了人工智能。
机器学习是近期人工智能中发展最快的部分,因此全球为数众多的企业都在努力开发这项技术。
深度学习是指机器通过深度神经网络,模拟人脑进行学习、判断和决策,是机器学习的主要分支之一。
为了达到机器学习的目标,浅层学习和深度学习的方法被先后提出。
深度学习的概念源于人工神经网络的研究,它基于神经网络框架,通过模拟人脑学习的方式的来处理数据,通过神经网络的分层处理,将低层特征组合形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
AlphaGo的技术架构采用的是模仿人类大脑神经的模式,通过深度学习把人工神经网络的层级大大增加,提升了计算能力。
AlphaGo的胜利,让如今高速发展的深度学习益发成为人工智能领域的焦点。
总的说来,人工智能,机器学习和深度学习是层层细分的关系,后者是前者实现的一种途径。
图表8:
人工智能、机器学习、深度学习三者关系示意图
图表9:
深度学习原理简化示意图
七十年变迁:
机器学习的前世今生
奠定基础:
20世纪50年代初到60年代中叶
在这一阶段,研究者们提出的各种算法模型为机器学习奠定了理论基础。
Hebb于1949年基于神经心理学的学习机制提出了Hebb学习规则。
Hebb学习规则是一个无监督学习规则,这种学习的结果是使网络能够提取训练集的统计特性,从而把输入信息按照它们的相似性程度划分为若干类。
这一点与人类观察和认识世界的过程非常吻合,人类观察和认识世界在相当程度上就是在根据事物的统计特征进行分类。
之后,IBM科学家亚瑟·
塞缪尔开发了一个能够随着游戏程序运行时间的增加而提高行动准确性的跳棋程序。
通过这个程序,塞缪尔驳倒了普罗维登斯提出的机器无法超越人类,像人类一样写代码和学习的模式。
他创造了“机器学习”,并将它定义为“可以提供计算机能力而无需显式编程的研究
领域”。
此外,在算法方面,最小二乘法和最近领算法的提出大大增强了机器的数据处理能力。
图表10:
Hebb学习规则示意图
图表11:
最近邻算法示意图
停滞不前:
20世纪60年代中叶到70年代末
这一阶段,受限于当时有限的内存和处理速度,机器学习的发展步伐几乎处于停滞状态。
虽然这个时期温斯顿(Winston)的结构学习系统和海斯·
罗思(HayesRoth)等的基于逻辑的归纳学习系统取得较大的进展,但只能学习单一概念,而且未能投入实际应用。
此外,神经网络学习机因理论缺陷未能达到预期效果而转入低潮。
走向复兴:
20世纪70年代末到80年代中叶
从70年代末开始,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和各种学习方法。
这个时期,机器学习在大量的时间应用中回到人们的视线,又慢慢复苏。
在这个时期中,韦博斯提出神经网络反向传播算法和多层感知器的概念;
昆兰提出了与神经网络模型截然不同的决策树算法。
这些新的理论为机器学习的发展增加了更多的可能性。
逐步成形:
20世纪90年初到21世纪初
在这阶段,一些相对成熟的算法理论被提出。
研究者Schapire和Freund提出并完善了一种用来提高弱分类算法准确度的“Boosting”方法;
瓦普尼克和科尔特斯在大量论证和实证的条件下提出了支持向量理论。
此外,布雷曼博士进一步深化了决策树模型,提出了随机森林模型。
这个阶段,神经网络和支持向量机制在各个情景下存在各自的优势。
图表12:
决策树算法示意图
图表13:
随机森林模型示意图
蓬勃发展:
21世纪初至今
在这个时期,深度学习和支持向量机理论成为主流。
Hinton和Salakhutdinov提出的深度学习理论大大提高了神经网络的能力。
深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示。
这些方法在许多方面都带来了显著的改善,包括最先进的语音识别、视觉对象识别、对象检测和许多其它领域,例如药物发现和基因组学等。
深度学习能够发现大数据中的复杂结构,这也是AlphaGo能够在围棋领域产生重大影响的原因。
此外,互联网的普及,大数据和云计算的普遍运用也加速了机器学习的发展。
随着机器学习理论的不断演进和发展,人工智能领域也将产生持续的变革,引发人类生产能力和生产方式的改变。
高效性与普适性是机器学习崛起的核心优势
核心优势之一:
高效性
相对于传统的机器算法,让机器进行一个决策需要其创建者将已有或者已总结好的知识通过机器语言传输给机器。
但机器学习的算法能够通过过去相关事件的数据自己总结出相关模型,然后根据总结出的模型对新的事件进行判断,机器的使用者只需要提供过去发生的样本数据。
样品量越大,机器决策的正确性就越高。
这就大大提高了效率,因为机器能够24小时不间断运行去分析样本,而人类则不行。
核心优势之二:
普适性
如果用传统算法去解决一个问题,遇到不同的条件可能就需要对模型的代码进行调整,这使得改进的成本很高。
而机器学习只需要调整输入的样本数据就能让机器自己分析出新的模型从而进行运用,所需要的只是获得数据的成本和一定的时间成本。
这一特性也是的机器学习能够适用于各个能够获得大量数据的行业,而不是只针对某个特殊的方面。
大大增强了机器的普适性,继而降低了使用者的成本。
机器学习的主要应用概览
应用之一:
语音识别
机器学习技术可以应用于语音识别领域,iPhone的Siri和Windows语音助手Cortana都使用了机器学习的技术。
当用户使用语音识别软件时,机器需要根据已经构建的状态网络中寻找与客户声音最匹配的路径,而这个状态网络的构建就用到了机器学习的技术。
通过状态网络的构建,机器可以从一个用户的话语,确定用户提出的具体要求,甚至可以帮助程序自动填充用户需求。
机器对客户的声音样本收集的越多,机器对于客户就越人性化。
随着机器学习技术的不断发展,语音识别的错误率也在不断减少。
图表14:
机器学习在语音识别中的运用
图表15:
语音识别的错误率变化趋势
应用之二:
人脸识别
人脸识别技术是基于人的脸部特征,对输入的人脸图像或者视频流,根据具体的面貌特征信息进行判断。
人脸识别系统的研究始于20世纪60年代,而真正进入初级的应用阶段则在90年后期,以美国、德国和日本的技术实现为主。
采用深度学习的人脸识别系统,早期需要把现实的图像抽象成一系列数据进行学习并了解人脸的特征,在构建了一套最基本的人工智能学习算法后,再提供大量人脸及非人脸照片,包括同样的人脸在不同光线、表情、角度的照片,让计算机去适应辨别、学习。
人脸识别技术作为技术安全度较高的识别模式,目前在考勤、门禁、电视、安防等广泛的领域已有一定的行业及个人消费市场应用。
图表16:
人脸识别的面部训练数据提取示意图
图表17:
人脸识别的图像信息处理过程示意图
应用之三:
自动驾驶
在自动驾驶领域,各大厂商普遍运用了机器学习的算法来使自动驾驶汽车更加智能化。
在2017年的CES展会上,FCA的纯电动自动驾驶概念车ChryslerPortal、本田的NeuV、福特的第二代Fusion混动自动驾驶试车、现代的Ioniq、法拉第未来的首款量产电动车等几乎都采用了机器学习特别是深度学习的技术。
运用了机器学习算法的自动驾驶汽车会根据用户的打分回馈去不断修正自己的行为模式,从而逐渐满足客户的要求。
例如,当特斯拉自动驾驶汽车用户行驶在右车道,靠近高速公路出口坡道时,车子会倾向于直接开往出口,因此用户必须快速将主控权拉回来(修正路径),直到车子离开出口坡道。
但随着经验的累计,车子也慢慢降低了每当车子靠近出口坡道时,直接开往出口的倾向,直至无需手动修复。
这表现出了机器学习的高度可塑造性。
图表18:
2017年CES展上的自动驾驶汽车
图表19:
自动驾驶的机器学习网络训练回路
应用之四:
医疗诊断
基于机器学习的大数据分析能力,机器学习可以应用于医疗健康领域。
机器学习系统可以根据病人的症状和一个匿名的病人资料数据库,预测该病人可能患了什么病。
这样的决策模型,可以程序为专业医疗人士提供支持。
IBM在2016年开始致力于将其认知计算机器人与健康医疗相结合。
2016年8月12日,WatsonHealth正式进入中国市场开始其“认知医疗”系统的推行。
此外,东京大学医学研究院利用Watson在10分钟内判断出一位女性患有罕见的白血病。
这些进展预示着机器学习在健康医疗领域有着广阔的前景。
图表20:
IBMWatson系统的发展历程
机器学习的技术路径解析
机器学习的方式类似于人脑的思考过程
机器学习从本质上来说是一种学习结构,整个结构包括环境、知识库和执行三个部分。
在整个过程中,环境向系统提供信息,系统利用这些信息修改知识库,以增进系统执行部分完成任务的效能,执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分,从而继续改进知识库。
在具体的应用中,环境、知识和执行部分决定了具体的工作内容,学习部分所需要解决的问题完全由上述三部分确定。
简单来说,机器学习就是计算机利用已有的数据,得出了某种模型,并利用此模型预测未来的一种方法,这与人脑的思考方式非常类似。
图表21:
机器学习与人脑思考的过程比较
机器学习的关键技术支持
机器学习的发展与人工智能的整体发展类似,主要取决于硬件和软件两个方面。
硬件方面:
大容量存储和强大GPU是技术关键
因为机器学习需要大量的数据作为支撑,因此大容量的存储是机器学习发展的基础。
从机器学习的发展历史来看,在20世纪60年到70年代,机器学习的发展几乎停滞,这在一定程度上是因为当时的计算机有限的内存和处理速度不足以解决任何实际的问题。
例如,当时的计算机有限的内存和处理速度不足以解决任何实际的AI问题,科学家RossQuillian在自然语言方面的研究结果只能用一个含二十个单词的词汇表进行演示,因为该时代下的内存最多只能容纳这么多。
现阶段主流机器学习方法都依赖于GPU来进行计算和训练。
随着计算机处理速度和存储能力的不断提升,机器学习得以继续发展,GPU(图形处理器)与CPU类似,只不过GPU是专为执行复杂的数学和几何计算而设计的。
以深度学习为例,深度学习中一类成功应用的技术叫做卷积神经网络CNN,这种网络在数学上就是许多卷积运算和矩阵运算的组合,而卷积运算通过一定的数学手段也可以通过矩阵运算完成。
GPU最擅长的是图形点的矩阵运算,因此深度学习能够非常恰当地运用GPU进行加速。
图表22:
CPU和GPU的逻辑架构对比
软件方面:
算法与数据源至关重要
算法是机器计算的核心,在机器学习的发展史中出现了各种不同方向的算法。
其中使用最多、影响最广、最典型的算法主要包括六种:
回归算法、神经网络算法、SVM、聚类算法、降维算法、推荐算法。
随着深度学习算法的提出,神经网络算法成为了近期的热点,AlphaGo和众多自动驾驶平台都采用了此种算法。
图表23:
机器学习的主要算法一览
数据源是机器学习准确性的保障。
机器学习需要根据大量的数据进行自我学习和反馈从而不断提高决策的准确性。
以AlphoGo为例,在围棋比赛中存在指数级别的可能性,而AlphoGo为了能打败围棋顶尖高手需要“学习”几乎涵盖所有可能性的棋谱。
只有能搜集到这些高质量高数量的棋谱,AlphoGo才能对围棋高手的下一步进行预测从而提高自己获胜的可能性。
图表24:
机器学习系统眼中的围棋
技术局限性:
数据源限制、计算时间限制、硬件水平限制
近年来,机器学习在深度学习方法的带领下取得了很大的进步,但因为内部和外部的影响,机器学习尚存在一定的局限性。
数据源限制
机器学习系统对于作为机器学习的基础的原始数据样本的数量和质量都有着较高的要求。
对于一个具体的事件,开发者需要收集这个事件进行的大量可靠的历史数据。
但并不是所有事件都能收集到所要求的数据。
特别是在工业领域,一些尖端工艺并不存在相对应的历史数据,这就对机器学习系统的普及产生了影响。
计算时间限制
机器学习系统在投入使用之前需要大量的数据样本进行模型分析,这些分析是通过计算机来进行的。
而现阶段的计算机处理速度只能说是基本能满足机器学习的要求。
AlphaGo在2015年12月正式发布,经过了将近一年的时间的训练才能稳定战胜对手。
这个时间对于机器学习的大规模商业化推广来说仍然是一笔非常高昂的成本。
硬件水平限制
现阶段计算机的处理速度能基本满足机器学习中的逻辑回归算法,而SVM等算法则因为计算规模的问题很少被使用。
随着算法的不断更新,机器学习对于计算机的要求会越来越高,然而计算机硬件水平提升的速度并不能跟上算法的突飞猛进。
因此,计算机的硬件水平也是机器学习的一大限制因素。
机器学习的明天:
平台化、云端化、算法商用化
机器学习在经过近些年的迅速发展之后,其有效性已经被无数成功应用所验证,但在机器学习的常用算法的发展已经接近饱和。
例如在模型方面,经过实践检验过的模型基本还是LR和GBDT,以及这两者的一些变种和结合,例如FM、LR+GBDT等等,再如特征处理方面常用的包括离散化、归一化、平滑等等,相当长时间已经趋于固定。
学术界对这些方面的进一步改进,从效果上来说就像在从95分到98分,对整个工业界应用来讲不是目前最重要的。
因此可以推断,未来机器学习的发展,将由算法创新转向使用方法的创新。
趋势之一:
平台化
机器学习的平台化是一个存在价值的方向。
平台化是指把机器学习系统做成一个更加通用的平台,让各种业务都能够方便的接入这个平台,从而做到机器学习的普及化。
XX,Google和微软等公司都已经开始了机器学习平台的试点。
趋势之二:
云端化
根据摩尔定律,每过两年世界上的数据量就会翻倍,同时用于存储这些数据的成本也会下降。
当开发者拥有更多的数据,而存储数据的成本也下降之后,机器学习就可以向云端迁移。
在云上,可扩展的网络服务是可以随叫随用的API。
数据科学家不再需要管理基础设施或实现自定义代码,系统将为他们实现这些功能,实时产生新的模型,并提供更快、更准确的结果。
云端化和平台化都将会大大增加机器学习系统的普及速度。
趋势之三:
算法商业化
算法和数据是机器学习的基石。
随着互联网的不断发展,数据的获得成本将会越来越低,这就使得算法成为未来机器学习市场的核心,人们将会通过产品使用的算法来评价它的性能好坏。
企业的竞争力也不仅仅在于大数据,还要有能够把数据转换为实际应用的算法。
因此,CEO应该关注公司有产权的算法,而不仅仅是大数据。
2016年5月,英特尔收购了一家核心技术为“驾驶员高级助理系统”的视觉算法的公司。
差不多在同一时间,ARM以3.5亿美元收购了英国计算视觉公司Apical,而Aprical正拥有多项计算视觉IP算法模块。
这些巨头的布局都预示着着算法商业化的潜在价值。
机器学习产业蓬勃发展,全球多领域巨头争相布局
机器学习公司数量稳居人工智能之首,2020年机器学习应用市场或达400亿美元人工智能产业是智能产业发展的核心,是其他智能科技产品发展的基础,近年来,国内外的高科技公司以及风险投资机构纷纷布局人工智能产业链。
根据VentureScanner公司统计,截至2016年上半年,全球共有约1000家人工智能公司,其中美国公司约占一半。
统计中VentureScanner公司将人工智能公司分为13个细分行业,其中机器学习(应用)分类公司达260家,位居所有分类之首,机器学习(通用)分类公司达123家,所有机器学习相关公司合计383家,约占人工智能领域公司的40%。
根据VentureScanner公司统计,2014年全球人工智能领域投资额为10亿美元,同比增长近50%;
2015年全球人工智能领域共获得约12亿美元的投资;
该公司预测2020年全球人工智能市场规模有望超过1000亿美元。
根据市场研究公司IDC的预测,到2020年机器学习应用市场将达到400亿美元,其中将约有60%的应用运行在亚马逊、谷歌、IBM和微软四家公司的平台上。
在未来10年甚至更久的时间里,人工智能将是众多智能产业技术和应用发展中的投资热点。
图表25:
2016年上半年全球人工智能领域各类别公司数量
图表26:
全球人工智能行业年度总投资额(单位:
十亿美元)
全球多领域巨头争相布局机器学习,并购扩张加速产业崛起
在全球人工智能领域中,虽然多数企业属于初创企业,但仍有一批关键势力依托自身技术、资
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 行业 分析 报告