人工智能行业算法及应用分析报告.docx
- 文档编号:24922834
- 上传时间:2023-06-02
- 格式:DOCX
- 页数:20
- 大小:1.19MB
人工智能行业算法及应用分析报告.docx
《人工智能行业算法及应用分析报告.docx》由会员分享,可在线阅读,更多相关《人工智能行业算法及应用分析报告.docx(20页珍藏版)》请在冰豆网上搜索。
人工智能行业算法及应用分析报告
(此文档为word格式,可任意修改编辑!
)
2017年10月
正文目录
1.人工智能概念4
2.人工智能发展历史4
2.1.形成阶段(1956-1961)4
2.2.黄金时代(1961-1973)5
2.3.第一次发展低谷及复苏(1973-1987)7
2.4.第二次发展低谷(1987-1993)9
2.5.现代人工智能(1993-至今)10
3.人工智能算法11
3.1.感知器12
3.2.聚类算法14
3.3.决策树15
3.4.支持向量机16
3.5.卷积神经网络18
4.在金融领域的应用19
5.总结21
图表目录
图1:
1950-1973年人工智能主要研究成果6
图2:
1973-1987年人工智能主要研究成果8
图3:
1987-1993年人工智能主要研究成果9
图4:
1993年-至今人工智能主要研究成果10
图5:
机器学习模式识别流程12
图6:
感知器结构13
图7:
感知器分类14
图8:
k-means算法描述15
图9:
一维空间分类17
图10:
二维空间分类17
图11:
卷积神经网络LeNet-5结构图18
图12:
智能投顾运行模式20
1.人工智能概念
什么是人工智能?
按照李开复博士的解释,人工智能指的是获取某一领域的海量信息,并利用这些信息对具体案例做出判断,达成特定目标的一种技术。
举个例子,比如说互联网贷款,计算机通过海量的贷款记录训练模型,对能否对某一用户进行贷款这一事件做出判断,想达到的目标就是放贷人利益最大化。
早期人工智能的研究是基于一个很基本的假设,就是人的思维活动可以用机械的方式进行表达。
在上世纪五十年代,有人断言只需要经过一代人努力,就可以创造出与人类同等智力水平的计算机机器,然而直到20世纪70年代,人工智能技术才开始扩展到各个研究领域,包括数学定理证明、机器翻译、机器人技术等。
近年来,随着深度学习的发展和计算机硬件技术的提高,人工智能又进入新的发展高潮。
耳熟能详的例子就是AlphaGo战胜李世石,之后又有Master以60连胜的记录横扫中日韩的围棋高手。
2017年5月份AlphaGo又3比0战胜了柯洁。
2017年7月20日国务院正式印发了《新一代人工智能发展规划》,明确指出到2030年之前我国人工智能核心产业规模或超1万亿元。
这是人工智能首次上升到国家战略高度。
可以想象,人类在经历了PC时代,网络时代,智能手机时代之后,必将进入人工智能时代。
2.人工智能发展历史
我们认为人工智能发展至今,可以分为5个阶段,分别是人工智能的形成阶段,发展的黄金阶段,第一次发展低谷及复苏、第二次发展低谷,以及目前由深度学习引领的第五个发展阶段——现代人工智能。
2.1.形成阶段(1956-1961)
人工智能(ArtificialIntelligence,AI)的形成阶段,是从1956年到1961年。
人工智能概念的正式确立是在1956年达特茅斯学院的一次学术会议上,参会人员希望将人工智能作为一门独立科学,确立其任务和发展路径。
与会者们宣称,人工智能的特征都可以被精准逻辑运算描述,精准描述后就可以用机器来模拟和实现。
会议相关的摩尔(TrenchardMore)、麦卡锡(JohnMcCarthy)、明斯基(MarvinMinsky)、塞弗里奇(OliverSelfridge)、所罗门诺夫(Solomonoff)作为AI领域的开创者,日后数十年间成为了AI领域研究的领军人物,此次会议第一次正式使用人工智能这一术语,其中参会的两人塞弗里奇(OliverSelfridge)和纽厄尔(AllenNewell),塞弗里奇发表了一篇模式识别的文章,而纽厄尔探讨计算机模拟人类下棋,他们分别代表两派观点。
讨论会的主持人,神经网络鼻祖之一的皮茨(Pitts)最后总结时说:
“(一派人)企图模拟神经系统,而纽厄尔则企图模拟心智(Mind)……但殊途同归。
”皮茨预示了人工智能随后几十年按照符号计算和神经网络的两个路径发展。
2.2.黄金时代(1961-1973)
在达特茅斯会议之后的数十年间,人工智能迎来了高速发展,计算机解决了一些数学证明以及学习使用英语等问题,AI的快速发展使得研究人员乐观情绪高涨,认为具备人类思考能力的机器在不久的将来就会出现,与此同时,国防机构也对AI充满浓厚兴趣,对这一领域投入大量资金,希望获得军事上的领先。
在这一时期研究成果呈井喷态势涌现。
1956年IBM小组设计了一个具有自学习、自组织、自适应能力的西洋跳棋程序,这个程序可以像一个优秀棋手那样,向前看几步来下棋,它还能学习棋谱,在分析大约175000幅不同棋局后,可进行棋局走步预测,准确度达48%。
这是机器模拟人类学习过程卓有成就的探索。
1959年这个程序曾战胜设计者本人,1962年还击败了美国一个州的跳棋大师。
1957年纽厄尔和赫伯特·西蒙等人的心理学小组编制出一个称为逻辑理论机LT(TheLogicTheoryMachine)的数学定理证明程序,这是世界上第一个人工智能程序,有能力证明罗素和怀特海《数学原理》第二章中的38个定理。
1958年在MIT小组的麦卡锡(Mccarthy)建立的行动计划咨询系统以及1960年明斯基(Minsky)的论文“走向人工智能的步骤”,对人工智能的发展都起了积极的推动作用。
1959年麦卡锡发明的函数式处理语言LISP,成为人工智能程序设计的主要语言,长期垄断人工智能领域的应用开发,至今仍被广泛采用。
1961年,第一台工业机器人开始在新泽西州通用汽车工厂的生产线上工作。
介于以上卓越的成果和人工智能整个领域的快速发展,1965年,赫伯特·西蒙(HerbertSimon)预测20年内计算机将能够取代人类智力。
同年诞生了历史上第一个专家系统,费根鲍姆(EdwardFeigenbaum)、布鲁斯.布坎南(BruceG.Buchanan)、莱德伯格(JoshuaLederberg)和卡尔·杰拉西(CarlDjerassi)在斯坦福大学研究的DENDRAL系统,使有机化学的决策过程和问题解决自动化。
而后,机器人也开始出现,日本早稻田大学在1970年造出第一个人形状机器人WABOT-1。
这些早期成果,充分表明人工智能作为一门新兴学科正在茁壮成长。
1950-1973年人工智能发展早期和黄金阶段主要研究工作成果如表1所示。
图1:
1950-1973年人工智能主要研究成果
2.3.第一次发展低谷及复苏(1973-1987)
第一次低谷是发生在1974年到1980年。
第一次低谷的到来有必然的原因,其实在黄金十年期间人工智能的理论基础和技术发展并没有获得实质性突破,人工智能技术经历了从1956年开始的将近20年的高速发展之后,终于遇到了自己的瓶颈,于1974年迎来了第一次低谷期。
第一次的低谷期当中,有两个比较重要的事件。
第一个是,由于早期研究者对人工智能发展前景过于乐观的态度,美国高等研究计划署对麻省理工、卡内基梅隆大学这些高校的人工智能项目投入了大笔资金,但到后期逐渐发现无法实现之前的研发目标,严重打击投资者和研究者的情绪,也使研发经费被削减。
第二个方面,学术界发现早期设计的逻辑器、感知器都只能做简单而且专业面很窄的任务,一旦遇到复杂环境就无法应对。
人工智能领域先驱明斯基在《感知器》一书中指出,人工智能在数学基础上存在漏洞,神经网络不存在有效的学习方法,这种的悲观论调和政府支持资金的缩减最终使得人工智能的发展进入低谷。
我们认为,人工智能在第三个阶段陷入低谷主要还是因为整个学科理论基础和技术实现都存在很大短板,遭遇危机是必然的,可以分三个方面来解释。
第一,随着程序计算复杂性上升,计算机性能满足不了学者提出的研究需求。
第二,没有大容量数据库支持,研究面临数据缺失的困境,无法找到足够数据量支撑机器学习算法的训练。
第三,就像明斯基所说,作为人工智能基础的数学理论还不够完善。
上述三个原因都从另一方面反映了人工智能的发展,不仅是本身学科的发展,也需要依赖于其他领域的同步发展,比如计算机硬件、基础数学和数据科学。
然而这一次的低谷仅仅持续了不到七年时间便迎来了又一个七年的复苏。
推动此次复苏的标志性事件有两个,一个是80年代初的专家系统,另外一个是第五代计算机的研究热潮。
1980年卡耐基梅隆大学为DEC公司制造了一个专家系统,这个系统每年为公司节省4000万美元的开销,取得了巨大成功。
此后很多公司和高校纷纷效仿,很大程度上为人工智能的发展争取了大量经费。
专家系统的成功也重燃了整个社会对人工智能发展的信心。
另一个事件,1981年日本“新一代计算机技术研究所”提出研发具有人工智能的第五代计算机,总投资预算达到8.5亿美元,并且组织富士通、夏普等著名企业配合,很多其他国家也启动类似计划,投入大量资金进入人工智能领域,用于开发第五代计算机,当时称为“人工智能计算机”。
1973-1987年人工智能领域的主要研究成果如表2所示。
图2:
1973-1987年人工智能主要研究成果
总的来看,我们认为这阶段人工智能的复苏,主要得益于政府对专家系统和第五代计算机研发的巨额资金支持,人工智能在基础理论和技术创新上并没有取得特别大的进步,这也为接下来人工智能热潮的衰退埋下隐患。
2.4.第二次发展低谷(1987-1993)
七年的短暂复苏之后,1987年人工智能的发展陷入第二次低谷。
主要原因有两个,一是个人计算机的出现冲击了专家系统,二是“人工智能计算机”研发的失败。
当时苹果、IBM开发的第一代个人计算机开始走向社会,价格低廉,迅速挤占了专家系统的市场,导致专家系统的需求急剧下滑。
第二个是,被寄予厚望的第五代计算机“人工智能计算机”,在人机交互的关键技术没能实现突破。
导致政府对于人工智能支持经费又进一步削减。
在削减了大量经费之后,人工智能研究在此期间一度进入停滞期。
我们认为,第四阶段,也就是人工智能的第二次发展低谷,表面上看是专家系统失去市场和第五代计算机的研发失败,但是实际上结合人工智能发展的轨迹和当时社会环境来看,我们认为原因实质上不仅仅这样,其实是有两个更深层的原因。
首先,人工智能学科研究过于单一,尤其前期符号计算垄断了整个学科,没有其他研究方向来分担风险;其次,人工智能的研究资金大部分是来自于政府机构,没有在社会上形成健全的产业链,一旦政府研究热点发生转移,就会出现经费不足的情况。
图3:
1987-1993年人工智能主要研究成果
2.5.现代人工智能(1993-至今)
从1993年开始,数学工具不断完善,计算机性能由于摩尔定理的作用得到了大幅提高,很多学术界想法得以实现。
与此同时,人工智能的任务也开始明确和简化,就是要做具有实用性的人工智能,这使人工智能重新走向繁荣。
在这段时间人工智能发展也是不断自我革新,先后经历了知识管理、统计学习、机器学习,到现在的深度学习等四个不同的阶段。
这一时期人工智能领域的创新性成果层出不穷,理论和应用层面均取得很大进展,包括大型图像数据库ImageNet的建立,以及谷歌和高校合作推出的多层神经网络。
具体研究成果如表4所示。
图4:
1993年-至今人工智能主要研究成果
今天,我们重新回顾人工智能的发展历史,不难发现,人工智能发展的动力主要来自于两个方面,一个是学科的内部动力,另一个是社会目标驱动的外部动力,而社会对人工智能的期望能够带来比内部更为强大的发展驱动。
大家可能会问,这次发展热潮会不会像历史一样出现第三次消退呢?
我们认为不会,主要有两个原因。
第一个是,人工智能不再局限在学院派里,工业界正试图打造人工智能完整的产业链,学科本身具备了自身造血功能。
当前人工智能的发展正从过去的学术牵引转化为工业牵引。
例如IBM围绕沃森打造人工智能生态系统;谷歌斥资4亿美元收购DeepMind,DeepMind的代表成果就是阿尔法狗;苹果和XX布局无人驾驶等。
这些科技巨头投入大量的人力财力,很大程度上保证了人工智能能够持续发展下去。
这和传统的人工智能要靠政府经费支持相比,有了很大的改观,也就是说,现在不靠政府补贴,人工智能在工业界领域也能自谋生路。
第二原因是,目前人类社会积累的数据量呈指数级增长,怎么对这些数据进行处理分析,找出有用的信息,都将依赖于人工智能提供的新技术方法。
人工智能将不单单是简单的机器智能测试,更多是研发与人类社会相融合的智能系统,通过网络将人、计算机和其他外部事物连接起来,构建类似于智慧城市的复杂生态系统。
3.人工智能算法
1950年初期,人工智能追求研发能够像人类一样具有智力的机器,研究界把这个称之为“强人工智能”,后续出现了专家系统,在特定领域运用人工智能技术,给人工智能发展注入新的活力,然而又带来了难以移植,成本昂贵等问题。
1980年之后机器学习成为AI研究的主流,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
2000年左右,计算机科学家在神经网络研究基础上加入多层感知器构建深度学习模型,成功解决了图像识别、语音识别以及自然语言处理等领域的众多问题。
近年来,在IBM等科技巨头推动下认知计算(Cognitivecomputing)蓬勃发展,通过学习理解语言、图像、视频等非结构化数据,更好地从海量复杂数据中获得知识,做出更为精准的决策。
机器学习是人工智能领域研究的核心问题之一,理论成果已经应用到人工智能的各个领域,机器学习算法通过模式识别系统根据事物特征将其划分到不同类别,通过对识别算法的选择和优化,使其具有更强的分类能力。
机器学习模式识别流程如图所示,包括获取数据、数据预处理、特征生成、特征选择、模式分类、和最后生成分类结果等步骤。
图5:
机器学习模式识别流程
这部分我们主要介绍人工智能领域比较著名的4个算法,他们分别是感知器、决策树,支持向量机和深度学习中比较著名的算法—卷积神经网络。
3.1.感知器
美国计算机科学院罗森布拉特(F.Roseblatt)于1957年提出感知器,是神经网络第一个里程碑算法。
所谓感知器,是一种用于二分类的线性分类模型,其输入为样本的特征向量,计算这些输入的线性组合,如果输出结果大于某个阀值就输出1否则输出-1。
作为一个线性分类器,感知器有能力解决线性分类问题,也可用于基于模式分类的学习控制中。
感知器结构如图所示,具体包括:
输入向量(input),即为用来训练感知器的原始数据
阶梯函数(stepfunction),可以通过生物上的神经元阈值来理解,当输入向量和权重相乘之后,如果结果大于阈值(比如0),则神经元激活(返回1),反之则神经元未激活(返回0)
权重(weight),感知器通过数据训练,学习到的权向量通过将它和输入向量点乘,把乘积带入阶梯函数后我们可以得到期待的结果由于感知器自身结构的限制,使其应用被限制在一定的范围内。
所以在采用感
图6:
感知器结构
图7:
感知器分类
感知器解决具体问题时器有以下局限性:
由于感知器的激活函数采用的是阀值函数,输出矢量只能取0或1,所以只能用它来解决简单的分类问题;
感知器是一种线性分类器,在迭代过程中,如果训练数据不是线性可分的,可能导致训练最终无法收敛,最终得不到一个稳定的权重向量。
感知器只能解决简单的线性分类问题,应用面很窄,但是在人工智能发展中起到了很大推动作用,由于是第一个神经网络算法,吸引了大量学者对神经网络开展研究,同时感知器也为后期更复杂算法如深度学习奠定基础。
3.2.聚类算法
从机器学习的角度,聚类算法是一种“无监督学习”,训练样本的标记信息是未知的,根据数据的相似性和距离来划分,聚类的数目和结构没有事先给定。
聚类的目的是寻找数据簇中潜在的分组结构和关联关系,通过聚类使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。
在人工智能中,聚类分析亦被称为“无先验学习”,是机器学习中的重要算法,目前被广泛应用于各种自然科学和工程领域,如心理学、生物学、医学等。
目前已经提出多种聚类算法,可分为:
划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。
其中著名的分类算法k-means算法就是基于划分的聚类算法。
我们以k-means算法为例,先对数据原型进行初始化,然后对原型进行迭代更新求解,算法描述如表5所示:
图8:
k-means算法描述
3.3.决策树
决策树是一种简单却使用广泛的分类器,通过训练数建立决策树对未知数据进行高效分类。
一棵决策树一般包括根结点、内部结点和叶子结点;叶子结点对应最终决策结果,每一次划分过程遍历所有划分属性找到最好分割方式。
决策树的目标是将数据按照对应的类属性进行分类,通过特征属性的选择将不同类别数据集合贴上对应的类别标签,使分类后的数据集纯度最高,而且能够通过选择合适的特征尽量使分类速度最快,减少决策树深度。
决策树生成过程一般分为三个步骤:
特征选择:
是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准。
如何选择特征有着很多不同量化评估标准,从而衍生出不同的决策树算法。
决策树生成:
根据选择的特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树生长。
剪枝:
决策树容易过拟合,一般来需要剪枝,缩小树结构规模、缓解过拟合。
剪枝技术有预剪枝和后剪枝两种。
3.4.支持向量机
支持向量机SVM(SupportVectorMachine)是由Cortes和Vapnik于1995年首先提出的,它是一种基于统计学习的机器学习方法,在小样本分类上也能获得良好统计规律。
同时由于在文本分类中表现出特有的优势,成为当时机器学习领域研究的热点。
SVM的学习方法主要包括:
线性可分向量机、线性支持向量机以及非线性支持向量机。
SVM主要思想是,建立一个最优决策超平面,使得该平面两侧距平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。
将复杂的模式分类问题非线性投射到更高维空间变成线性可分的,因此支持向量机算法在特征空间建立分类平面,可解决非线性可分的问题,其学习策略是间隔最大化,将分类问题转化为一个凸二次规划问题的求解。
SVM采用核函数技巧将原始特征映射到更高维空间,解决原始低纬空间线性不可分的问题。
设样本集为(,),,,在线性可分的情况下,最优超平面的构建转化成下面最优化问题:
其中是分类向量,b是常数,i是样本点i的松弛变量,C是对松弛变量的惩罚
系数,(xi)是将原始特征值映射到高维空间的核函数。
SVM的核心问题是选取合适的核函数,将低维空间的原始特征映射到高维空间。
举个例子,按照市值规模进行选股时,我们需要选取市值大于5亿而小于10亿的股票,输入市值S的原始向量数据,5
如果采用一维空间,如图4,是不可能找到一个分离超平面正好能把一维空间分成两个符合要求的类别。
如果将一维向量映射到二维空间S2和S,通过构建超平面S2-15S+50=0,当S-15S+50<0时,可判为属于类别1,否则属于类别-1,如图5所示。
2
图9:
一维空间分类
图10:
二维空间分类
3.5.卷积神经网络
当人工智能领域在20世纪50年代起步的时候,生物学家开始提出简单的数学理论,来解释智力和学习的能力如何产生于大脑神经元之间的信号传递。
当时的核心思想一直保留到现在,如果这些细胞之间频繁通信,神经元之间的联系将得到加强。
神经学研究表明,人类大脑在接收到外部信号时,不是直接对数据进行处理,而是通过一个多层的网络模型来获取数据的规律。
这种层次结构的感知系统使视觉系统需要处理的数据量大大减少,并保留了物体有用的结构信息。
由于这些信息的结构一般都很复杂,因此构造深度的机器学习算法去实现一些人类的认知活动是很有必要的。
这里主要介绍一个经典的深度学习算法:
卷积神经网络(CNNs)。
卷积神经网络(CNN)是近年发展起来,并引起广泛重视的一种高效识别方法。
受生物自然视觉认知机制启发而来。
1959年,休博尔(Hubel)等人发现,动物视觉皮层细胞负责检测光学信号。
受此启发,1980年福岛邦彦(KunihikoFukushima)提出了CNN的前身—神经认知机(neocognitron)。
20世纪90年代,燕乐纯(LeCunetal.)等人发表论文,设计了一种多层的人工神经网络,取名叫做LeNet-5,可以对手写数字做分类,LeNet-5确立了CNN的现代结构,在每一个采样层前加入卷积层。
在图像识别领域,CNNs已经成为一种高效的识别方法。
图11:
卷积神经网络LeNet-5结构图
一般地,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。
一旦该局部特征被提取后,它与其它特征间的位臵关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。
特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。
此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。
卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。
4.在金融领域的应用
据高盛统计,人工智能为美国金融业每年节约和新增收入340-430亿美元。
但是,我们认为目前人工智能在国内金融领域的应用还处于探索阶段,应用场景还是集中在和大数据分析、与互联网连接紧密的领域,我们分别列举大数据基金、人工智能预测和智能投顾三个例子来进行阐述。
1、大数据基金。
2012年5月,世界首家基于社交媒体的对冲基金DerwentCapitalMarkets在屡次跳票后终于上线,它会即时关注Twitter中的公众情绪,通过大规模文本数据分析,来指导投资。
其实早在上世纪80年代,就诞生了所谓媒体指标,通过收集电视广播和纸质媒体上关于经济和股市的看法,用算法拟合公众情绪,然后作为市场操作中的重要参考指标。
事实上,大数据基金是一个相对简单的应用,通过构建大数据因子,来反应市场或者单个股票特性对市场上的波动做出及时反应。
从目前大数据指因子的编制方法上看,可分为情绪类、行业类和专家类。
其中,情绪类大数据因子适用于市场情绪高涨的牛市;行业大数据因子适用于侧重研究公司基本面的投资者;而专家类因子相当于跟随专业投资者进行调仓操作,但是会存在专家对市场误判的风险。
大数据基金产品,目前国内市场上主要有淘宝大数据100,百发100指数,雪球智选大数据100等。
2、运用人工智能进行预测。
这属于比较前沿的领域,主要列举两个国外成功的例子。
第一个例子是,瑞贝林基金,它是全球第一个纯人工智能驱动的基金,曾成功预测了2008年全球股市的动荡,并在2009年给希腊债券信用评级是F,比惠誉调低评级还提前了一个月。
第二个例子是日本三菱公司发明的智能机器算法,每月10号预测日本股市在30天后是上涨还是下跌。
经过四年左右的测试,模型的正确率高达68%。
目前国内这方面的研究和实践已经有了一点基础,这几年有不少卖方研究在关注这一领域,但真正可以用于实盘交易的策略还不多见。
现在有不少开放平台比如优矿、米筐、聚宽等,可以帮助投资者在线进行简单策略实现,也包括在线回测机器学习算法。
3、智能投顾。
智能投顾一大功能是为用户画像,结合个人客户的风险偏好和理财目标、结合宏观经济、行业动态和公司财务等指标,通过大数据分析,用智能算法模拟投资专家为客户推荐合适的资管方案。
智能投顾的运行
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 行业 算法 应用 分析 报告