电子工程AI芯片技术发展方向及应用场景落地Word文件下载.docx
- 文档编号:15230707
- 上传时间:2022-10-28
- 格式:DOCX
- 页数:8
- 大小:23.80KB
电子工程AI芯片技术发展方向及应用场景落地Word文件下载.docx
《电子工程AI芯片技术发展方向及应用场景落地Word文件下载.docx》由会员分享,可在线阅读,更多相关《电子工程AI芯片技术发展方向及应用场景落地Word文件下载.docx(8页珍藏版)》请在冰豆网上搜索。
软硬件全栈集成处理器
AI芯片是针对人工智能领域的专用芯片,主要支撑AI算法的运行,它是一种软硬件全栈集成的专用处理器。
人工智能与其它应用领域有很大的不同,主要体现在如下四个方面:
1.AI有着快速增长的市场需求。
除了CPU和其他通用计算覆盖的市场外,AI芯片是新兴领域中需求量最大的计算处理芯片。
2.AI算法的计算量巨大。
随着数据积累和更复杂算法的出现,对计算能力的需求也在快速提高。
同时,实时计算进一步增加了对计算芯片响应能力的需求。
3.AI算法的并行计算特征。
AI算法有大量的规则可以并行计算操作,例如像矩阵、卷积运算等这些操作里面存在大量可以并行处理的数学结构,我们可以用并行计算对其进行加速。
4.计算本身的可复用性。
除了单纯的计算以外,数据计算结构上还有一个很大的特点,就是大量的数据复用是可以被挖掘的。
有了数据复用,我们就可以设计更好的存储结构来优化芯片的处理效率。
基于深度学习的人工智能计算有自己独特的计算特征,且计算量、数据量、带宽都非常大。
传统的计算架构不具备针对性,应对起来显得力不从心。
而AI芯片里的AI处理器针对AI计算需求做出了针对性的加强补充,让其具备澎湃算力、超大带宽、丰裕存储,并可让其计算方式特别适合AI计算领域的算法需求。
上海燧原科技AI处理器研发资深总监冯闯认为,在深度学习计算中,从顶层的软件框架、算子、设备驱动到底层的硬件AI处理器,软件的垂直整合一直深入到AI处理器的核心指令定义及架构,贯彻了自上而下的设计思路。
为了达到极致性能,有些高频操作是需要在计算设备端进行的,比如大量的数据流调度、数据整形、同步、计算图流程处理等。
所以系统的软硬件边界上移,深度学习软件栈的大部分操作可以直接运行在计算设备之上,这样能够大幅减少主机和端侧的同步开销和数据搬运开销,从而提供更好的性能。
冯闯
AI处理器研发资深总监
上海燧原科技
例如,燧原科技的通用AI训练芯片专为人工智能计算领域而设计,基于这种芯片的AI加速卡、燧原智能互联技术,以及“驭算”计算及编程平台可实现深度全栈集成,为编程人员提供针对性的加速AI计算。
AI领域对AI芯片的需求是硬件加速和内嵌于硬件的特定功能,以管理人工智能/机器学习(AI/ML)任务,同时需要一整套成熟的软件和工作流工具解决方案,以使开发人员和数据科学家能够专注于他们在应用方面的创新。
AI处理器也需要有完整的软件栈,以便可以轻松地管理训练、测试、精度优化和部署。
此外,AI芯片也是一个计算平台,用来支撑城市管理、工业控制、自动驾驶和办公自动化等各个应用领域的计算。
作为通用计算平台,AI芯片需要支持整个算力的生态,支持不同算法、不同软件应用的运行及部署,故而需要软件工具才能真正发挥出AI芯片的价值。
因此在设计AI芯片时,其内部架构会针对人工智能领域的各类算法和应用作专门优化,为常见的神经网络计算设计专用的硬件计算模块,以便高效支持视觉、语音、自然语言处理和传统机器学习等智能处理任务,使之更适合AI算法和AI应用。
除了硬件(处理器)本身,AI芯片的实际应用还涉及架构配套软件、开发工具等,需要考虑到主流的开发环境、用户使用习惯、不同操作系统、不同开发框架,保证软件易用性,以实现快速部署和系统集成。
总之,AI芯片是一个软硬件一体的处理器,需要系统架构、软件工具和生态的支撑,才能更好的支持算法部署和应用场景落地。
指令集架构VS.数据流架构
AI芯片的设计架构有很多种,从底层计算机体系结构的角度来看,主要有指令集架构和数据流架构。
指令集的发展相对较早,CPU、GPU及TPU的底层架构都是依托于冯诺依曼体系的指令集架构,其核心思路是将计算分为处理单元、控制单元、存储指令的指令存储器,以及存储数据的数据存储器。
其中控制单元用于读取指令和数据,让处理单元完成整个计算过程。
现代指令集架构引入了流水线处理、数据缓存、数据预取等多种架构创新,以不断降低由于数据和指令等待带来的计算资源闲置。
但是,导致指令集架构计算空闲的核心问题并没有彻底解决,而且指令集架构不断提升的峰值算力也进一步加剧了指令集架构的闲置时间。
面向特定领域的应用,数据流架构开始发挥出高性能的优势。
针对AI领域的算力平台需求,数据流架构依托数据流动方式来支持计算。
据鲲云科技创始人兼CEO牛昕宇博士介绍,
牛昕宇博士
创始人兼CEO
鲲云科技
数据流架构不依托指令集执行次序,其数据计算和数据流动重叠,可以压缩计算资源的每一个空闲时间,突破算力性能瓶颈。
与此同时,数据流架构通过动态重构数据流流水线,能够通用支持主流人工智能算法,满足计算平台的通用性要求。
比如,鲲云近期发布的星空X3加速卡采用的就是定制数据流技术,其AI芯片利用率最高可达到95.4%。
基于数据流架构的AI芯片可以突破指令集架构芯片的利用率局限性,在同等峰值算力前提下可提供更高的实测性能。
CAISA3.0架构图(来源:
鲲云科技)
赛灵思(Xilinx)人工智能研发高级总监单羿则认为,无论哪种架构其实都是在引擎内部计算阵列和数据发射和存贮的组织方式,今天看来已经不是区分AI芯片架构的主要特征。
AI芯片有一个非常通俗的理解,那就是大核还是小核。
其区别在于,你是做一个或若干个大规模的单引擎,还是利用成百上千个小规模的引擎来提升计算的性能。
单羿
人工智能研发高级总监
赛灵思(Xilinx)
数据流架构的优势就是可以省掉不同的处理模块之间的缓冲,将多种运算单元进行级联处理。
是不是可以把AI运算的所有运算单元全都变成一个数据流的架构?
显然这是不现实的,因为深度神经网络层级是比较深的,很难把所有的运算都变成全数据流架构。
根据赛灵思的工程设计经验,可以将一些层融合在一起变成数据流的架构,当作一个单元,进而复制到多层运算。
GPU、FPGA和ASIC(或DLA)的综合能效对比
当前主流的AI芯片主要有GPU、FPGA和ASIC(或深度学习专用加速器DLA)。
图形处理器(GPU)基于多核的特性,由大量内核组成大规模并行计算架构,再配合GPU的软件生态支持人工智能开发。
凭借丰富的软件生态系统和开发工具,再加上易于部署的特点,由英伟达主导的GPU在早期的人工智能计算中得到了大量采用,直到现在仍是最为普及的AI处理器。
据Imagination产品营销高级总监AndrewGrant称,GPU尤其适合AI训练或者运行计算工作负载。
比如,Imagination的神经网络加速器(NNA)是专门针对乘累加(MAC)功能设计的,这对于神经网络工作负载而言是必不可少的。
嵌入式GPU在运行神经网络任务方面比嵌入式CPU快10-20倍,且效率更高,而NNA可以比CPU快100-200倍,在性能方面又有10倍的提升。
AndrewGrant
产品营销高级总监
Imagination
FPGA(现场可编程门阵列)是一种半定制的电路硬件,其功能可以通过编程来修改,并行计算能力很强。
可以针对不同的需求,在FPGA上实现多种硬件架构,在特定领域构建合适的加速单元来获得最优的处理效果。
另外,FPGA在数据精度上是最灵活的,因为从比特级到4比特、8比特、半精度、全精度,这些都可以实现。
尤其是在低比特的定点运算中,它会有更大的优势。
ASIC是面向特定应用需求而定制开发的芯片,通常具有更高的性能和更低的总体功耗。
但是,ASIC不能适应快速变化的AI网络模型和新的数据格式,如果没有足够大的出货量可能难以抵消高昂的开发成本。
在性能表现上,针对特定领域的ASIC芯片通常具有优势。
如果出货量可观,其单颗成本可做到远低于FPGA和GPU。
像NNA或DLA这样的ASIC以超高效率运行AI任务为首要设计目标,要比其他替代方案快几个数量级,并且具有高能效比(TOPS/watt)。
当以集群方式使用多个专用内核时,甚至可以提供高达500TOPS的运算能力。
随着AI应用场景的落地,专用的ASIC芯片量产成本低、性能高、功耗低的优势会逐渐凸显出来。
下表简单地比较了FPGA、GPU和ASIC架构的性能、功耗和灵活性。
AI部署模式正在发生转变,它们不仅被部署于数据中心,而且越来越多地被部署在功耗和散热要求比较严格的边缘设备上。
现在,每瓦功耗所提供的性能(或称为性能/功耗比)通常比简单的性能指标(TOPS)更为重要。
随着AI算法的不断演进,网络模型和数据格式也在不断演化发展。
GPU、FPGA和ASIC各有优缺点,因此都会在各自适合的AI应用场景找到用武之地。
人工智能和5G爆发对AI芯片设计的影响
AI和5G的爆发将为边缘AI芯片的应用与发展带来正向促进作用。
得益于5G商用的推动,边缘计算需求增长,越来越多边缘服务器部署,人工智能在边缘侧的应用趋势也不断增强。
5G大带宽、低时延的特点打破了以往由于网络带宽和速率的局限,使得对响应高计算量、毫秒级低时延的场景落地更加现实,比如车联网、智能制造、医疗等。
此外,5G的到来使得边缘和数据中心之间的界限变得更加模糊,计算处理任务分配会更合理,边缘端和云端更有机地结合。
而且5G传输的损耗和延迟变小,我们可以做更多的应用,对云端AI芯片的使用效率也有更大的提升。
AI已经越来越多地融入我们的工作和生活,也开始创造一些真实的价值,比如通过AI对新冠疫情进行有效地控制。
地平线联合创始人兼技术副总裁黄畅在采访中表示,地平线一直在思考如何在边缘做Al芯片及解决方案,以及如何让AI广泛落地。
地平线最近发布了新一代AIoT边缘AI芯片平台—旭日3,其AI计算能力能够适应先进的神经网络。
基于自主研发的AI专用处理器架构BPU(BrainProcessingUnit),旭日3芯片最大的亮点就是BPU优化,带来软硬协同的硬件架构。
借助这一AI芯片平台,地平线将持续深化在AIoT领域的战略布局与行业场景渗透,发挥软硬结合优势,通过芯片工具链与全场景一站式解决方案赋能各个行业,更高效地落地AI应用,全面释放AI动能。
黄畅
联合创始人兼技术副总裁
地平线
AI和5G的普及也将AI芯片的应用场景扩展到工业领域。
AndrewGrant列举出5G在智能工厂的用例,基于“机器人集群”方式对工业机器人进行管理。
在这种方式中,指令可以从集群中心发送给机器人,也可以利用半联邦学习(semi-federatedlearning)方法在机器人之间传送。
在使用机器人和数字孪生技术的智能工厂,货物拣选、包装和运输的每个环节都将实现自动化,同时计算机视觉任务与神经网络相结合可以支持机器人去识别、拣选、分类和包装所有类型的产品。
此外,可以将机器人部署在人类不想去的地方,比如不太适合人类的3D(Difficult困难、Dirty肮脏、Dangerous危险)环境。
在当前的疫情下,我们已经看到机器人和机器车深入参与到很多健康保障应用场景中,我们将越来越多地看到AI被广泛部署在医院和医疗保健领域。
从数据中心到边缘设备,人工智能应用场景的激增将推动AI芯片的设计向前发展,以实现更高的能效比,并提供硬件可编程性来支持各种工作负载。
由于散热和功耗的限制,能效比在边缘上至关重要,其重要性远高于在数据中心中的应用。
随着人工智
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 电子工程 AI芯片技术发展方向及应用场景落地 电子 工程 AI 芯片 技术发展 方向 应用 场景 落地