百度大脑AI技术成果白皮书doc.docx
- 文档编号:28366909
- 上传时间:2023-07-10
- 格式:DOCX
- 页数:13
- 大小:26.35KB
百度大脑AI技术成果白皮书doc.docx
《百度大脑AI技术成果白皮书doc.docx》由会员分享,可在线阅读,更多相关《百度大脑AI技术成果白皮书doc.docx(13页珍藏版)》请在冰豆网上搜索。
XX大脑AI技术成果白皮书doc
XX大脑AI技术成果白皮书
i目录目录引言.1一、XX大脑进化到5.0.2二、基础层.32.1算法.32.2算力.52.3数据10三、感知层113.1语音113.2视觉133.3增强现实/虚拟现实.17四、认知层194.1知识图谱,科技与商业发展的一个关键词就是“人工智能”。
在近一年的时间里,XX科学家和工程师们不仅在人工智能算法、核心框架、芯片、计算平台、量子计算、语音技术、计算机视觉、增强现实与虚拟现实、语言与知识、开放平台、开放数据等诸多方面取得了令人瞩目的技术成果,还将这些技术成果与行业相结合,成功应用于众多产品之中,取得了丰硕的人工智能应用成果。
2月,世界知识产权组织(WorldIntellectualPropertyOrganization,简称WIPO)发布了首份技术趋势报告,聚焦人工智能领域专利申请及发展状况。
报告显示,XX在深度学习领域的专利申请量位居全球第二,超越Alphabet、微软、IBM等企业和国外学术机构,在全球企业中居于首位。
过去的一年,XX基础技术体系、智能云事业群组和AI技术平台体系进行了重大组织机构调整,三个体系统一向集团CTO汇报,这为技术中台建设和人工智能技术落地提供了良好的组织保障。
本报告总结了XX大脑在度取得的部分技术成果:
第一章主要概述XX大脑5.0,第二至六章分别介绍XX大脑在基础层、感知层、认知层、平台层和安全方面的技术成果。
面向未来,XX将继续打造领先的AI技术能力,构建更加繁荣的人工智能生态系统,助力各行各业进入智能化的工业大生产阶段,在智能时代创造更广泛的社会经济价值。
2一、XX大脑进化到一、XX大脑进化到5.0XX大脑是XXAI集大成者。
XX大脑自起开始积累基础能力,后逐步完善。
,XX大脑1.0完成了部分基础能力和核心技术对外开放;,2.0版形成了较为完整的技术体系,开放60多项AI能力;,3.0版在“多模态深度语义理解”上取得重大突破,同时开放110多项核心AI技术能力;,XX大脑升级为5.0,核心技术再获重大突破,实现了AI算法、计算架构与应用场景的创新融合,成为软硬件一体的AI大生产平台。
如图1所示,XX大脑如今已形成了包括基础层、感知层、认知层、平台层以及AI安全五大核心架构在内的技术布局。
同时,安全一直都贯穿AI技术研发的始终,已经融合在XX大脑的所有模块中。
基于数据、算法和算力强大的基础能力支持,XX大脑拥有包括语音、视觉、增强现实(AR)/虚拟现实(VR)以及语言与知识等技术能力,并通过AI平台对外开放,形成以XX大脑为核心的技术和产业生态。
多年来,XX大脑支持XX几乎所有业务,并面向行业和社会全方位开放,助力合作伙伴和开发者,加速AI技术落地应用,赋能各行各业转型升级,其核心技术及开放平台荣获度中国电子学会科技进步一等奖。
图1XX大脑3二、二、基础层基础层2.1算法算法XX持续在算法和理论方面深入研究,在语音、图像、语言与知识等多个领域取得重大突破。
在语音识别方面,XX将注意力机制的建模技术用于在线语音识别,提出了流式多层截断注意力模型SMLTA,实现了流式的基于注意力机制的声学语言一体化建模,并在初实现了基于该技术的大规模产品上线,大幅提升了语音识别产品在线识别准确率和用户体验,相对准确率提升15%至5月,在计算机视觉Low-levelVision领域中影响力最大的竞赛NTIRE上获得了图像超分辨率项目的冠军和视频超分辨率项目亚军。
在医学图像领域,XX提出全新的基于深度学习的病理切片肿瘤检测算法[1],在公共数据集Camelyon16大赛上的肿瘤定位FROC分数高达0.8096,5超过专业病理医生水平以及之前由哈佛、MIT等保持的大赛最佳成绩。
研究成果发表于开发者大会,XX发布了国内首款云端通用AI处理器“XX昆仑”。
它基于XPU架构,采用14nm三星工艺,在150瓦功耗限制下,运算性能高达260Tops,能解决数据中心对芯片的高性能、低成本、高灵活性三大诉求。
XX昆仑芯片具备完整的toolchains,并开放给开发者,与飞桨(PaddlePaddle)实现了深度结合,打造全栈国产技术生态。
功能上同时支持视觉、语音、自然语言处理、推荐、无人车等场景,在众多业界深度学习模型上均拥有很好的性能和效率表现;即将量产的芯片在多个模型上实测性能均超过业界主流芯片。
远场语音交互芯片远场语音交互芯片————XXXX鸿鹄鸿鹄远场语音交互芯片“XX鸿鹄”变革了传统芯片设计方法,体现了软件定义芯片的全新设计思路。
XX鸿鹄拥有契合AI算法需求的核内内存结构设计、分级的内存加载策略、依据AI算法调教的cache设计和灵活的双核通信机制,最终实现了深度学习计算过程和数据加载的高度并行,一颗芯片即同时满足了远场阵列信号实时处理和超低误报高精度唤醒实时监听的需求。
XX鸿鹄可以支持多达六路的麦克阵列语音信号输入;支持XX领先的麦克阵列信号处理技术,即双声道立体声AEC消除、声源定位、波束生成等;支持XX领先的DeepPeak和DeepCNN语音唤醒技术,实现复杂内外噪场景下的高精准唤醒以及低于一天一次的误报率。
同时,该芯片还支持XX创新的双麦克模型波束算法,实现唤醒后360度无死角识别,首次在中文语音识别上实现双麦克阵列的识别率超越传统6麦克系统,实现了行业领先的芯片模型波束技术突破。
72.2.2AI计算计算平台平台XX推出的AI计算平台,提供了一个端到端的解决方案来应对人工智能计算的挑战。
AI计算平台由超级计算模块X-Man、高性能存储系统Fast-F、大型分布式AI计算训练平台KongMing组成。
X-Man是XX研发的人工智能超级计算模块,是针对训练场景定制优化的AI计算产品。
XX在18年年底正式发布X-Man3.0,单机具备中国国家专利优秀奖。
XX与Faceboook、微软等联合创立了OAI(OpenAcceleratorInfrastructure)开放AI加速基础架构项目,旨在促进AI芯片多元化生态格局的健康持续发展。
XX在主导OAI标准定义的同时,也以实际行动推动OAI标准落地,在19年9月发布了业界首款支持OAI标准和液冷散热的超级AI计算机X-Man4.0。
图4XX人工智能超级计算模块X-Man4.0Fast-F是一种高性能并行文件系统解决方案,硬件上基于OpenChannelSSD实现KV接口,合并FW和存储引擎层,软件栈实现全无锁设计,解决了AI场景下分布式训练集群中的海量小文件I/O难题。
8KongMing是人工智能训练集群,具备自研的高速通信库,充分利用RDMA和NVLink等特性,并且引入了全网络架构拓扑感知调度,能够以最佳的计算和通信效率将作业映射到多样化的AI加速芯片和系统上。
KongMing与X-Man及Fast-F紧密结合,可支持大规模分布式训练,将训练时间从周级别缩短到天级别。
XXAI计算平台已经广泛应用在各行各业的人工智能解决方案中。
同时为支撑平台更好地服务业界用户,XX超大规模资源管理系统提供了几十万台服务器托管服务,常驻容器数目达到500万,并提供数十万并发计算能力,为大数据处理、模型训练提供支持。
2.2.35G边缘计算边缘计算5G会在许多垂直领域显著提升人工智能服务的能力。
近年来,XX一直积极布局边缘计算和5G领域。
,XX成功打造出面向互联网的边缘计算统一平台OverTheEdge(OTE),并先后与联通、Intel等知名企业合作加速5G建设。
OTE平台将XX人工智能与5G基础设施连接起来,可以使XX人工智能融入万物互联的世界,接近用户,服务用户,成为一个新的生态系统。
OTE平台的架构如图5所示,包括资源层的管理,IaaS(InfrastructureasaService)资源的虚拟化,实现边缘服务管理的PaaS(PlatasaService),以及基于IaaS和PaaS的各种边缘解决方案,可以在边缘提供全面的计算加速支持。
OTEStack是面向5G和AI的边缘计算平台。
通过底层的虚拟化,可以屏蔽边缘硬件的异构特性,对外输出标准的算力资源;通过OTE层次化的集群管理和全局的智能调度,将5G时代大量的边缘节点有效调度起来,从而在边缘为AI提供低延迟、高可靠和成本最优的算力支持。
同时,通过OTEStack多层集群的统一调度,将设备、移动边缘、云边缘、云中心协同起来,为Device-Edge-Cloud的协同计算提供了可能。
9图5OTE边缘计算架构2.2.4量子计算量子计算量子计算被认为是未来计算技术的心脏。
XX宣布成立量子计算研究所,开展量子计算软件和信息技术应用业务研究,致力于量子信息科学中量子技术的研发和储备,重点关注量子架构、量子算法、以及量子人工智能应用[9][10][11][12][13][14]。
在量子架构方面,XX致力于用半正定规划等优化工具给出任意信道的量子容量可计算上界和信道模拟所需资源估计,这可作为近期量子计算中的量子信道编码、量子纠错和量子电路合成的测试标准。
此外,XX探索了量子纠缠这一量子分布式信息处理中最重要物理资源的提纯问题,获得在非渐进(有限资源)情形下的三大参数,即提纯比率、状态拷贝数、以及保真度之间的消长关系。
10在量子算法方面,XX利用量子效应设计快速算法来处理非负矩阵分解问题,提供了将量子与经典计算结合起来的“量子分治”策略来加速机器学习的新路径,有望对计算机视觉和机器学习等人工智能应用产生影响。
XX还关注与量子进程有关的问题,回答了“一个量子进程何时比另外一个量子进程更加无序”这一重要问题,从而将著名的优超关系拓展到了量子情形。
该关系也给出了量子热力学的一组完整墒条件。
经典算法的改进对于量子计算研究也有极大促进作用。
通过改造已有优化算法,XX开发出全新的量子脉冲计算系统“量脉”(Quanlse),其在量子架构中承接量子软件和量子硬件。
对于每一个量子逻辑门,该系统可以快速生成相应的脉冲序列,从而实现对量子硬件的控制。
经过实际测试,在相同精度和实验条件下,单量子比特门计算性能比目前最快的工具提升8倍以上,而两量子比特门性能则至少提升23倍,极大地提升了实验效率。
2.3数据数据过去的一年,XX推出了联邦学习解决方案和数据科学平台等最新成果,并成功运用人工智能技术促进数据工程技术的提升。
联邦学习解决方案联邦学习解决方案机器学习和深度学习通常需要将数据集中在一个数据中心。
近年来,随着整个社会对数据安全及数据隐私的日益重视,以及相关法律法规的出台,使得数据共享和流通面临很多现实挑战。
如何在保护数据隐私和数据安全的前提下,利用分散在不同地方的数据来训练机器学习和深度学习模型,成为一个迫切需要解决的问题。
联邦学习通过密码学方法和精心设计的模型训练协议,为解决上述问题提供了一种可能的技术手段,能确保隐私数据不出本地的前提下,通过多方协作训练得到一个高精度的机器学习和深度学习模型。
在这个新兴的领域,XX已经设计并实现了针对数据垂直切分场景的分布式LogisticRegression联邦学习解决方案,该方案基于参数服务器架构,能够支持在多个节点上并行训练模型,具有良好的可扩展性,可以实现海量数据的联合建模。
同时,XX构建了11GBDT联邦学习的原型系统,并探索了基于深度学习的联邦学习解决方案,包括基于预训练模型的联邦迁移学习以及基于孪生网络结构的联邦学习两类方案。
数据科学平台数据科学平台XX推出的Jarvis数据科学平台,为公司各业务提供易用、高效、自动、安全、节约的统一数据科学环境,大幅提升了开发效率和业务效果,节约大量资源。
Jarvis平台基于Jupyterlab的全托管交互分析环境,提供按需弹性的计算资源,成为内部广泛应用的交互环境;基于异构计算的端到端算法加速方案,通过数据科学全流程在GPU显存中计算,单机体验好、系统简单易用,分析建模的效率高、成本低,且GPU单机比Spark集群加速13倍,而成本仅为1/10;支持全流程自动机器学习AutoML,覆盖预处理、特征工程、模型选择及超参调优等全流程,引入单阶段调优及人工规则优化搜索空间,通过元学习、迁移学习提升搜索效率;支持基于Jarvis软件的安全联合建模方案,兼顾安全性和算法效率,保障数据共享、算法分发、建模过程的安全性;支持GPU细粒度管理方案,在GPU分时复用基础上引入GPU卡上计算单位的空分复用,提供任务隔离性和服务质量保证、大幅提升GPU资源利用率。
此外,XX在开源社区建设方面也取得突出进展,开源的分布式分析型数据库Doris当前在XX以及其他知名互联网公司已大规模使用。
在进入Apache基金会进行孵化后,XX又提供了流式导入功能,对接Kafka和增加SQL兼容性以及提升查询性能等。
三、三、感知感知层层XX大脑的感知层包括语音、视觉、增强现实/虚拟现实等技术,这些技术使得XX大脑具备了仿人的听觉和视觉能力。
3.1语音语音端到端的模型充分发挥了模型联合训练的优势,显著提升了语音识别、语音合成等技术的性能,受到学术界和工业界的一致关注。
12语音识别语音识别在流式多层截断注意力模型SMLTA的基础上,XX进一步提出了中英文一体化建模和方言大一统模型技术,一方面在保持原有中文识别率的基础上,实现用户中英文混杂和纯英文自由说;另一方面有机融合了普通话和方言的建模单元,使得同一个声学模型既能识别方言又能识别普通话。
针对嵌入式终端,XX提出的基于SMLTA的离线嵌入式建模技术采用语音语言一体化建模技术,极大地压缩了传统语音识别所使用的语言模型体积。
应用该技术的离线语音输入法性能显著领先于行业平均水平。
在语音交互方面,XX提出的基于大数据仿真技术的信号前端和声学后端联合优化的整套端到端语音交互方案,使绝对句准率相对提升3%以上,同时首次推出业内领先的一次唤醒多次交互技术,极大地提升了用户体验。
语音合成语音合成在语音合成方面,XX提出了EndtoEndParallelwaveRNN(端到端的并行waveRNN)语音合成技术,解决了语音合成系统上线时的badcase消除问题,明显提升了语音合成系统的自然度和表现力,适合大规模在线实时语音合成服务。
相比于国际上主流的Tacotron和waveRNN技术,该技术主要有以下两方面创新:
首先,传统方法将文本韵律预测与语音波形生成作为两个独立阶段进行建模学习,由于统计模型误差累积,最终合成语音的badcase较多,情感表现力也较弱。
端到端的waveRNN直接根据输入文本信息,训练一个深度学习waveRNN网络以合成语音。
整个过程采用端到端训练,不需要中间的梅尔谱的过渡转换过程,减少了合成的badcase,提升了最终合成语音的自然程度。
其次,传统的waveRNN是逐点递推过程,递推过程冗长,难以适用于在线实时语音合成的场合。
XX能够按照音素、音节、或者音节组合等语音片段单元来独立且并行的合成一个个语音片段,最终再把这些语音片段拼在一起。
在进行每个片段的独立合成时候,该片段的RNN/LSTM/GRU隐状态的初始状态用传统的拼接系统的决策树提供,从而保证每个独立合成片段的合成稳定性。
XX还提出了一种全新的基于WaveNet的并行音频波形(RawAudioWave)生成模型ClariNet[15],合成速度比起原始的WaveNet提升了数千倍,可以达到实时合成速度的二十倍——即合成1秒语音,只需要0.05秒。
ClariNet是语音合成领域第一个完全端到端13的模型,即使用单个神经网络,直接从文本输入到原始音频波形输出。
对比GoogleDeepMind提出的ParallelWaveNet,ClariNet中所用到的teacherWaveNet的输出概率分布是一个方差有下界的单高斯分布,直接使用最大似然估计来学习,并且直接闭式(colsed-)地计算目标函数,大大简化了训练算法,使训练时间比ParallelWaveNet减少数十倍。
另外,XX提出了针对语音合成领域的全并行模型ParaNet[16]。
该模型直接采用前馈神经网络(FeedforwardNeuralNetwork),不依赖于任何自回归神经网络(AutoregressiveNeuralNetwork)或者循环神经网络(RNN),从文本生成音频波形仅需一次前馈传导(Feed-ForwardPass),合成速度较全卷积的自回归模型提升了46.7倍。
在长句的合成过程中,ParaNet提供了更为稳定的文本与频谱之间的对齐关系,减少了重复词、跳词、以及错误发音,相比于自回归模型有更高的鲁棒性。
3.2视觉视觉在计算机视觉方面,XX在基础图像技术、视频理解技术、软硬件结合等多个技术方向,取得了重要突破,多次获得顶级赛事的冠军。
图像技术图像技术目标检测是计算机视觉和模式识别领域的基础问题之一,XX在大规模图像检测和检测网络的性能两个方面开展研发工作。
一方面,在图像基础算法方面,XX研发了大规模图像检测算法。
该算法提出的动态采样方案,对于不同类别,数据量差别较大的情况下效果有明显提升。
,XX在图像检测数据OpenImages比赛中获得全球第一名的成绩。
该技术并已被应用于商品检索、Logo检索等多个业务中。
另一方面,XX在图像检测领域获得“Objects365物体检测”国际竞赛FullTrack冠军。
在这次比赛中,XX通过使用基于强化学习的网络结构搜索技术,大幅增强了Two-Stage检测网络模型的性能,并针对大规模图像检测任务提出的ClassAwareSensitive采样方案,有效的缩短了模型收敛所需的迭代次数,进一步提高了模型的最终效果。
14视频技术视频技术XX视频理解技术持续优化,支持XX搜索的视频数据分析的相关业务需求。
目前小视频分类准确率超过90%,业务上优质视频增益率达95%以上。
XX连续三年在视频理解领域影响力最大的赛事ActivityNet上获得冠军。
在视频编辑方面,XX结合多模态嘴型生成、GAN、TTS等技术,实现了业界首个可以量产视频的真人形象虚拟主播,并成功应用于好看视频天气预告、新闻播报等场景。
XX还提出了选择性迁移单元技术用于提升GAN的表现效果,在公开数据集CelebA取得了世界领先的效果,相关算法STGAN的工作内容发表于国际顶级学术会议CVPR的研究和应用经验,XX联合学术界举办了ICDAR以来,XX在增强现实和虚拟现实方面取得了许多重要进展。
XX构建了生态开放平台DuMixAR,开放多种AR核心能力和AR引擎,为开发者及合作伙伴提供优质的一站式解决方案。
XXVR已在全景、3D图像内容的采集、处理、传输、展示及交互技术形成了深厚积累。
XX还开发了一种增强现实的自动驾驶仿真系统。
增强现实增强现实XX大脑DuMixAR平台作为XX大脑的重要组成部分之一,目前已成为国内最具影响力的AR技术开放平台之一,累计开放技术能力超过40项。
最新发布的DuMixAR5.0,带来人机交互和感知跟踪两个方向的重大升级。
人机交互方面,XX打造人脸人体手势环境一体化交互系统,为业界及合作伙伴提供优质的一站式娱乐互动解决方案。
感知跟踪方面,XX自主研发视觉定位与增强服务VPAS,通过离线高精地图构建、在线定位、融合跟踪等三大关键模块,构建了国内首个达到商用落地标准的大场景物理世界交互系统。
DuMixAR平台联合40多个生态合作伙伴在品牌营销、视频娱乐、景区、教育和汽车等多个垂直行业开展创新探索。
继AR太极大屏落地全球首个AI公园——海淀公园后,,AR太极大屏迅速推广至全国多个城市,丰富线下互动体验、引发全民健身热潮,累计落地九个公园,十五块AR互动屏,并衍生出八段锦等创新互动内容形态;,春晚18切红包、虚拟主播“小灵”先后登陆央视;“听障儿童无障碍阅读计划”携手XX公益、壹基金、58同城,以AR技术变革传统出版物,关爱弱势群体,创造良好的社会效益;此外,还与XX地图场景化能力结合,率先实现大场景实景AR互动,以VPAS再现圆明园大水法的辉煌盛景,将历史画卷生动呈现。
截止目前,DuMixAR平台承载的累计互动量超过19亿,深入6大行业发布解决方案,显著推动了AR技术与应用的发展。
虚拟现实虚拟现实XX也在深耕VR核心技术和行业落地解决方案。
在全景、3D图像内容的采集、处理、传输、展示及交互技术持续积累,已支持K12、高校培训、营销等业务场景的落地。
在内容生产方面,通过高精度拍摄、智能拼接、基于深度学习的图像精准分割技术,构建了软硬一体化的3D图像采集方案;在内容展示方面,基于自研webVR渲染引擎、自研高性能全景和3D图片视频播放引擎以及长期积累的VR头显硬件适配能力,推出了可覆盖Unity、Web平台的全格式内容展示VRSuiteSDK,为合作伙伴提供基础的VR内容播放技术支持。
目前,教育方向产品“XXVR教室”已经在安徽、浙江、上海、湖北、天津等多地学校落地并常态化运营;“VR新商科实验室”也已在山大、矿大多所高校落地中。
XX还积极推动VR技术在5G+教育场景有效落地,上海市愚一小学已成为全国首家应用5GCloudVR的教学点。
营销方面,XXVR联合优信二手车,推出了全国领先的“VR看车”软硬一体化解决方案,助力优信二手车全国购战略升级。
增强现实的自动驾驶仿真增强现实的自动驾驶仿真自动驾驶系统对安全性有着严苛的要求,相比于花费几年甚至更久时间让自动驾驶车辆接受足够的道路测试,通过仿真系统测试来评估、提高其安全性极具可操作性和现实意义。
XX开发了一种增强现实的自动驾驶仿真系统,通过模拟交通流来增强现实世界图像,进而创建逼真的、媲美现实世界渲染的仿真场景,为自动驾驶车辆提供更为可靠且廉价的仿真模拟方法,可大规模用于训练和测试评估自动驾驶系统的感知、决策和路径规划算法。
该系统相较于现有仿真系统,在真实感、扩展性等方面都实现了突破性的技术进展,并发表于《科学》杂志《机器人学》子刊[19]。
19四、四、认知层认知层多年来,XX深耕语言与知识技术,并在知识图谱、语义理解、机器翻译等方面取得了一系列丰硕的成果,实现了大规模产业化应用,获得国家科技进步二等奖、中国电子学会科技进步一等奖、中国专利银奖等奖励。
XX知识图谱依托海量互联网数据,综合运用语义理解、知识挖掘、知识整合与补全等技术,提炼出高精度知识,并组织成图谱,进而基于知识图谱进行理解、推理和计算。
目前,XX知识图谱已经拥有数亿实体、数千亿事实,并广泛应用于XX众多产品线,并通过XX大脑AI开放平台开放了实体标注、知识问答、XX汉语、图数据库BGraph等核心技术,以及行业知识图谱平台和智能写作平台。
XX研发了基于深度学习的语义理解技术并应用于智能搜索,大幅提升了搜索精度;XX提出了持续学习语义理解框架艾尼(ERNIE),在中英文多项任务上均取得最好的效果;XX机器翻译在大规模翻译知识获取、翻译模型、多语种翻译技术等方面取得重大突破,在发布了全球首个互联网神经网络翻译系统,在推出了端到端同传系统和翻译机;XX在基于多文档校验的阅读理解技术、基于交互式学习的对话理解技术、篇章生成算法等方面取得突破性创新,在AIforProstheticsChallenge、国际语义评测比赛(InternationalWorkshoponSe
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 百度 大脑 AI 技术成果 白皮书 doc