18AI计算平台通用解决方案1015.docx
- 文档编号:26375691
- 上传时间:2023-06-18
- 格式:DOCX
- 页数:16
- 大小:1.59MB
18AI计算平台通用解决方案1015.docx
《18AI计算平台通用解决方案1015.docx》由会员分享,可在线阅读,更多相关《18AI计算平台通用解决方案1015.docx(16页珍藏版)》请在冰豆网上搜索。
18AI计算平台通用解决方案1015
金山云[解决方案中心]
摘要
AI计算平台是面向企业和开发者的全栈式AI服务平台,整合了金山云底层计算、网络、存储等资源,同时集成算法框架、数据库等服务,帮助客户快速灵活开发部署。
AI计算平台解决方案
ProposalInsert文档说明
版本号
方案撰写
方案提供与确认
联系方式
完成日期
计划更新日期
描述
1.0
OBG解决方案中心
OBG解决方案中心
2019.10.15
V1.0完成
1AI计算平台产品介绍
1.1产品定义
AI计算平台是面向企业和AI开发者的全栈式AI服务平台,整合了金山云底层计算资源、网络资源、算法框架、存储数据库等服务,帮助企业大幅降低人工智能开发与应用的门槛,提高应用落地的工程化效率,降低整体开发成本。
图1-1AI计算平台
1.2行业背景
人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。
图1-2全球AI产业规模预测
据IHS统计研究报告,2018年至2024年,全球AI产业规模年复合增长率CAGR达到52%,人工智能产业迎来爆发期。
1.3行业痛点
⏹AI行业特点
AI行业的土壤即数据,需要用海量的数据去训练模型,且数据的类型格式各不相同。
在算力的需求上,由于神经网络的复杂性且算法迭代要求迅速,需要强大的算力支撑。
此外,在模型开发的过程中,需要多种软件库和系统环境的支撑。
⏹面临的问题
由于AI行业的特点,需要对各类型海量的数据进行存储,并保障数据安全性。
面对项目突击,需要快速扩充计算力的同时对设备成本也要有所控制。
对海量数据进行清洗,并快速部署环境以满足开发要求。
这些都是AI行业所面临,亟需解决的问题。
⏹需求
针对以上AI行业的特点和问题,金山云推出AI计算平台产品。
该产品拥有大容量存储、高性能超算力集群、高吞吐网络吞吐速度,并搭配高可靠数据库保障数据安全,同时通过一键式环境部署满足开发环境的快速搭建。
1.4产品功能
AI计算平台产品功能包括弹性计算、海量存储、智能托管、生命周期管理四大功能。
⏹弹性计算
为用户提供了CPU、GPU容器等多种不同的资源套餐,可用于科学计算、深度学习、图形处理等多种计算任务。
用户还可以根据任务量大小灵活调配计算资源。
⏹海量存储
金山云提供海量、低成本、高可靠的云存储服务,协助用户解决存储扩容、数据分布式等相关复杂问题,方便用户存储图片、音视频、文本等各类型数据。
⏹智能托管
托管Tensorflow、Keras、MXnet等算法框架和Notebook等交互式开发环境,协助客户快速进行模型的开发、训练、部署。
⏹生命周期管理
提供可视化控制台和监控报警机制、帮助用户完成AI数据处理、模型构建、部署、监控等AI全生命周期管理。
1.5产品优势
AI计算平台产品包含了开箱即用、高性能分布式、故障隔离、成本控制、可视化管理、报警监控六大优势。
⏹开箱即用
AI计算平台整合计算资源、数据库、存储和网络等资源,同时托管多种深度学习框架,用户可快速搭建整套系统。
⏹高性能分布式
采用分布式构架,支持超大规模深度模型训练,与KMR大数据产品深度整合,提高大规模数据处理速度。
⏹故障隔离
可以做到让用户对底层基础设施的故障完全无感知。
无需关心底层硬件故障,作业自动Failover,断电续跑。
⏹成本控制
为用户提供了灵活的按需计费方式,用户可以按照实际的使用资源和时长以作业为粒度进行付费。
⏹可视化管理
为用户提供了友好方便的控制台管理界面,通过点击、托拉拽,即可实现数据可视化等功能。
⏹报警监控
为用户提供了完整的监控和报警机制,支持用户维度、任务维度、计算节点维度等多维度监控。
2技术架构
2.1AI计算平台总体架构图
AI计算平台的总体架构图如图2-1所示。
数据采集端收集相关数据信息,数据包括视频、图片、语音、文字等多种类型数据。
人工智能企业收集到相关信息后,对数据做分类选择等预处理,然后把相关数据上传到金山云AI计算平台。
金山云AI计算平台包括SLB负载均衡、KMR模块、KDL模块、GPU和CPU计算集群、KS3存储集群和RDS数据库等,涵盖计算、网络、存储和数据库等全套类型产品。
图2-1AI计算平台总体架构图
2.2计算资源
金山云提供多种实例的CPU、GPU计算资源,为AI平台提供强大计算力支撑。
实例类型包括容器、虚机、物理机。
图2-2计算资源类型
2.3存储、数据库
金山云提供云硬盘、对象存储两种存储类型。
两种存储类型的特点和功能如下。
⏹云硬盘
•单块云硬盘最大支持16T
•三副本存储,提供99.9999999%数据可靠性
•单盘最高20000IOPS、256MB/S吞吐性能,访问时延小于2ms
⏹对象存储
•高可靠,数据持久性≥99.999999999%
•EB级数据存储校验,多副本存储
•针对大流量和高并发访问,优化上传下载性能
•支持多版本SDK,生命周期管理
•灵活的访问策略,多平台迁移
数据库层面,金山云提供MySQL关系型数据库和Redis,MongoDB,Memcached三种NoSQL非关系型数据库。
⏹关系型数据库
•Slave节点同步复制主服务数据,保障数据安全
•采用PCI-ESSD架构,实现数据快速查找和访问
•全方位监控数据访问、资源利用、系统负载,为AI行业数据库性能提供支撑
⏹非关系型数据库
•Redis支持主从热备、集群
•MongoDB支持三副本
•Memcached支持主从热备
•高IOPS读写效率,适用于AI行业计算量大场景
2.4网络资源架构
网络访问流量通过金山云入口处的SLB负载均衡集群进行管控,把访问分到不同的处理器上。
在子网的外层通过网络访问控制列表ACL作为防火墙,网络访问控制列表ACL是一个子网级别无状态的可选安全层,以控制进出子网的数据流。
同时在子网内,可以通过安全组对虚机等实例进行访问管控。
安全组是一个逻辑上的分组,可以将同一地域内具有相同网络安全隔离需求的云物理主机实例加到同一个安全组内。
您可以通过安全组策略对云物理主机的出入流量进行安全过滤。
图2-3金山云VPC网络架构图
金山云的VPC网络架构拥有高性能网络访问、安全隔离、互联互通的特性。
⏹高性能网络访问
支持15Gbps带宽的多机热备NAT、弹性IP、负载均衡实现网络高速访问。
⏹安全隔离
金山云VPC是基于VXLAN完全逻辑隔离的虚拟私有网络。
⏹互联互通
通过VPN和对等连接服务,可与客户IDC或其它云资源实现数据互通,实现混合云和多云部署。
2.5KDL深度学习平台
KDL(KingsoftDeepLearning)深度学习平台以Tensorflow,Caffe,MXNet等主流深度学习框架为基础,通过与底层计算资源相结合,帮助客户快速创建部署深度学习服务,其架构图如图2-4所示。
图2-4KDL深度学习平台架构图
⏹优势
•支持主流的算法框架,
•消除环境安装部署、性能调优的成本和资源管理复杂性,
•可视化管理
•多种接入方式,提供基于Web,命令行和API的接入方式。
2.6KMR大数据平台
KMR(KingsoftMapReduce)是一个可伸缩的通用大数据平台,以Hadoop和Spark计算框架为基础,快速构建分布式数据分析系统。
KMR拥有快速部署、高性能的特性。
KMR通过弹性计算构建集群,实现Hadoop平台和有关组件的快速部署;同时,KMR大幅提升流式计算、Hbase数据读写、及时查询等业务连续性。
图2-5KMR大数据平台架构图
2.7KMR+KDL+KS3多模块深度融合
图2-6KMR+KDL+KS3组合架构图
KS3、KMR、KDL等产品的组合,可形成从IaaS层到PaaS层,组成端到端的大数据分析处理解决方案模块。
用户可将原始训练的数据存入KS3,通过KMR大数据平台进行数据预处理,处理完的数据再存入KS3。
KDL再次读取训练数据、代码,把训练完的模型和过程日志写入对象存储。
2.8AI计算平台部署架构
图2-7是AI计算平台的部署架构图,整套AI计算平台可以部署在多个机房中,每个机房都位于同一个VPC虚拟网络下。
机房入口由NAT网关和SLB负载均衡集群,对来自外界的请求作转发处理。
机房内部可分为数据层、计算集群和调度集群。
数据层包括数据存储和数据库,对数据进行存储和编排。
计算集群包括CPU和GPU的云主机和物理机集群,提供计算力支撑。
KDL深度学习平台和KMR大数据平台对底层的计算资源和存储资源进行调度,实现开机时的环境预部署和分布式计算。
同一个地域内,公有云机房可以和KIS托管机房通过内部专线打通。
不同地域内,金山云机房间通过金山云对等连接服务打通。
金山云机房和客户机房间可以通过外部专线打通。
图2-7AI计算平台部署架构图
3应用场景
根据客户关注点和痛点的不同,AI计算平台的应用场景可分为开发环境快速部署、云端推理极速访问、资源灵活配置、高并发弹性扩容四大应用场景。
图3-1AI计算平台应用场景
3.1开发环境快速部署
AI行业的算法迭代更新快,各个软件和系统环境各不相同,框架之间相互有依赖性,反复的部署开发环境会耗费大量开发者的时间。
开发环境部署操作如图3-2所示。
金山云AI计算平台可:
1.通过在KDL控制台点击的方式快速创建部署开发环境,节省开发者时间。
2.在控制台通过Web端JupyterNotebook可以协助用户实现快速交互式代码开发
3.针对模型开发的算力需求,提供如NvidiaV100等多种型号GPU,加速模型开发。
图3-2开发环境部署操作
3.2云端推理极速访问
在AI模型训练完成后,需把模型快速部署到全球各地的推理节点上,提供极速的云端推理访问。
金山云AI计算平台提供:
1.覆盖各地域的计算资源节点,拥有30个大型数据中心和10万台以上的服务器总量,提供强大的推理计算能力。
2.完善的云端网络,BGP带宽储备多大1Tb以上,保障推理集群的极速低网络延迟访问。
3.针对云端推理的需求,提供如NvidiaT4等型号GPU,提升云端推理计算效率。
金山云基础资源情况如下图所示:
图3-3金山云计算资源及带宽资源情况
3.3资源灵活配置
金山云提供多型号多种粒度的GPU实例和物理机,供客户按需选择。
图3-4金山云GPU计算资源
多租户之间共享物理存储资源时,通过各自文件系统对物理磁盘上的数据块进行编排,保障数据的安全性。
图3-5物理存储资源共享
3.4高并发弹性扩容
在高并发访问的情况下,访问流量急剧增加。
金山云AI计算平台可:
1.根据用户制定的策略,监控相关指标,在业务需求高峰时自动调整计算资源,在高并发场景下自动弹性扩容
2.在业务下降时,自动减少计算资源,节约资源和成本。
3.设置告警触发策略,创建定时任务,记录伸缩活动日志
图3-6高并发弹性扩容机制
4合作案例
4.1自动驾驶
⏹项目背景
某自动驾驶公司成立于2015年7月,是自动驾驶、边缘人工智能芯片和计算平台的全球领导者,致力于让智能驾驶汽车、智能摄像头和智能机器人等各种智能终端“OntheHorizon”。
客户有自建机房做数据预处理和测试,由于业务增长速度快,已有GPU集群已不能满足训练计算力的要求。
⏹金山云解决方案
金山云提供性能优越卓越的TitanV8卡、TitanXP8卡和性价比较高的2080Ti8卡和大存储容量的II型物理机用作Ceph存储,两台物理服务器之间内网带宽满足20Gbps,客户IDC和金山云VPC通过专线互通。
⏹部署架构
客户的视频和图片通过各个数据源进行上传到客户自建IDC机房。
客户通过对数据清洗、归类预处理后再通过专线把数据上传到金山云云端的存储集群。
云端裸金属集群从存储集群中获取数据,进行训练计算。
图4-1自动驾驶客户部署架构
4.2机器翻译
⏹项目背景
某机器翻译单位是中央直属机构,主要职责是中央文献对外翻译。
客户有自建机房做机器翻译推理和测试。
由于客户的业务需求和场地电力限制,需要把已有的一部分机器托管至云端,在云端训练翻译模型,同时客户要求硬件资源独享。
⏹金山云解决方案
金山云提供裸金属托管服务,解决客户电力供应不够的情况。
金山云还提供高性能V100GPU做机器翻译的模型训练,托管机器、训练集群和KS3存储服务器全部置于金山云VPC环境下。
客户IDC和金山云VPC通过专线互通,同时通过ILO口接入进行远程监控。
⏹部署架构
图4-2展示了机器翻译客户的部署架构。
用专线把客户IDC和金山云云端机房打通,并把托管一起和V100GPU集群、KS3同置于同一VPC网络环境下,KS3存储集群以独享私有化形式部署。
图4-2机器翻译客户部署架构
4.3小爱音箱
⏹项目背景
小米小爱同学为各地域的客户提供智能语音对话的服务。
小爱同学的IAAS层采由金山云提供,由于服务范围广,同时在金山云多个地域的不同机房都有部署服务,如何打通整个系统是小爱同学面临的问题。
⏹金山云解决方案
金山云在不同区域开通机房提供GPU虚拟机集群和存储集群作AI计算和存储。
同时通过网络把各地不同机房连通,降低网络访问延时。
通过调度策略把访问流量进行分发。
⏹部署架构
小爱音箱部署架构如图4-3所示。
1.金山云在北京和新加坡公有云机房提供P4卡虚机集群作推理,提供裸金属集群作存储和检索。
2.北京地区独享机房和公有云机房通过专线打通,北京地区和新加坡地区间通过Peering对等连接打通。
3.通过DNS智能解析的方式把各地域的请求发到就近位置的机房,提升响应速度。
图4-3小爱音箱部署架构
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 18 AI 计算 平台 通用 解决方案 1015