江湖门派镇山之宝五大移动GPU厂商论剑.docx
- 文档编号:11259766
- 上传时间:2023-02-26
- 格式:DOCX
- 页数:42
- 大小:3.09MB
江湖门派镇山之宝五大移动GPU厂商论剑.docx
《江湖门派镇山之宝五大移动GPU厂商论剑.docx》由会员分享,可在线阅读,更多相关《江湖门派镇山之宝五大移动GPU厂商论剑.docx(42页珍藏版)》请在冰豆网上搜索。
江湖门派镇山之宝五大移动GPU厂商论剑
移动处理器厂商中CPU基本都是源自ARM,同架构下各家厂商的表现都差不多,差别主要在GPU上,今天就来看看移动GPU厂商都有什么样的镇山之宝吧。
《谁能笑傲江湖?
移动处理器门派那些事儿》一文中我们把2012年的移动处理器的厂商做了一番介绍,并按照各自的属性给划分了门派。
既然把他们称为江湖门派,那么每一个门派总要有自己的绝活,移动处理器厂商中CPU基本都是源自ARM,同架构下各家厂商的表现都差不多,能成为镇派之宝的绝学都是在GPU上。
做能移动处理器的厂商可以洋洋洒洒列出几十家,我们精挑细选了近年出过风头的依然有13家,但是说到设计GPU核心,这个名单就短多了,主要的厂商甚至不到5家。
2012年的移动GPU份额调查
以2012年JPR公布的移动GPU市场份额来看,所有移动GPU中Imagination的PowerVR占据了50.1%的份额,高通的Adreno占据了33%,剩下的就被Vivante、ARM、DMP、NVIDIA瓜分了,不过整体份额比之前两位就差远了。
作为移动处理器的后续篇章,今天我们就来介绍一下移动处理器中GPU厂商的情况,小编只选了5家我们平时接触到相关产品的厂商——Imagination、高通、ARM、NVIDIA及Vivante,DMP和Takumi虽然份额不比ARM低,但是我们身边还真没多少处理器使用他们的GPU方案。
机是一样的机,GPU上见高低。
◆ 移动GPU的影响实例:
不同机型画质大不同
在水果与机器人的战争中,iOS阵营的应用软件及游戏表现的很统一,特别是在游戏方面,iPadmini这样的规格精简版表现普遍都会好于Android版,Android阵营中高帅富机型与DS机型齐飞,同一个游戏在不同机型上的表现环肥燕瘦,各不相同。
《史诗城堡》benchmark中不同机型画质不一
以之前测过的一款名为《史诗城堡》的benchmark为例,它在高通、NVIDIA、PowerVR、Mali等GPU上的画质表现差异很大,有的地面纹理很清晰,有的就直接很模糊,锯齿严重。
这个问题既不是第一次被发现,也不是第一次有解释,很多玩家都已经知道了造成这种画质差别的主要原因是游戏的纹理数据不一样,再深入一点就是游戏开发商针对每个处理器平台的特点使用了不一样的纹理压缩格式,那些重点照顾的GPU的游戏画面会很漂亮,之外的GPU有可能会存在各种问题。
由于移动GPU的性能弱、带宽低(下文还有解释),游戏模型的纹理不可能很精细,至少不能跟桌面GPU相比(手机的小屏幕、高PPI已经帮着遮羞不少了),在带宽有限的情况下哪种纹理压缩格式压缩比更高、画质损失最小就成了关键,游戏开发商选择支持哪种纹理压缩格式就带来了画质上的不同。
目前五大GPU厂商中每家的移动GPU产品至少都会支持一种通用的纹理压缩格式,有的还支持自己的独家纹理压缩技术,简单来看一下。
主流纹理压缩标准:
ETC、PVRTC、S3TC简介
首先说OpenGLES标准中的,2.0版规范中将ETC(EricssonTextureCompression)作为基本的纹理压缩标准,这是大部分移动GPU都会支持的纹理标准。
OpenGLES3.0中还引入了ETC2、EAC纹理压缩格式,二者基本一致,只不过EAC主要用于1-2通道数据的情况,目前ECT2还在改进中,除了高通的Adreno320之外还没有移动GPU支持,Tgera4也不行。
此外,OpenGLES3.0中还有一种可选纹理压缩格式——ASTC(AdaptiveScalableTextureCompression,自适应扩展纹理压缩),这是ARM提出的,去年被Khronos组织认可,纳入到标准中来,不过并不是强制性的,目前也只有Mali-T600系列支持。
Imagination旗下的PowerVRGPU支持的是PVRTC(PowerVRtexturecompression)和ETC,高通的Adreno2xx系列支持ETC之外还有3Dc和ATITC,后两者都是原来的ATI开发的,Adreno320除了前面三种标准之外还支持ETC2纹理压缩。
ARM的Mali-300/400系列支持ETC,Mali-T600还多了ASTC纹理支持。
NVIDIA的Tegra系列更有趣,之前的说法称Tegra支持自己的纹理格式,实际上除了通过的ETC之外,Tegra支持的纹理叫做S3TC(S3TextureCompression),也被称为DXTn或者DXTC,S3TC是S3公司在1999年引入的,后来被DX6.0和OpenGL1.3吸收为官方标准,DXTC相当于Windows版的名字,S3TC是OpenGL中的名字。
说到S3TC,之前苹果和HTC大打专利战的时候就涉及到了这个标准,S3已经归为VIA威盛旗下,HTC和威盛又有同一个老板——王雪红。
为了支援HTC打专利战,威盛去年就把S3部门出售给了HTC,算是左手倒右手吧。
S3TC是DX显卡都支持的标准,NVIDIA也在Tegra中支持了这个标准,S3TC根据不同算法又分为DXT1-DXT5这五个级别,Terga支持的实际上是DXT1、DXT3和DXT5。
Vivante的GC系列也支持ETC和S3TC,跟NVIDIA的Tegra路线相同,以前都说Vivante支持的是NVIDIATegra的纹理数据,实际上二者是选择了共同的路线而已,DXT也不是NVIDIA的专利。
目前来说我们能常用到的纹理压缩主要是ETC、PVRTC、S3TC、ATITC这四种种。
主流紋理压缩格式优缺点
常见的TC格式压缩比
先来看压缩比,如果无失真的PNG压缩容量是5.4MB,那么S3TC和ETC都能压缩到1.1MB,PVRTC压缩最高,可压缩到528KB,不过PVRTC的问题在于它只支持PowerVR系列GPU,有排他性,高通的Adreno支持的ATITC同样有排他性,其他厂商并不支持。
ETC是最通用的纹理压缩格式,不过ETC并不招厂商待见,因为ETC纹理压缩不支持alpha通道,所以只能用于压缩不透明的材质,不过ETC也有自己的优点,几乎所有的安卓设备都可以支持ETC压缩的GPU加速。
S3TC无论压缩速度还是压缩比都不错,也支持GPU加速,而且是桌面显卡通用的压缩格式,看起来是最完美的选择,可惜的是移动市场跟PC不一样,大家各自为王,NVIDIA现在还没强大到让其他GPU厂商低头采用S3TC标准的程度,因为S3TC说到底还是一种私有的标准,有专利上的麻烦。
ETC2压缩标准补全了ETC1不支持alpha通道的缺陷,支持更高质量的RGBA(RGB+Alpha)压缩,而ARM提出的ASTC标准在压缩速度和质量上比S3TC要好,但是这两种压缩格式都是新出的,支持的厂商实在太少了。
◆ 移动GPU渲染原理的流派——IMR、TBR及TBDR
移动GPU相对桌面级的GPU只能算是未长大的小孩子,虽然小孩子在某些场合也能比成人更有优势(比如杂技、柔术之类的表演),但在力量上还是有先天的差别,主要表现在理论性能和带宽上。
与桌面GPU动辄256bit甚至384bit的位宽、1.2-1.5GHz的高频显存相比,移动GPU不仅要和CPU共享内存带宽,而且普遍使用的是双32bit位宽、LPDDR2-800或1066左右的内存系统,总带宽普遍在10GB/s以内,悲催的Tegra3使用的还是单通道内存模式,搭配DDR3L的带宽不过6.4GB/s。
目前GPU性能最强大的iPad4带宽也不过17GB/s(图片源于Anandtech)
移动处理器中内存带宽最高的是iPad3/4,因为他们使用Retina屏幕,2048x1536的高分辨率对GPU带宽要求更高,不过就算是这两款产品,17GB/s的带宽与PC显卡上动辄200GB/s以上的带宽相比还是小儿科了。
没有高带宽就没有大容量纹理数据,也就不会有高画质。
尽管带宽不是制约移动GPU发展的唯一因素,但是在目前的限制下,移动GPU厂商关心的头等大事就是如何在尽可能小的带宽需求下提升GPU性能及画质,前面介绍的纹理压缩是一个方法,还有一种就是使用不同的渲染方式,主要有IMR、TBR及TBDR等。
伤不起的“立即渲染模式”——IMR
IMR(ImmediateModeRendering)就如字面意思一样——提交的每个渲染要求都会立即开始,这是一种简单而又粗暴的思路,优点缺点都非常明显,如果不用为性能担忧,这种方式会很省事,但是IMR的渲染实行的是无差别对待,那些遮蔽处理的部分依然会被渲染处理器,这也导致无意义的读写操作更多,浪费了大量性能和带宽。
总之,IMR这种渲染方式在移动GPU上的评价只能是“负分,滚粗!
”。
变聪明了的“贴图渲染”——TBR
IMR傻大粗的做法不可取,那就来一个聪明点的方式——TBR(TileBasedRendering,贴图渲染),它将需要渲染的画面分成一个个的区块(tile),每个区块的坐标通过中间缓冲器以列表形式保存在系统内存中。
这种渲染方式的好处就是相对IMR减少了不必要的渲染任务,缺点就是遮蔽碎片依然会少量存在,而且需要中间缓冲器。
TBR渲染将游戏画面分为不同的区块
再次进化的渲染方式登场——TBDR
TBR虽然比IMR聪明多了,不过还是存在不少缺陷,TBDR(TileBasedDeferredRendering,贴图延迟渲染)闪亮登场,它跟TBR原理相似,但是使用的是延迟渲染(DeferredRendering),合并了完美像素,通过HSR(HiddenSurfaceRemoval,隐藏面消除)等进一步减少了不需要渲染的过程,降低了带宽需求。
实际上这些改变和PC上的渲染有些相似。
TBDR渲染的一个关键是延迟渲染
其他几家厂商用的都是TBR技术,TBDR主要是Imagination在使用,这也是他们最大的筹码之一。
在微软的DX11.1升级中也有提到支持TBDR,因为Windows8系统还专门为平板和触控优化,对TBDR这种移动平台常用的技术加以优化也是必然的。
◆ 无冕之王——Imagination公司的PowerVR
Imagination技术公司并不介入ARM处理器生产,他们专注于是移动GPU技术授权,因为专业所以强大,Imagination绝对是移动平台GPU授权的老大,即便是Intel的Atom处理器及桌面的GMA500也使用了PwerVR系列GPU核心,他们的触角伸得很广,并不局限于ARM阵营。
Imagination也是一家英国公司,早前还有个部门VideoLogic,在3D加速卡方兴未艾的那个年代,VideoLogic也曾参与了Voodoo、NVIDIA、ATI等公司激战3D加速卡的战役,可惜最终存活的只有NVIDIA和ATI(AMD),不过失之东隅收之桑榆,Imagination的移动GPU技术部门PwerVR反倒有所收获,在移动市场上他们又可以俯视NVIDIA了。
Imagination公司的授权伙伴主要有Intel、苹果、联发科、LG、高通、瑞萨、三星、海思、Marvell、索尼等等,几乎都是大腕,其中Intel和苹果还是Imagination公司的大股东之一。
近年来Imagination公司也不再满足于移动GPU技术授权了,去年底以1亿美元的代价收购了MIPS公司的专利和资产,已经把MIPS架构融入到自家Mtera处理器中了。
CES展会上,Caustic公司展出了Caustic2500/2100光线追踪加速卡,而这家公司也被Imagination收购了,看来他们的业务范围还在扩大。
至于具体的产品,Imagination的PowerVR历史悠久,型号众多,我们主要介绍PowerVRSGX5、PowerVRSGX5XT及未来的PowerVR6系列吧。
PowerVR系列GPU
主力产品:
PowerVR5、PowerVR5XT
PowerVRSGX5系列主要有SGX520、SGX530、SGX531、SGX535、SGX540以及SGX545,常见的是SGX531、SGX540和SGX545,联发科的双核产品中整合的就是SGX531,,不过叫做SGX531Ultra,因为其频率大幅提高到了522MHz。
SGX540在TI的OMAP44x0系列很常见,Intel的AtomZ2460使用的也是SGX540,CloverTail平台的AtomZ276使用的就是SGX545了。
PowerVRSGX5系列使用的是USSE架构(UniversalScalableShaderEngine,通用可扩展渲染引擎),支持OpenGLES2.0/1.1,SGX535/545还支持DX9,SGX545支持DX10.1。
PowerVRSGX5XT是SGX5的升级版,主要有PowerSGX543、SGX544、SGX554三款,使用了USSE2引擎,峰值浮点性能是USSE引擎的2倍,强化了多核集成,这三者最多可以同时集成16个,苹果最新的A5、A5X、A6、A6X分别集成了SGX543MP2、SGX543MP4、SGX543MP3及SGX554MP4。
PowerVR544MP架构
图形规范方面,PowerVRSGX5XT依然支持OpenGLES2.0/1.1、DX9,不过该系列依然增加了新元素,自SGX544开始支持PVRTC2纹理压缩格式,全系列引入了部分OpenGLES3.0中才有的技术,比如MRT多目标渲染、遮蔽查询、无缝立方体映射、浮点纹理等新功能。
今年的GDC大会期间Imagination称5XT系列将会支持部分OpenGLES3.0技术
未来王者——PowerVR6向1TFLOPS水平迈进
虽然PowerVRSGX5/5XT性能并不落后,但是Imagination还是早早地在2012年的CES展会上公布了新一代PowerVR6系列移动GPU,架构代号Rogue。
Imagination称目前的移动GPU性能水平是100GFLOPS级别的,而PowerVR6则是朝着1000GFLOPS设计的。
1TFLOPS是个等级,我们以桌面显卡为例,HD7850是1.76TFLOPS,HD7770是1.28TFLOPS,HD7750则是0.819TFLOPS,这意味着PowerVR6系列的最高性能甚至可以超过HD7750级别的桌面显卡,牛的一X。
当然,这么高的性能只有PowerVR6系列的的旗舰型号可以达到,从高到低总计有G6630、G6400、G6430、G6200、G6230、G6100等型号,其中G6100、G6200/6400系列专为核心面积优化,适合组成单核、双核或者四核设计。
Imagination能成为移动GPU的老大显然会有很多独特优势和技术,他们的GPU不是性能最强的,也不是核心面积最小的,不过PowerVR的单位功耗性能、单位面积性能表现都很强,多核集成、配套的开发工具、纹理压缩格式、TBDR渲染技术都是他们冲锋陷阵的利器,综合起来PowerVR就是表现最优秀的移动GPU授权之一。
堆砌大篇PowerVR详细架构的文字也没什么意思,其中一个让人感兴趣的问题是PowerVR5及5XT是否使用了统一渲染架构。
从找到的资料来看,PowerVR的USSE引擎中第一个U代表的意思在目前的官网上是指Universal通用,但是早期的发布新闻上这个U代表的是Unified,也就是统一渲染的意思。
架构图中PowerVR5之后的GPU中不再有VS和PS这样的单元,都叫做“UnifiedScalableShaderEngine”(统一超标量渲染引擎),再加上它们都支持DX10规范,因此PowerVR5之后的GPU实际上已经是统一渲染架构了。
再考虑到PowerVR5是在2005年宣布的,桌面级的统一渲染架构是2006年发布的,这就可以说明Imagination的技术实力是多么强大。
点评与展望:
PowerVR6啥时候上市
对一个占据了绝大多数市场份额的公司也没有继续赞扬的必要了,苹果、联发科等大客户的销量就能说明一切。
虽然发布了好几年了,PowerVR5/5XT依然是目前追求极致游戏性能的最佳选择之一。
问题是PowerVR6,架构发布及PPT宣传都快一年半了,现在连影子都没。
PowerVR6的性能提升很夸张,制程工艺及实际应用都要跟得上才行,前几天正好有新闻说Imagination联合TSMC宣布将使用后者的16nmFinFET工艺制造,这一下子就给支到至少2014年了。
发布时PowerVR6已经有6家厂商换的授权,其中三家是TI、联发科和ST-Ecricsson(意法-爱立信),还有三家没宣布,不过结合之后的消息来看三家没公布名称的厂商至少有海思,而LG也在今年的CES展会上首次公布了PowerVR6平台,说明他们也在授权内,瑞萨也展示过PowerVR6平台,算起来差不多就是这三家了,苹果是否愿意获得PowerVR的授权就不得而知了。
只是时过境迁,TI目前退出了消费级嵌入式处理器市场,意法-爱立信也关闭了,即便是公开展出的PowerVR6也全都是大块头,集成到智能手机和平板所用的超低功耗处理器中还很远。
◆ 江湖富二代——ARM公司的Mali
ARM公司不仅提供ARM处理器授权,他们也有一整套GPU授权方案——Mali。
由于亲生的血缘关系,Mali在好爸爸ARM的帮助下也攻城掠地,很多不具备独立开发GPU技术的芯片供应商都直接使用了ARM处理器+MaliGPU的设计,比如三星、瑞芯微、展讯、意法半导体、全志等,其中三星和全志还是出货量大户,所以MaliGPU的份额和出货量可不低。
ARM官网显示MaliGPU在智能电视和Android平板中占有率第一,智能手机市场占有率超过20%,2012年出货量高达1亿(一说是1.5亿),使用MaliGPU的终端超过200多种。
说到Mali的历史,ARM原本也是没有GPU授权的,此前他们也是使用Imagination的GPU核心,Mali其实是源于2006年收购的一家挪威特隆赫姆地区的移动GPU芯片厂商Falanx,ARM公司的MaliGPU开发中心也就落户在哪里,现在Mali已经变成了ARM的亲儿子了。
主力产品:
Mali-300/400/450、Mali-T600
ARM公司目前的主力产品主要分为两个层次,Mali系列支持OpenGLES2.0,有Mali-300、Mali-400及Mali-450三款,架构代号Utgard(乌特加德,WOWer泪奔),MaliPlus系列支持OpenGLES3.0,有Mali-T604、Mali-T624、Mali-T628及Mali-T678四款(其实还有Mali-T658,官网为啥不列出),使用的架构代号Midgard(米德加德),全都是北欧神话中的仙境。
Mali-300是ARM第一款支持OpenGLES2.0规范的GPU核心,拥有8KBL2缓存,使用AMBAAXI总线,支持1080p分辨率下的4xMSAA抗锯齿,主要使用65nm工艺,LP工艺频率240MHz,GP工艺下频率可达400MHz。
Mali-400MP在Mali-300基础上做了改进,制程和频率不变,不过L2缓存可配置8-256KB,而MP后缀的加入意味着Mali-400可配置多个GPU核心,每个核心包括内存系统在内核心面积为4.7mm2,最多可配置4个核心,三星GalaxyS3中使用的Exynos4412就是Mali-400MP4的配置,因为32nmHKMG工艺的原因,频率也提高到了440MHz,Note2中则是533MHz。
Mali-450MP则是Mali-400MP的升级版,制程工艺升级到40nm,40nmLP工艺的频率是240MHz,GP工艺是480MHz,可配置L2缓存是8-512KB,四核的Mali-450MP4、256KBL2缓存再加上内存系统的核心面积是8.6mm2,最多可集成8个核心,ARM宣称其性能是Mali-400的2倍,不过使用Mali-450MP的处理器不多见。
Mali-T600系列是去年才开始露面的新一代产品,支持OpenGL3.0和DX11规范,使用了统一渲染架构,支持OpenCL和DirectCompute加速,T600系列实际上也发展了两代了,露面最早的Mali-T604是第一代,Mali-T624/628/678等后续产品则是第二代架构了。
Mali-T604最早在三星的Exynos5250中应用,其CPU部分是双核Cotrex-A15,GPU就是T604了,使用的总线升级到AMBA®4ACE-LITE,L2缓存提高到32KB,最高可配256KB,内建的MMU内存管理单元支持虚拟内存,最多可集成4核。
ARM没有公布Mali-T604的具体频率及核心面积、性能,只说是前代产品的5倍性能。
Mali-T624的规格参数基本与T604一致,不过核心升级到了第二代Midgard,T628最多能支持8核配置。
昙花一现的Mali-658还是第一代Midgard架构,现在已经被二代Midgard架构的T678取代,之前的资料显示T658的性能是Mali-400MP的10倍,计算性能是后者的4倍,Mali-678只会比这个指标更强。
Mali-T600还支持ARM开发的ASTC纹理压缩格式,现在已经成为OpenGLES规范中的一个可选纹理标准,其压缩率更高,内存带宽要求更低。
点评与总结:
ARM的MaliGPU给人的感觉更像是PC中的公版显卡一样,积极支持各种最新标准,注重性能功耗比,以Mali-400MP4为例,整合256KBL2缓存及内存之后核心面积也只有6.8mm2,40nmLP工艺及250MHz频率下像素填充率就有1000MPix/s,28nm工艺的Tegra4的GPU核心面积10.5mm2,像素填充率为2688MPix/s,但是它的频率高达672MHz,Mali-400MP4如果使用同样的工艺和频率的话性能不会比它差,Mali-T600系列号称同样核心面积下IPC性能提高了50%。
但是MaliGPU的问题在于目前授权使用的大部分还是Mali-400MP以下的,Mali-450MP都没有多少厂商集成,Mali-T604除了在三星的Exynos5250中有过应用,发布过一年多以来未见其他处理器集成。
即便是三星这个老朋友,新一代的Exynos5Octa也改用PowerVR的GPU核心了,Mali又少了一个可靠的合作伙伴。
尽管三星的换门会给Mali带来一些短暂的麻烦,不过ARM的CPU+GPU一条龙方案对很多实力不足的厂商还是有很强的吸引力,在中低端市场MaliGPU依然有自己的一席之地,份额不可小视。
◆ 未来的和尚会念经——高通的Adreno
作为屈指可数(如果不是唯一一个)可以自己改进ARM指令的移动处理器厂商,说高通是安卓阵营移动处理器一哥估计没人会反对,再加上高通的3G技术及基带上的优势,高通处理器绝对是近年来最热门的选择之一,顺带着也把高通的Adreno图形核心带火了。
跟AR
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 江湖 门派 宝五大 移动 GPU 厂商 论剑