书签分享收藏举报版权申诉 / 12

立即下载加入VIP,免费下载

当前位置：首页 > 高等教育 > 院校资料 > AMDBulldozerBobcat架构解读文档格式.docx

AMDBulldozerBobcat架构解读文档格式.docx

文档编号：21635457
上传时间：2023-01-31
格式：DOCX
页数：12
大小：293.44KB

《AMDBulldozerBobcat架构解读文档格式.docx》由会员分享，可在线阅读，更多相关《AMDBulldozerBobcat架构解读文档格式.docx（12页珍藏版）》请在冰豆网上搜索。

AMDBulldozerBobcat架构解读文档格式.docx

与此构成鲜明对比的是，AMD现今的所有处理器，其实都还是沿用2003年推出的K8微架构，也许你会认为AMD在2007年发布了更新的K10架构，但K10只不过是K8的改良体，它的内核依然是K8体系——换言之，AMD的K8架构用到现在已经整整8年有余，这同处理器产品、制作工艺的快速更新换代构成了鲜明的对比。

在AMD的规划中，它们本该在2007年时候推出新一代革命性的微架构，但出于种种缘由，它们最后只是搞出小修小补的K10，至于所谓“革命性的新架构”则是年复一年一拖再拖，以至业界完全对此丧失了兴趣。

好在AMD在这期间成功并购了ATI，通过图形技术来弥补自身不足，尤其是这两年随着图形领域的强势，AMD在整个计算平台市场上重新恢复强势地位，并在如消费级移动市场等许多领域都给Intel带来麻烦。

图1IntelCore微架构，它的高性能奥秘主要就在于可并行解码四条指令。

假如AMD要完全恢复与Intel的对等竞争地位，推出新一代架构几乎是唯一的方法——Bulldozer和Bobcat架构的适时出台，便是这样的一个积极信号，针对桌面和服务器用户的Bulldozer，只要能够在现行K10处理器基础上提升20%的性能，就足以给Intel带来重大威胁；

而针对超便携平台的Bobcat，在面对Atom时应该可以很轻易打出性能牌。

图2Bulldozer和Bobcat架构分别面向高性能、桌面市场和超移动市场。

这种美好的期许是否会成为未来的现实？

现在，就让我们深入地了解Bulldozer和Bobcat具有哪些特性。

Bulldozer：

四路并行解码与多内核制胜

每个时钟周期能并发执行多少条指令，这个硬指标决定了CPU的指令效能——并发3条与并发4条的区别就是高达33%的性能差距。

四路并行解码

长期以来，我们都知道诸如ARM、PowerPC、MIPS等RISC架构的处理器，在指令性能上都远高于同时代的X86芯片，原因就在于RISC体系的指令系统是经过精简优化的，20%的常用指令具优先权，余下80%指令处于次级地位，那么在微架构的设计中，RISC芯片可以轻松做到4发射、也就是并发执行4条指令，而不会影响到频率的提升。

与此形成鲜明的对，X86是一种复杂的原始指令，在过去的30年间它都只停留在3指令发射阶段，一旦提高到4指令发射就会严重影响到频率的提升。

Intel的Netburst和AMD的K8体系都是3指令发射，前者不幸拥有长流水线，导致指令效能十分低下。

实际上Intel很快就意识到Netburst存在的问题，它让以色列的研发部门完成下一代架构“Merom”、也就是现在的Core架构的设计。

Core架构最大的特点就是从RISC中吸取营养，它对X86指令进行融合优化、使其变得精简——这样做固然耗费了一定的晶体管资源，但也让Core架构具备4指令发射的能力，也就是Core架构每周期能执行4条指令，而AMD同时期的K10依然只能每周期执行3条指令——这便是AMD处理器在过去数年中性能一直显著落后的关键原因。

当然你也会注意到一点，Core架构的工作频率从奔腾4的3.6GHz大幅度降低，即便目前的32纳米工艺，最高峰也只是达到3.33GHz而已，这便是4发射设计的副产物。

图3Bulldozer可并行解码四条指令，这将显著提升其指令效能。

如今，即将发布的Bulldozer最令人兴奋的地方便在于，它也是一款4指令发射的X86处理器，AMD没有详细解释它是如何做到的，但我们不难猜测，对X86指令的优化仍是唯一的途径，换言之Bulldozer从IntelCore架构的设计中汲取了营养，这也是一条非常正确的道路。

而只要具备4指令发射这要素，那么Bulldozer与Core的差距就不会是本质性的、顶多伯仲之间。

所以任何对Bulldozer执行效率的担心都比较多余——显然，结合AMD在图形领域的优势，我们不难知道它将迎来K8时代后的第二次崛起。

独特的1.5核心设计

4路并行的指令，最终将被送入整数计算单元和浮点计算单元进行处理，整数计算性能体现CPU的事务处理能力高低，比如操作系统、应用软件、服务器程序的运行，都是由整数部分决定的；

而图形处理、物理计算、视频编解码等应用涉及到浮点计算能力。

在过去，CPU是PC系统的中枢，整数性能与浮点性能同样重要，为此CPU内一般拥有相同的整数计算单元和浮点计算单元。

但如你所见，今天的情况已经大不相同：

GPU接管了大量的浮点运算，CPU的任务更多偏重于事务处理，也就是整数计算。

Intel自身没有强大的GPU资源来辅助浮点计算，为了避免产品在竞争中处于不利地位，它不得不赋予CPU同样强大的浮点性能。

而今天的AMD就不必如此，它的RadeonHDGPU擅长于浮点处理，除传统的3D渲染外，高清视频加速等重要的PC应用均由它接管，并且未来将具备越来越强的通用计算能力，并成为APU的一部分。

既然如此，委实没有太大必要继续为CPU设计更多、更强大的浮点计算单元。

这种思路在经济上也是非常合算的：

浮点计算单元要占用的晶体管资源比整数单元大得多，如果将浮点单元作精简，那么节约出的资源就可以用于增强整数计算单元，而平台的浮点计算任务则主要依赖GPU来完成。

那么，在晶体管总量、工作频率等要素均不变的前提下，整个平台的性能便可以获得显著的增长。

Bulldozer架构便是这种思路的产物。

我们在架构图中可以看出，Bulldozer一个模块内拥有2个整数单元，这一点同双核心的IntelCore架构相似；

但它却只有一个浮点计算单元，而非常规双核处理器的2个。

单纯从运算单元的数量来看，Bulldozer一个模块只能算是1.5核而非双核，被精简的部分就是浮点单元。

图4PhenomⅡ所采用的K10架构

通过图3、图4的对比，我们可以清晰地看到Bulldozer同K10架构（PhenomⅡ）的不同，除了具有四路指令解码外，Bulldozer微架构直接为1.5核设计，也就是它比K10架构多了一个整数单元。

不过，K10的每个整数单元都是由6个ALU和各一个MUL、DIV运算器构成，且具有64KB的一级数据缓存；

而Bulldozer中的整数单元，只包含4个ALU和一个MUL、DIV运算器，另外一级数据缓存的容量也削减到16KB。

这其中你会注意到两件事：

ALU数量减少，这意味着Bulldozer的单个整数单元实际性能弱于K10，但通过两个单元的合力，Bulldozer最终仍将取得明显的性能优势。

其次，Bulldozer的一级数据缓存容量显著降低，AMD这么做的理由在于：

4发射带来更高的指令效率，而不必一味依赖大的缓存；

再者缓存所用的SRAM逻辑是晶体管耗用大户，降低缓存可以令芯片变得小规模化。

AMD表示，Bulldozer模块内的第二个整数核心只需占用核心面积的12%尺寸，从芯片设计上讲这只会给整个内核增加5%的电路。

因此，这种1.5核的特殊设计，并没有消耗比K10更多的晶体管资源，在同等条件下，Bulldozer架构处理器的制造成本，同样不会高于现行的PhenomⅡ，但是性能却可以有相当显著的提升。

这一次，我们不得不说AMD干得漂亮，它仅凭借自身IC设计的高超技巧，就达成了提升处理器性能的目标。

图5Bulldozer内的浮点单元由两个核心共享，从而获得更出色的能耗和成本优势。

我们接下来对比Bulldozer与K10的浮点单元设计。

同样从图3、图4的对比中，你会惊奇地发现这两者的浮点单元设计几乎如出一辙，它们都具有两个MMX运算器和两个128位乘法累加单元（FMAC），结构也没有任何改变。

既然如此，我们就不必预期Bulldozer的浮点性能会有多大的增进，它唯一可以指望的就是Bulldozer架构处理器能有更高的工作频率。

1.5核设计的Bulldozer模块采用这样的协作机制：

当涉及整数运算时，它是以传统双核处理器的模式进行的—解码指令被分配至两个整数核心，分别运算处理至完毕；

这两个核心的协作则是通过共享的二级缓存进行的。

而涉及浮点计算任务时，这两个核心其实共同分享着一个浮点单元，其中的两个128位FMAC单元既可以被每个核心单独使用，也可以合并组成一个256位FMAC单元。

另外，为了获得最大程度的性能功耗比，Bulldozer架构还支持共享、专用单元之间的动态切换。

不论从哪一个角度来看，Bulldozer的设计都相当值得称道，假如我们将目光转移到图形领域，便会发现AMD在过去的两年，便是用小核心加多数量的做法成功地压倒对手，获得市场领先。

现在，AMD打算在CPU领域重复这样的做法，尽管产品推出尚需时间，但我们推断Bulldozer大有希望成为又一代经典的微架构。

共享线程设计

超线程已经是CPU非常重要的功能，以至于Intel将是否具备超线程功能，作为高、中、低端产品线的划分依据，这也是Corei7/i5/i3的重要划分依据。

Bulldozer架构同样支持多线程功能，AMD则宣称Bulldozer的特殊设计让它具有更出色的多线程能力。

AMD认为，Intel超线程技术的问题在于，当两个线程同时争抢一个内核资源时，很容易陷入困顿的情况，此时CPU性能不增反降。

这在理论上看起来并没有错，但实践证明，Intel有足够多的技术手段解决这个问题，至少在这一代Coreix系列处理器中，它的超线程技术还是非常管用的。

图6资源高度共享，也让Bulldozer架构在多线程机制上具有效率优势。

那么，我们现在来看看Bulldozer的超线程技术有哪些不同。

众所周知，当前的双核、四核和六核处理器事实上由单个处理器简单捆绑而成，这些处理器可以共享L2或L3高速缓存，通过缓存来交换数据，但内部的运算单元本身，却是相互隔离的—这好比就是一个个相互独立的房间，当你要走到另一间，就得首先走出房门、通过走廊，然后进入另一个房间才行。

而Bulldozer是基于集群化多线程架构，Cluster-BasedMulti-threading：

CMT，也称多簇式多线程技术。

它一个模块内部的两个整数单元和浮点单元是高度共享的，这些运算单元紧密地联系在一起，动态共享部分资源并协同处理两个线程。

每一个模块都具备可以将一个大任务细分为多个并行任务的能力，这些线程处理方式可以按需要任意整合，不会对整个流水线的效能造成影响。

因此CMT技术的效能要高于传统的多线程方案。

根据AMD介绍，单个“推土机模块”可以达到80%左右的多线程性能提升，而且所用的晶体管数目似乎并不比Intel的超线程技术更多。

这样在多线程的模式中，Bulldozer在理论上确实会具有更高的效率。

不过，如果要让Bulldozer架构的潜力能够被充分释放，AMD就需要获得来自软件编程的支持，这主要涉及到操作系统—计算机运作时，操作系统总是与处理器密切协作，并负责管理线程与核心之间的关系。

AMD透露它们正在与微软、开源软件社区进行积极的合作，以便软件开发者能够理解如何有效地调度Bulldozer的多个共享计算单元。

我们不妨举例来说，如果一个程序的两个线程共享数据，也符合Bulldozer的二级缓存架构，那么在Bulldozer的同一个模块内执行就会具有很高的效率；

反之，如果程序没有针对Bulldozer进行优化，或者线程间的独立性很强，那就无法发挥Bulldozer共享计算单元的优势了。

AMD希望软件业的配合，能够充分发挥出Bulldozer的潜能，而系统本身也能够运作在更灵活的状态下。

在关于Bulldozer的线程讨论中，最有趣的莫过于传说中的“逆向超线程技术”、也就是所谓的Anti-HT。

这项技术的理念相当新颖：

即将处理器的多个核心虚拟为1个核心，类似于将工作频率提高1倍，由此获得单线程任务的飞速提升！

这个传言一出现就获得大量的关注，因为现时80%以上的应用都还无法对多线程提供良好支持，基本都运行在单线程模式下，逆向超线程技术无疑能够大幅度提升CPU的实用表现。

遗憾的是，Anti-HT最后被证明是子虚乌有，AMD在会议上对此只字不提，而在关于Bulldozer的博客中，AMD产品经理JohnFruehe作出了确定的回复：

Bulldozer的一个线程只能运行于一个核心。

第二代TurboCore动态加速技术

Intel的TurboBoost睿频加速技术在Corei7/i5中发挥出巨大的作用，而在即将推出的SandyBridge家族中它们升级到了第二代。

与此针锋相对，Bulldozer也将支持更强的TurboCore动态加速功能，并且将作为全系列处理器都具有的标准特性。

TurboCore技术最早在PhenomⅡ系列的六核心处理器中首度引入，它也是一种动态加速技术，在执行那些线程不敏感的应用时关闭部分核心，同时在功耗允许的范围内提升其他核心的电压与工作频率——但由于Phenom架构本身并没有对此作出专业设计，TurboCore的应用就显得非常有限，灵活性远不如Intel的TurboBoost方案。

而在Bulldozer架构中，每个模块的供电都是独立的，可以随时根据任务需要切断或者激活，这就赋予新一代TurboCore更强大的能力。

AMD表示，在Bulldozer的TurboCore模式下，处理器最高可获得500MHz的频率提升，从而大大加速单线程的应用。

第二代TurboCore的来临，让Bulldozer拥有与竞争对手相同的技术特性，当然我们并不认为它能够完全超越Intel的TurboBoost方案。

高度可扩展性

在现行的K10体系中，HyperTransport总线就充当中枢神经的作用，这条总线将CPU与芯片组、CPU与其他CPU之间连接为一个有机的整体。

同样，在Bulldozer架构中，HyperTransport总线也具有这样的职能，AMD可以根据需要将任意多个模块整合在一枚芯片之内，或者让多枚芯片也通过Hypertransport总线连接为一个多路计算系统。

这种高度模块化的设计能够加速芯片开发、提高产品灵活性——如果你再将目光转移到图形市场，便会发现AMD从RV700系列（RadeonHD4000系列）以来的成功，便是得益于相似的灵活策略。

图7Bulldozer具有极佳的可扩展性，理论上说AMD可以在芯片内集成任意多个核心而不会影响其协作效率。

我们不妨来看看Bulldozer架构的几款产品方案，如代号为“英特拉格斯”（Interlagos）”的Opteron6200服务器处理器将配备6个～8个模块，拥有12个～16个核心，它将取代现行8个～12个核心的Opteron6100系列；

代号为巴伦西亚的Opteron4200系列则有3个～4个模块即6个～8个核心，它将取代4个～6个核心的Opteron4100系列。

这样新一代的Opteron的核心数量大约增加了33%，而AMD则表示整体性能增益在50%左右，这足以让它有能力应对Intel的下一代Xeon平台。

Bobcat与FusionAPU：

超移动平台的重拳

Bulldozer架构针对服务器、桌面和传统的笔记本电脑市场，而Bobcat架构所针对的则是诸如上网本、类似iPAD的平板电脑、随身电脑等超移动领域，它的竞争对手便是Intel发展数代的Atom平台。

Atom实现超低能耗的秘诀就是采用顺序执行引擎，之前VIA在C3系列到C7系列处理器中也广泛使用类似技术，但这种设计让程序指令只能严格按照既有顺序运行，无法充分发挥硬件资源的效率，从而导致性能低下。

只是相对于性能，超移动平台对功耗更敏感，Atom平台凭借功耗上的优异表现获得成功，并成为超移动市场的代名词。

Bobcat是AMD第一款针对超移动领域的产品，但它并没有沿用这种顺序执行架构，而是采用乱序执行引擎，集成了两个解码器（即双发射），也就是同时间只能解码两条指令，比K8/K10的3指令发射、Bulldozer的4指令发射都精简了不少，但如果与顺序执行设计相比，Bobcat仍然可以在指令效能方面占据优势。

图8Bobcat架构示意图，它其实是在K10基础上精简而来。

Bobcat的流水线长度为13级，它拥有1个整数单元和1个浮点单元，并配备了32KB一级缓存和512KB二级缓存，完整支持ISA、SSE1/2/3、SSSE3指令集和虚拟化技术——这些技术指标看起来非常的眼熟，没错，Bobat其实就是K10架构的精简版，它的首要目标同样是低功耗、低成本，再次才考虑性能表现AMD表示，单核心的Bocat功耗指标可降低到1W以下，能够以不到一半的核心面积就获得接近主流处理器的性能，这一点让人们颇为期待。

图9OntarioAPU处理器样品，其尺寸仅相当于一枚硬币大小

Bobcat能否顺利地击败Atom、获得超移动市场的认同，对于这一点我们并不怀疑。

毫无疑问，Bocat的性能不太可能比Atom更糟，按照AMD的作风，Bocat更有可能在性能上取胜、但在功耗方面有所逊色，毕竟AMD从未在功耗方面获得优势地位。

Bocat并不会成为一枚单独的X86芯片，它只作为AMDFusionAPU融合处理器的子集。

在9月初德国柏林的IFA会议上，AMDFusion市场总监JohnTaylor公开展出了第一枚FusionAPU融合加速处理器芯片，标志着FusionAPU时代的到来。

该枚APU处理器代号为“Ontario”，主要面向上网本、嵌入式设备、平板机等超便携设备。

Ontario的CPU部分便是前面介绍的BobcatX86内核，但分为单核心、双核心两个版本，另一部分则是衍生自RadeonHD5000架构的DX11GPU——CPU与GPU在逻辑层面上高度整合在一起。

Ontario采用没有顶盖的（IHS）的“SocketFT1”封装，它是一种BGA形式、必须焊接在主板上而不会单独出售；

芯片本体尺寸只有15×

15毫米，核心面积不超过100平方毫米，当前样品的TDP热设计功耗只有9W，未来最低可降至5W的级别。

与Atom平台相比，Ontario无疑将在GPU部分占据优势，我们相信它可以轻松完成诸如1080P硬件加速这样的任务，图形能力方面，应付各种小游戏不在话下，这就会给Atom平台带来不小的压力。

除Ontario以外，AMD还计划发布代号“Zacate”的高性能版APU处理器，它主要面向入门级台式机、超轻薄笔记本、一体机等等，热设计功耗单核心18W、双核心25W，同样也采用BGA封装。

CPU内核能还是继续采用Bocat。

在IFA会议上，AMD展出一套基于“Zacate”平台的演示系统，该系统可以流畅地硬解全高清视频和《CityofHeroes》游戏，顺利开启IE9硬件加速，而相当值得称道的是它的功耗表现：

运行3D游戏或者蓝光高清视频几分钟后，在简单散热器辅助下CPU的温度只有25℃～30℃，仅仅比环境温度高出几度。

统一品牌，AMD的涅磐

在并购ATI四年之后，AMD终于完美地掌控CPU资源和图形资源，成为唯一一家拥有全平台的半导体厂商。

现在，ATI的品牌也终告淡出，GPU统一到AMD的旗帜下，这无疑将进一步加强AMD的品牌影响力。

如你所见，虽然NVIDIAFermi在图形领域来势汹汹，并且成为通用计算的绝对主导，但AMDRadeonHD5000系列凭借出色的性能和价格优势早已在PC领域建立主导地位，并且AMD将在年内推出代号“SouthernIslands”的新一代改良型GPU产品。

NVIDIA当然不怎么畏惧AMD的新产品，但AMD的GPU却给Intel带来了大麻烦。

Intel自身的图形技术非常初级，仅能满足基础的应用需要，同时Intel又担忧NVIDIA可能挑战它的强势地位，双方关系向来不睦—现在，Intel要真正面对麻烦：

Bulldozer架构完全可与自身的Core架构匹敌，AMD依靠核心数量优势来制胜的方法极有威胁，Intel已不可能继续保有像目前一样的绝对优势。

但另一方面，AMD在GPU领域拥有压倒性的优势，这种平台一体化的影响力宛如当年的“迅驰”——无论终端用户还是OEM制造商，都更喜欢成套的解决方案。

对于Intel来说，或许除了与宿敌NVIDIA结盟外，它并没有更好的办法。

尽管如此，Intel的SandyBridge仍将是一个相当强劲的对手。

SandyBridge的CPU内核在Nehalem基础上作进一步改良，指令效能获得进一步的提升。

其次，SandyBridge的GPU核心与CPU直接整合在一枚芯片中，构成真正意义上的融合处理器。

更重要的是，SandyBridge的GPU内核也经过显著改良，一举扭转整合图形性能低下的局面。

在实际测试中，SandyBridge在相同频率、维持近似功耗的条件下，其处理器性能比现行产品提升了10%左右——这样的幅度是相当可观的。

而图形性能更是比目前的Corei5提升了一倍、在绝大多数项目中都击败了AMDRadeonHD5450独立显卡，这样的成绩令业界感到震惊！

不管怎么说，我们相信AMD不会对这一点感到畏惧，它手里拥有足够好的图形技术，推出优于SandyBridge的整合芯片方案应该没有太大困难，结合Bulldozer架构带来的性能增益，AMD将会有望再度恢复与Intel的对等竞争地位，那么接下来你就会看到这两家厂商的价格战。

而在超移动市场，FusionAPU融合处理器将绽放威力，AMD这一次变得很有进取心，现在你将看到它会进入这个全新的领域、给消费者带来更多的选择。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: AMDBulldozerBobcat 架构解读

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：AMDBulldozerBobcat架构解读文档格式.docx
链接地址：https://www.bdocx.com/doc/21635457.html

AMDBulldozerBobcat架构解读文档格式.docx

热门标签