CPU與GPU融合之勢難擋

文章來源：泛普軟件

12月9日從國外媒體傳出消息稱，英特爾將收購圖形處理器（GPU）廠商Nvidia,目前無法確定的只是價格問題。鑒于英特爾和Nvidia在芯片產(chǎn)業(yè)的地位，這一條消息很快占據(jù)了很多媒體的頭條。自從2006年7月AMD以42億美元的現(xiàn)金和5700萬股AMD普通股收購GPU生廠商ATI之后，已經(jīng)多次爆出英特爾會收購Nvidia的消息。而今隨著GPU和CPU的融合趨勢明顯，人們似乎更有理由相信這一消息的真實性。

實際上，2009年處理器領(lǐng)域最重要的變化之一就是集成了圖形處理器GPU的新型處理器異軍突起，并已成為下一代通用處理器的發(fā)展方向。繼Nvidia公司和AMD公司率先采用這一結(jié)構(gòu)后，英特爾公司正在加速開發(fā)采用這種結(jié)構(gòu)的32納米的Westmere處理器。此外, 由于GPU理論上的浮點運算性能已經(jīng)大大超越了通用處理器,CPU加上GPU已經(jīng)成為超級計算發(fā)展的重要方向。引人注目的是，我國新開發(fā)成功的“天河1號”超級計算機也采用了上述的CPU加上GPU的結(jié)構(gòu)。而最新的消息是，AMD本月初宣布其將剝離其生產(chǎn)線，而將重點轉(zhuǎn)向融合CPU與GPU為一體的Fusion芯片APU，也是這一趨勢的一個具體體現(xiàn)。

用GPU處理非圖形運算

多核處理器早已成為業(yè)界的主流。但是，4核的同構(gòu)處理器并不一定能發(fā)揮4倍的性能。以目前Intel功能最強的Core i7處理器為例，其結(jié)構(gòu)方面相比上代Core 2 Quad發(fā)生了天翻地覆的變化：引入三級緩存、高速Q(mào)PI總線、三通道DDR3內(nèi)存控制器、超線程技術(shù)和諸多內(nèi)核及指令集優(yōu)化等; 然而測試表明，這些技術(shù)共同作用的結(jié)果是：同頻率下i7 965的綜合性能比上代QX9770僅提升約20%，很難再有單核Pentium D到雙核Core 2 Duo那種飛躍式提升。另外，將AMD的Phenom II處理器與Phenom處理器相比，其性能的提升主要緣于45nm工藝帶來的高頻率，其中核心結(jié)構(gòu)優(yōu)化的貢獻僅占5%。

不久前美國Sandia國家實驗室的一項模擬測試結(jié)果表明:對于超級計算機而言，由于受存儲機制和內(nèi)存帶寬的制約，8核之后的16核、32核以至于64核通用處理器可能會引起效率的大幅度下降。這說明，多核處理器核的數(shù)目并不能無限制地增加。另外，有消息說，美國Sun公司未能如期開發(fā)出16核處理器，除受并購因素影響外，也有這方面的原因。

在這種情況下，圖形處理器GPU異軍突起。過去在處理圖形渲染時，根據(jù)表達三維空間的三角形數(shù)量或在三角形著色時紋理清晰度的不同，各級處理的負載將會發(fā)生變化。在傳統(tǒng)結(jié)構(gòu)中，由于各級處理的運算單元數(shù)量是事先決定的，因此，在負載發(fā)生變化的情況下，固定的運算單元數(shù)量會成為阻礙系統(tǒng)整體處理能力提高的瓶頸。

近年來，研究人員對圖形指令結(jié)構(gòu)進行了深入研究。它們發(fā)現(xiàn)標量數(shù)據(jù)流所占比例正在逐年提升，如果還是堅持SIMD(單指令多數(shù)據(jù)流)的設(shè)計會讓效率下降。早期的GPU，針對圖形處理的關(guān)鍵計算將處理單元分為頂點著色器、光柵化引擎、紋理貼圖單元等不同部分，分別完成不同的計算任務(wù)。而新一代GPU推出了統(tǒng)一渲染結(jié)構(gòu)，統(tǒng)一的計算單元取代了上述的不同單元。這種結(jié)構(gòu)集成了多個支持頂點坐標計算及三角形著色等多級處理的運算單元，各運算單元的任務(wù)可以根據(jù)各級處理的負載進行調(diào)整。該統(tǒng)一的計算單元被稱為統(tǒng)一標量著色器，也被稱做流處理器。每個流處理器只完成一維標量的操作。

為此，研究人員對 GPU做出變革：流處理器不再針對矢量設(shè)計，而是改成標量ALU（算術(shù)邏輯運算器）單元。也就是說，把GPU的Shader(著色器)單元內(nèi)部的運算器ALU完全拆散，設(shè)計成為各自獨立的流處理器，并分配相應(yīng)的指令發(fā)射端和控制單元。這樣的結(jié)構(gòu)在面對任何形式的指令(包括組合指令)時，都能保證最高的執(zhí)行效率。即這種結(jié)構(gòu)不僅擁有很強的圖形處理能力，而且能夠處理非圖形運算指令。

新結(jié)構(gòu)的出現(xiàn)帶動了在以浮點運算為中心的通用處理中使用GPU的研究。理論上來講，只要是浮點運算指令都可以交給GPU來處理。為了把GPU改造成為真正的通用處理器，研究人員在大規(guī)模擴充流處理器數(shù)量的同時，也對內(nèi)核結(jié)構(gòu)進行了優(yōu)化與改進，使其更適合進行超大規(guī)模的并行數(shù)據(jù)處理。

GPU不斷進步

2006 年11月，Nvidia公司推出基于G80結(jié)構(gòu)的GeForce 8800 GPU。接著，2007年5月，AMD公司發(fā)布了Radeon HD 2000系列GPU產(chǎn)品。這兩款產(chǎn)品都采用了統(tǒng)一渲染結(jié)構(gòu)。這種結(jié)構(gòu)使GPU的運算單元變得通用，并可以根據(jù)圖形渲染處理的負載，靈活地改變運算單元的任務(wù)。

在傳統(tǒng)結(jié)構(gòu)中，由于各級處理的運算單元數(shù)量是事先決定的，因此，在負載發(fā)生變化的情況下，固定的運算單元數(shù)目會成為阻礙系統(tǒng)整體處理能力提高的瓶頸。統(tǒng)一渲染結(jié)構(gòu)的出現(xiàn)使得在以浮點運算為中心的通用處理中也可以使用GPU。采用這種結(jié)構(gòu)后，GPU運算單元可在每次處理時讀入指令和數(shù)據(jù)，使其通用性得到了提高。因而，可以說GPU提高了計算機的浮點運算指令的執(zhí)行速度。

2008年美國克萊公司推出企業(yè)級電腦CX1，使用了Tesla C1060主板。由于該主板有圖形處理器GPU，因而顯著地提高了CX1超級電腦的運行速度。源于此，GPU也被稱為“電腦加速器”。對于浮點運算，GPU使用專門的運算器，能夠高速地進行并行處理，從而提高計算速度。以日本東京工業(yè)大學(xué)為例，2008年10月，它們采用170個C1070處理器后，將其超級電腦T SUBAME的系統(tǒng)綜合運行速度從每秒67兆次提高至每秒77兆次。正因為如此，有人將GPU處理器稱為加速處理器。

不過， GPU目前面對的問題是，只能讀取它專用的存儲器，不能讀取電腦主存儲器。GPU處理器將需要的數(shù)據(jù)復(fù)制到供GPU使用的存儲器中，并調(diào)用在GPU中執(zhí)行的函數(shù)；此后，GPU根據(jù)處理器的指令對互相獨立的數(shù)據(jù)使用多個內(nèi)核進行并行處理; 最后，處理器會從GPU所使用的存儲器中獲得處理結(jié)果。正因為此，在某些情況下，GPU不能充分發(fā)揮其浮點運算速度極快的優(yōu)點。

如上所述，現(xiàn)在的GPU可以認為是一個多功能的并行計算處理器。有專家預(yù)計，至2010年末世界上大部分的PC機將采用GPU進行計算。

CPU+GPU 組合優(yōu)勢明顯

CPU和GPU各有所長。一般而言，CPU擅長處理不規(guī)則數(shù)據(jù)結(jié)構(gòu)和不可預(yù)測的存取模式，以及遞歸算法、分支密集型代碼和單線程程序。這類程序任務(wù)擁有復(fù)雜的指令調(diào)度、循環(huán)、分支、邏輯判斷以及執(zhí)行等步驟。例如，操作系統(tǒng)、文字處理、交互性應(yīng)用的除錯、通用計算、系統(tǒng)控制和虛擬化技術(shù)等系統(tǒng)軟件和通用應(yīng)用程序等等。而GPU擅于處理規(guī)則數(shù)據(jù)結(jié)構(gòu)和可預(yù)測存取模式。例如，光影處理、3D 坐標變換、油氣勘探、金融分析、醫(yī)療成像、有限元、基因分析和地理信息系統(tǒng)以及科學(xué)計算等方面的應(yīng)用。

盡管在不少方面GPU表現(xiàn)優(yōu)異，但在一段時間內(nèi)，還會維持CPU與GPU各自發(fā)展的態(tài)勢，它們可以繼續(xù)在各自擅長的領(lǐng)域發(fā)揮作用，而未來的演進方向是相互取長補短，走向融合。從CPU角度來講，為了提高處理能力，以前是多線程，目前是多核，將來的發(fā)展方向是眾核。CPU正向不斷增加吞吐量和提高能效性的方向發(fā)展；而從GPU角度來講，其可編程性能本來是在芯片內(nèi)部固化的程序，然后發(fā)展到局部可編程, 最后是完全可編程。也就是說，GPU是在提高所處理的吞吐量的同時，向通用處理的方向發(fā)展。

今后，CPU+GPU的異構(gòu)計算結(jié)構(gòu)將引領(lǐng)處理器的發(fā)展方向，這也成為下一代超級計算的發(fā)展方向。目前設(shè)計GPU+CPU架構(gòu)平臺的指導(dǎo)思想是：讓CPU的更多資源用于緩存，GPU的更多資源用于數(shù)據(jù)計算。把兩者放在一起，不但可以減小在傳輸帶寬上的花銷，還可以讓CPU和GPU這兩個PC中運算速度最快的部件互為幫襯。其原因是，CPU中的運算器通常只有幾個ALU，而GPU中的ALU則比CPU的數(shù)目多很多。另外，CPU中高速緩存相對比較多，而GPU中的高速緩存則比CPU少很多。必要的時候，CPU可以幫助GPU分擔一部分軟件渲染工作，另一方面GPU可以使用主流編程語言來處理通用計算問題。這就相當于CPU多了一個強大的浮點運算部件，而GPU多了一個像素處理單元。

融合產(chǎn)品已經(jīng)出現(xiàn)

2009年1月美國AMD公司在“2009 CES”展覽會上展出了對抗英特爾“Atom”處理器的筆記本電腦平臺“Yukon”（開發(fā)代碼）。Yukon的特點是，把微處理器“Athlon Neo”和圖形處理器“ATI Radeon X1250”集成在一個芯片中，從而充分利用了圖形處理器的運算功能。Yukon不僅微處理器性能較強，而且在圖形處理性能上表現(xiàn)良好。由于圖形處理器能夠成十倍地增加處理器的運算速度，可以說，圖形處理器已成為新型處理器的“加速器”。

2009年下半年英特爾宣布其Westmere將把以32nm工藝制造的CPU內(nèi)核芯片與以45nm工藝制造的DDR3存儲器控制器電路及繪圖處理電路芯片封裝在一起，并采用多芯片模塊(MCM)封裝。Intel第一款集成圖形核心的處理器開發(fā)代號為Clarkdale。Clarkdale處理器的圖形核心部分被Intel稱為“圖形內(nèi)存控制器中心”(GMCH)，其圖形核心部分基于G965/GM965時代引入的統(tǒng)一渲染架構(gòu)。

AMD公司2009年10月公布了新一代支持微軟 DirectX 11圖像標準的圖形處理器GPU。AMD一款代號為“RV870”的圖形處理器采用40納米工藝制作，其將CPU和圖形處理器集成于一個芯片之中。由于設(shè)計合理，其性能和能效比要優(yōu)于傳統(tǒng)的通用處理器。AMD還會推出采用RV870的新一代雙芯片顯卡。AMD同時具有x86平臺CPU和GPU設(shè)計能力，并很早就提出GPGPU概念，AMD的首款集成CPU和GPU的加速處理器APU將于2011年問世。由于CPU與GPU在單芯片上的集成，這款處理器將在更低的功耗下改善系統(tǒng)的整體性能。

另外，英特爾在剛剛過去的11月份宣布，它對凌動(Atom)處理器進行了問世以來的最大升級，把原先獨立的圖形功能集成到CPU中。這是英特爾首款在CPU中集成圖形的芯片，將用于上網(wǎng)本和主流筆記本。凌動處理器是英特爾采用許多新技術(shù)的低功耗產(chǎn)品，以45nm工藝制造，現(xiàn)已成為英特爾主流處理器之一。新款凌動處理器將于2009年底問世。

另一方面，英特爾公司也在緊鑼密鼓地開發(fā)將GPU和CPU集成在一起的Larrrabee處理器，并且將其作為英特爾公司每兩年推出一代新結(jié)構(gòu)處理器的按拍節(jié)發(fā)展戰(zhàn)略的核心產(chǎn)品。不過，英特爾于2009年12月宣布，其集成GPU和CPU的Larrrabee處理器將推遲至2011年在市場銷售。由于市場上有傳言英特爾會收購Nvidia,這給Larrrabee的未來蒙上了一層陰影。不過，有一點可以肯定的是，即使Larrrabee處理器不會推出，英特爾也一定會有類似產(chǎn)品推出，比如收購Nvidia后聯(lián)合推出這樣的產(chǎn)品。

CPU與GPU融合之路

● 2006 年11月，Nvidia推出GeForce 8800 GPU；2007年5月，AMD發(fā)布了Radeon HD 2000系列GPU產(chǎn)品。這兩款產(chǎn)品都采用了統(tǒng)一渲染結(jié)構(gòu)，使GPU的運算單元變得通用。

● 2009年1月AMD展出了筆記本電腦平臺“Yucon”。Yukon把微處理器和圖形處理器集成在一個芯片中，充分利用了圖形處理器的運算功能。

● 2009年下半年英特爾宣布，其Westmere將CPU內(nèi)核芯片與存儲器控制器電路及繪圖處理電路芯片封裝在了一起。

● AMD公司2009年10月公布新一代支持微軟 DirectX 11圖像標準的圖形處理器GPU。

● AMD宣布其首款集成CPU和GPU的加速處理器APU將于2011年問世。

● 2009年12月英特爾宣布，其集成GPU和CPU的Larrrabee處理器將推遲至2011年發(fā)布。

發(fā)布：2007-04-21 11:09 編輯：泛普軟件 · xiaona [打印此頁] [關(guān)閉]

相關(guān)欄目：