高端GPU芯片：英偉達的獨角戲？

發布時間：2022-09-21作者來源：薩科微瀏覽：2320

高端GPU作為通用計算的“加速神器”，日漸成為大型數據中心、人工智能、超算等領域的剛需。長期以來，英偉達在高端GPU市場占據主導地位，市場占有率一度超過90%。目前來看，國內企業突破英偉達等國外公司的壟斷仍然任重道遠，但國內基于架構創新的DSA（特定領域架構，即針對特定領域的可編程處理器）芯片產品日漸豐富，可能會帶來一些曙光。

高端GPU與傳統GPU“涇渭分明”

20世紀90年代，PlayStation等游戲主機的發布和彩色顯示器的出現，催生了3D游戲的萌芽。而彼時的3D制作主要依靠計算機的CPU執行，計算任務需要串行排隊，難以滿足游戲畫質的提升需求。英偉達的GeForce 256，將“GPU”概念推向市場。自此，光線追蹤等圖形圖像處理任務有了專用芯片承載，在提升3D畫質的同時，也提升了計算機的整體效能。

隨著超算等高并發性計算需求不斷增長，GPU用于計算任務的可能性受到業界關注。英偉達首席科學家David Kirk認為，GPU的浮點運算和并行計算能力不應該局限于圖像渲染。在他的倡導下，英偉達以推動GPU從專用計算芯片走向通用計算處理器為目標，推出了GPGPU（即通用GPU），并于2006年發布并行編程模型CUDA。GPGPU與CUDA組成的軟硬件底座，構成了英偉達引領AI計算的根基。

由于GPGPU專注高性能算力，也常常被業界和市場稱為“高端GPU”，并發展出與傳統GPU“涇渭分明”的應用路徑。燧原科技產品市場部總監陳超向《中國電子報》記者指出，傳統GPU聚焦圖像學，關注幀數、渲染逼真度、對于真實場景的映射程度等指標，主要用于運行游戲、專業圖像處理、加密貨幣處理等場景。而高端GPU是用于計算加速的芯片產品，專注于基礎科學等超算領域和訓練、推理等大規模人工智能計算場景。

2022年第二季度獨立GPU市場（包括AIB 合作伙伴顯卡）份額

來源：Jon Peddie Research

“高端GPU不涉及消費級GPU的場景，純粹用于計算加速。高端GPU早期用于超算等高性能計算場景，真正的蓬勃興起并大規模產生一些商業行為，是在人工智能迅猛發展產生了強有力的算力需求之后，GPU被大量應用于人工智能場景，特別是人工智能訓練。”陳超向記者指出。

目標不同則指標不同，高端GPU有著與傳統GPU不同的關注點。昆侖芯科技CEO業務助理宋春曉向《中國電子報》表示，衡量高端GPU的主要維度是通用性、易用性和高性能。通用性指硬件架構要有足夠的靈活性，以適應人工智能不斷迭代變化的算法和場景。易用性是指較低的開發門檻，讓開發者更容易上手，結合實際場景進行定制化的開發。高性能指芯片產品的基礎性能和性價比要對標國際先進水平，才能進行市場開拓。

算力大小往往是市場對GPU性能優劣的“[敏感詞]印象”。但高端GPU的性能不等于紙面性能，尤其不能以單一性能的紙面數據來衡量。

“在實際使用的過程中，GPU的通用性、易用性、實際性的重要程度遠大于紙面標出的算力這一單一性能。紙面指標標得再高，也要關注內存和帶寬夠不夠，以及芯片之間的互聯等問題解決得好不好。用單一性能來衡量GPU是否高端，是一個常見的誤區。”宋春曉說。

硬件性能最終要通過軟件接口被開發者感知和使用。芯動科技GPU項目總監何穎對《中國電子報》記者表示，高端GPU設計的算力，需要專門優化過的驅動和加速庫。只有軟硬協同，才能把高端GPU的算力真正應用到實際場景中。

高性能計算將是主要“競技場”

長期以來，英偉達在高端GPU市場占據主導地位，市場占有率一度超過90%，在人工智能計算領域尤其具備壟斷性優勢。迄今為止，英偉達推出了面向高性能計算和AI訓練的Volta、Ampere、Hopper等架構，并以此為基礎推出了V100、A100、H100等高端GPU，面向向量的雙精度浮點算力從7.8 TFLOPS一路來到30 TFLOPS。

市場優勢的建立，歸功于英偉達GPU產品能力的均衡和生態的完善。

“英偉達在通用性、易用性和高性能三個方面做得比較均衡，加上英偉達在每一代架構上都有所創新，為軟件承接大模型訓練和推理場景的人工智能計算提供了持續提升的硬件基礎。”宋春曉說。

“人工智能對于生態的要求非常高，涉及框架、應用、模型的適配等，英偉達率先基于CUDA生態將上下游打通，對于下游的算法開發商和服務商來說，它的GPU在性能具備優勢的同時還保持了易用性。”陳超表示。

作為全球第二大獨立GPU供應商，AMD雖在高端GPU的整體份額與英偉達存在差距，卻在超算領域闖出了一片天。在[敏感詞]全球超算TOP500榜單上，世界上最快的超級計算機橡樹嶺國家實驗室（ORNL）Frontier、世界排名第三的超級計算機LUMI，都采用了AMD EPYC處理器和AMD Instinct MI250X GPU加速器。

AMD在超算領域的亮眼表現，是建立在針對性的軟硬件設計上，基于CDNA 2架構的GPU加速器、ROCm軟件平臺與開源應用程序資源中心AMD Infinity Hub的組合，構成了對于科研人員更加友好的硬件性能和編程環境。

“超算涉及許多科研探索性質的計算任務，AMD開源的軟件格局為科學家探索新的計算方式提供了更多可能和便利。”陳超表示。

“AMD針對架構和適用場景做了更細分的設計，使GPU產品能夠更多地應用于科學計算場景，因為他們的雙精度做得比較好。”宋春曉表示。

但高性能計算和AI計算并不能與GPU劃等號。陳超指出，高性能及AI計算本質上具有四項基本要求。一是高精度，尤其高性能計算對于FP64雙精度浮點有著較高的需求；二是高性能，以滿足面向超大數據量的信息處理要求；三是并發計算，大大縮短信息處理全流程延時；四是軟件易用性，能支撐更廣泛的應用場景，且易于編程和開發。

“雖然直接采用GPU進行高性能或AI計算較為便利，但上層應用降本增效的核心訴求對底層算力提出了更高要求，國外AI創企推出的AI芯片往往基于全新的架構，對并行計算能力進行全面提升和重點優化。國內相關的AI芯片領先企業同樣推出了一系列基于DSA架構的人工智能計算芯片，也是出于同樣的考慮。”陳超說。

燧原科技在世界人工智能大會的展臺

在國內市場，基于架構創新的DSA芯片產品日漸豐富。例如華為面向AI計算特征的自研架構達芬奇，昆侖芯科技推出的一代架構“XPU-K”和二代架構“XPU-R”，燧原科技的自研架構“GCU-CARA”已進入規模落地期。隨著AI計算的應用場景越來越細分和復雜，定制化、異構化的DSA有望在下一代計算平臺中發揮更大效用。

架構和軟件是攻克高端GPU的核心要素

無論是高端GPU，還是同樣以優化并行計算效率為核心的各類DSA芯片，都有著技術、人才、資金密集的特征，研發難度不容小覷。

在采訪中，三位受訪者均表示，架構設計是攻克高端GPU的核心要素。

昆侖芯產品

架構設計具體難在哪里？首先是各項能力的均衡性。宋春曉表示，架構設計的通用性、易用性和高性能構成了“不可能三角”。如果優先保障通用性，兼顧各個場景，就難以在某一個場景進行足夠的定制化以提供更高性能。如果找到了一種兼顧通用性和高性能的路徑，將是一個跨度較大的架構創新，生態上要推倒重來，易用性會受到很大影響。

“在架構設計過程中，一方面注重有哪些巧思能夠在這個‘不可能三角’中盡可能達到平衡；另一方面也要充分理解市場、客戶的需求，比如客戶在什么情況下，能夠在通用性、易用性、高性能的哪一點去做到什么程度的取舍。了解這些情況之后，才能設計出合理、均衡、契合需求的架構。”宋春曉告訴記者。

其次是指令集設計。“指令集是硬件的靈魂。指令集的多與少、高效與否，對于芯片架構以及微架構有著重大影響。如果指令集設計巧妙，芯片架構會更加高效，客戶做開發時也能在應用、開發效率、性能、成本方面獲得較為均衡的支持。”陳超說。

此外，架構設計對于芯片企業在產業鏈理解能力和技術積累上提出了更高要求。

“硬件架構層面上，高端GPU的構成極其復雜，涉及先進工藝層面的超大規模集成電路設計。頭部公司積累了大量專利，對后來者構筑了極高的技術壁壘。”何穎說。

高端GPU的另一個門檻是軟件生態。可以說，軟件決定了GPU生態的能力上限，也是硬件能力充分釋放和靈活調度的必要條件。

“高端GPU需要廠商提供高度優化的驅動，以及各種加速庫和相關的文檔，以支持用戶紛繁復雜的使用場景。此外，終端用戶需要廠商提供功能強大的工具以輔助問題診斷和性能調優。”何穎表示。據悉，芯動科技推出的風華系列GPU已經兼容了OpenGL4.3，并支持微軟Windows10 DirectX圖形框架。

在完成硬件設計和軟件棧構建的基礎上，還要考慮芯片的工程實現。陳超表示，高端計算芯片對于算力性能的要求非常[敏感詞]，往往會用到[敏感詞]的工藝和封裝技術，運行時鐘的頻率也非常高，需要考慮功耗對于環境和運行可靠性的影響。同時，也要考慮芯片的生產良率。

“良率直接影響高端GPU的成本，這個成本會最終體現到消費端，影響算力成本的高與低。所以良率是高端GPU工業化、商業化落地中非常重要的因素。”陳超說。

除了產業鏈環節本身，人才作為研發的生力軍，也是高端GPU研發水平的決定性因素。

“國內專業對口人才相對稀缺，需要在2~3年甚至更長的培養時間里，有持續投入和資金支持。我們非常注重國內外人才的積累，以保障研發基礎和創新迭代的能力，同時也有利于新生代的培養，進一步夯實人才基礎。”何穎說。

免責聲明：本文轉載自“中國電子報”，本文僅代表作者個人觀點，不代表薩科微及行業觀點，只為轉載與分享，支持保護知識產權，轉載請注明原出處及作者，如有侵權請聯系我們刪除。

上一條：三星遠甩英特爾再度奪冠，全球半導體廠商最新排名出爐！
下一條：印度走上自主之路竟靠的是RISC-V