日韩欧美一区二区三区在线观看-日韩欧美一区二区三区在线视频-日韩欧美一区二区三区中文精品-日韩欧美一区二区在线观看-高清完整视频在线播放-高清无遮挡在线观看

/ EN
13922884048

資訊中心

information centre
/
/

高端GPU芯片:英偉達的獨角戲?

發(fā)布時間:2022-09-21作者來源:薩科微瀏覽:1880


image.png

高端GPU作為通用計算的“加速神器”,日漸成為大型數(shù)據(jù)中心、人工智能、超算等領(lǐng)域的剛需。長期以來,英偉達在高端GPU市場占據(jù)主導地位,市場占有率一度超過90%。目前來看,國內(nèi)企業(yè)突破英偉達等國外公司的壟斷仍然任重道遠,但國內(nèi)基于架構(gòu)創(chuàng)新的DSA(特定領(lǐng)域架構(gòu),即針對特定領(lǐng)域的可編程處理器)芯片產(chǎn)品日漸豐富,可能會帶來一些曙光。

高端GPU與傳統(tǒng)GPU“涇渭分明” 

20世紀90年代,PlayStation等游戲主機的發(fā)布和彩色顯示器的出現(xiàn),催生了3D游戲的萌芽。而彼時的3D制作主要依靠計算機的CPU執(zhí)行,計算任務(wù)需要串行排隊,難以滿足游戲畫質(zhì)的提升需求。英偉達的GeForce 256,將“GPU”概念推向市場。自此,光線追蹤等圖形圖像處理任務(wù)有了專用芯片承載,在提升3D畫質(zhì)的同時,也提升了計算機的整體效能。

隨著超算等高并發(fā)性計算需求不斷增長,GPU用于計算任務(wù)的可能性受到業(yè)界關(guān)注。英偉達首席科學家David Kirk認為,GPU的浮點運算和并行計算能力不應該局限于圖像渲染。在他的倡導下,英偉達以推動GPU從專用計算芯片走向通用計算處理器為目標,推出了GPGPU(即通用GPU),并于2006年發(fā)布并行編程模型CUDA。GPGPU與CUDA組成的軟硬件底座,構(gòu)成了英偉達引領(lǐng)AI計算的根基。

由于GPGPU專注高性能算力,也常常被業(yè)界和市場稱為“高端GPU”,并發(fā)展出與傳統(tǒng)GPU“涇渭分明”的應用路徑。燧原科技產(chǎn)品市場部總監(jiān)陳超向《中國電子報》記者指出,傳統(tǒng)GPU聚焦圖像學,關(guān)注幀數(shù)、渲染逼真度、對于真實場景的映射程度等指標,主要用于運行游戲、專業(yè)圖像處理、加密貨幣處理等場景。而高端GPU是用于計算加速的芯片產(chǎn)品,專注于基礎(chǔ)科學等超算領(lǐng)域和訓練、推理等大規(guī)模人工智能計算場景。

2022年第二季度獨立GPU市場(包括AIB 合作伙伴顯卡)份額

image.png

來源:Jon Peddie Research

“高端GPU不涉及消費級GPU的場景,純粹用于計算加速。高端GPU早期用于超算等高性能計算場景,真正的蓬勃興起并大規(guī)模產(chǎn)生一些商業(yè)行為,是在人工智能迅猛發(fā)展產(chǎn)生了強有力的算力需求之后,GPU被大量應用于人工智能場景,特別是人工智能訓練。”陳超向記者指出。

目標不同則指標不同,高端GPU有著與傳統(tǒng)GPU不同的關(guān)注點。昆侖芯科技CEO業(yè)務(wù)助理宋春曉向《中國電子報》表示,衡量高端GPU的主要維度是通用性、易用性和高性能。通用性指硬件架構(gòu)要有足夠的靈活性,以適應人工智能不斷迭代變化的算法和場景。易用性是指較低的開發(fā)門檻,讓開發(fā)者更容易上手,結(jié)合實際場景進行定制化的開發(fā)。高性能指芯片產(chǎn)品的基礎(chǔ)性能和性價比要對標國際先進水平,才能進行市場開拓。

算力大小往往是市場對GPU性能優(yōu)劣的“[敏感詞]印象”。但高端GPU的性能不等于紙面性能,尤其不能以單一性能的紙面數(shù)據(jù)來衡量。

“在實際使用的過程中,GPU的通用性、易用性、實際性的重要程度遠大于紙面標出的算力這一單一性能。紙面指標標得再高,也要關(guān)注內(nèi)存和帶寬夠不夠,以及芯片之間的互聯(lián)等問題解決得好不好。用單一性能來衡量GPU是否高端,是一個常見的誤區(qū)。”宋春曉說。

硬件性能最終要通過軟件接口被開發(fā)者感知和使用。芯動科技GPU項目總監(jiān)何穎對《中國電子報》記者表示,高端GPU設(shè)計的算力,需要專門優(yōu)化過的驅(qū)動和加速庫。只有軟硬協(xié)同,才能把高端GPU的算力真正應用到實際場景中。

高性能計算將是主要“競技場”

長期以來,英偉達在高端GPU市場占據(jù)主導地位,市場占有率一度超過90%,在人工智能計算領(lǐng)域尤其具備壟斷性優(yōu)勢。迄今為止,英偉達推出了面向高性能計算和AI訓練的Volta、Ampere、Hopper等架構(gòu),并以此為基礎(chǔ)推出了V100、A100、H100等高端GPU,面向向量的雙精度浮點算力從7.8 TFLOPS一路來到30 TFLOPS。

市場優(yōu)勢的建立,歸功于英偉達GPU產(chǎn)品能力的均衡和生態(tài)的完善。

“英偉達在通用性、易用性和高性能三個方面做得比較均衡,加上英偉達在每一代架構(gòu)上都有所創(chuàng)新,為軟件承接大模型訓練和推理場景的人工智能計算提供了持續(xù)提升的硬件基礎(chǔ)。”宋春曉說。

“人工智能對于生態(tài)的要求非常高,涉及框架、應用、模型的適配等,英偉達率先基于CUDA生態(tài)將上下游打通,對于下游的算法開發(fā)商和服務(wù)商來說,它的GPU在性能具備優(yōu)勢的同時還保持了易用性。”陳超表示。

作為全球第二大獨立GPU供應商,AMD雖在高端GPU的整體份額與英偉達存在差距,卻在超算領(lǐng)域闖出了一片天。在[敏感詞]全球超算TOP500榜單上,世界上最快的超級計算機橡樹嶺國家實驗室(ORNL)Frontier、世界排名第三的超級計算機LUMI,都采用了AMD EPYC處理器和AMD Instinct MI250X GPU加速器。

AMD在超算領(lǐng)域的亮眼表現(xiàn),是建立在針對性的軟硬件設(shè)計上,基于CDNA 2架構(gòu)的GPU加速器、ROCm軟件平臺與開源應用程序資源中心AMD Infinity Hub的組合,構(gòu)成了對于科研人員更加友好的硬件性能和編程環(huán)境。

“超算涉及許多科研探索性質(zhì)的計算任務(wù),AMD開源的軟件格局為科學家探索新的計算方式提供了更多可能和便利。”陳超表示。

“AMD針對架構(gòu)和適用場景做了更細分的設(shè)計,使GPU產(chǎn)品能夠更多地應用于科學計算場景,因為他們的雙精度做得比較好。”宋春曉表示。

但高性能計算和AI計算并不能與GPU劃等號。陳超指出,高性能及AI計算本質(zhì)上具有四項基本要求。一是高精度,尤其高性能計算對于FP64雙精度浮點有著較高的需求;二是高性能,以滿足面向超大數(shù)據(jù)量的信息處理要求;三是并發(fā)計算,大大縮短信息處理全流程延時;四是軟件易用性,能支撐更廣泛的應用場景,且易于編程和開發(fā)。

“雖然直接采用GPU進行高性能或AI計算較為便利,但上層應用降本增效的核心訴求對底層算力提出了更高要求,國外AI創(chuàng)企推出的AI芯片往往基于全新的架構(gòu),對并行計算能力進行全面提升和重點優(yōu)化。國內(nèi)相關(guān)的AI芯片領(lǐng)先企業(yè)同樣推出了一系列基于DSA架構(gòu)的人工智能計算芯片,也是出于同樣的考慮。”陳超說。

image.png

燧原科技在世界人工智能大會的展臺

在國內(nèi)市場,基于架構(gòu)創(chuàng)新的DSA芯片產(chǎn)品日漸豐富。例如華為面向AI計算特征的自研架構(gòu)達芬奇,昆侖芯科技推出的一代架構(gòu)“XPU-K”和二代架構(gòu)“XPU-R”,燧原科技的自研架構(gòu)“GCU-CARA”已進入規(guī)模落地期。隨著AI計算的應用場景越來越細分和復雜,定制化、異構(gòu)化的DSA有望在下一代計算平臺中發(fā)揮更大效用。

架構(gòu)和軟件是攻克高端GPU的核心要素

無論是高端GPU,還是同樣以優(yōu)化并行計算效率為核心的各類DSA芯片,都有著技術(shù)、人才、資金密集的特征,研發(fā)難度不容小覷。

在采訪中,三位受訪者均表示,架構(gòu)設(shè)計是攻克高端GPU的核心要素。

image.png

昆侖芯產(chǎn)品

架構(gòu)設(shè)計具體難在哪里?首先是各項能力的均衡性。宋春曉表示,架構(gòu)設(shè)計的通用性、易用性和高性能構(gòu)成了“不可能三角”。如果優(yōu)先保障通用性,兼顧各個場景,就難以在某一個場景進行足夠的定制化以提供更高性能。如果找到了一種兼顧通用性和高性能的路徑,將是一個跨度較大的架構(gòu)創(chuàng)新,生態(tài)上要推倒重來,易用性會受到很大影響。

“在架構(gòu)設(shè)計過程中,一方面注重有哪些巧思能夠在這個‘不可能三角’中盡可能達到平衡;另一方面也要充分理解市場、客戶的需求,比如客戶在什么情況下,能夠在通用性、易用性、高性能的哪一點去做到什么程度的取舍。了解這些情況之后,才能設(shè)計出合理、均衡、契合需求的架構(gòu)。”宋春曉告訴記者。

其次是指令集設(shè)計。“指令集是硬件的靈魂。指令集的多與少、高效與否,對于芯片架構(gòu)以及微架構(gòu)有著重大影響。如果指令集設(shè)計巧妙,芯片架構(gòu)會更加高效,客戶做開發(fā)時也能在應用、開發(fā)效率、性能、成本方面獲得較為均衡的支持。”陳超說。

此外,架構(gòu)設(shè)計對于芯片企業(yè)在產(chǎn)業(yè)鏈理解能力和技術(shù)積累上提出了更高要求。

“硬件架構(gòu)層面上,高端GPU的構(gòu)成極其復雜,涉及先進工藝層面的超大規(guī)模集成電路設(shè)計。頭部公司積累了大量專利,對后來者構(gòu)筑了極高的技術(shù)壁壘。”何穎說。

高端GPU的另一個門檻是軟件生態(tài)。可以說,軟件決定了GPU生態(tài)的能力上限,也是硬件能力充分釋放和靈活調(diào)度的必要條件。

“高端GPU需要廠商提供高度優(yōu)化的驅(qū)動,以及各種加速庫和相關(guān)的文檔,以支持用戶紛繁復雜的使用場景。此外,終端用戶需要廠商提供功能強大的工具以輔助問題診斷和性能調(diào)優(yōu)。”何穎表示。據(jù)悉,芯動科技推出的風華系列GPU已經(jīng)兼容了OpenGL4.3,并支持微軟Windows10  DirectX圖形框架。

在完成硬件設(shè)計和軟件棧構(gòu)建的基礎(chǔ)上,還要考慮芯片的工程實現(xiàn)。陳超表示,高端計算芯片對于算力性能的要求非常[敏感詞],往往會用到[敏感詞]的工藝和封裝技術(shù),運行時鐘的頻率也非常高,需要考慮功耗對于環(huán)境和運行可靠性的影響。同時,也要考慮芯片的生產(chǎn)良率。

“良率直接影響高端GPU的成本,這個成本會最終體現(xiàn)到消費端,影響算力成本的高與低。所以良率是高端GPU工業(yè)化、商業(yè)化落地中非常重要的因素。”陳超說。

除了產(chǎn)業(yè)鏈環(huán)節(jié)本身,人才作為研發(fā)的生力軍,也是高端GPU研發(fā)水平的決定性因素。

“國內(nèi)專業(yè)對口人才相對稀缺,需要在2~3年甚至更長的培養(yǎng)時間里,有持續(xù)投入和資金支持。我們非常注重國內(nèi)外人才的積累,以保障研發(fā)基礎(chǔ)和創(chuàng)新迭代的能力,同時也有利于新生代的培養(yǎng),進一步夯實人才基礎(chǔ)。”何穎說。




免責聲明:本文轉(zhuǎn)載自“中國電子報”,本文僅代表作者個人觀點,不代表薩科微及行業(yè)觀點,只為轉(zhuǎn)載與分享,支持保護知識產(chǎn)權(quán),轉(zhuǎn)載請注明原出處及作者,如有侵權(quán)請聯(lián)系我們刪除。

服務(wù)熱線

0755-83044319

霍爾元件咨詢

肖特基二極管咨詢

TVS/ESD咨詢

獲取產(chǎn)品資料

客服微信

微信服務(wù)號

主站蜘蛛池模板: 久热中文字幕在线精品免费 | 激情理论片 | 日本口工禁漫画无遮挡全彩 | 天天澡天天干 | 四虎影院免费视频 | 又粗又硬又猛又黄的免费视频黑人 | 欧美白人极品性喷潮 | 国产成人夜间影院在线观看 | 国产三级在线观看 | 伊人久久综合成人亚洲 | 国产一级片免费看 | 欧美五月婷婷 | 激情欧美一区二区三区中文字幕 | 777色淫网站女女免费 | 女人被免费网站视频在线 | 日本免费一区视频 | 操的好爽 | 婷婷午夜 | 亚洲图片 欧美色图 | 国产精品久久久久久久久免费 | 看全色黄大色大片免费久久怂 | 国产在线精品美女观看 | 免费观看成年欧美1314www色 | 不卡一级毛片免费高清 | 午夜黄色福利视频 | 日本特级视频 | 狠狠操精品视频 | 色视频网 | 91日本在线观看亚洲精品 | 夜夜综合网 | 国内精品久久久久影 | 免费国产一区 | 天天干夜夜爽 | 免费看黄色小视频 | 91大神成人偷拍在线观看 | 波多野吉衣一区二区三区在线观看 | 速度与激情10 | 色综合天天综合 | 久久久久大香线焦 | 四虎国产成人亚洲精品 | 欧美性精品videofree |