人工智能

AI芯片大戰(zhàn),升級

ainet.cn   2024年12月24日

根據(jù) Omdia 的估計,Nvidia 在 2024 年占據(jù)了人工智能領域的主導地位,其 Hopper GPU 在其 12 大客戶的出貨量將增長兩倍多,達到 200 多萬臺。

然而,盡管 Nvidia 仍然是 AI 基礎設施巨頭,但它正面臨著來自競爭對手 AMD 的激烈競爭。在早期采用其 Instinct MI300 系列 GPU 的公司中,AMD 的市場份額正在迅速擴大。

Omdia 估計,微軟在 2024 年購買了約 581,000 塊 GPU,是全球所有云或超大規(guī)??蛻糁匈徺I量最大的。其中,六分之一由 AMD 制造。

根據(jù) Omdia 的調查結果,在 Meta(迄今為止對剛推出一年的加速器最熱衷的采用者)中,AMD 占據(jù)了 GPU 出貨量的 43%,為 173,000 塊,而 Nvidia 的出貨量為 224,000 塊。與此同時,在 Oracle,AMD 占據(jù)了這家數(shù)據(jù)庫巨頭 163,000 塊 GPU 出貨量的 23%。

盡管在微軟和 Meta 等主要客戶中的份額不斷增長,但 AMD 在更廣泛的 GPU 市場中的份額與 Nvidia 相比仍然相對較小。

Omdia 的估計追蹤了四家供應商(微軟、Meta、甲骨文和 GPU bit barn TensorWave)的 MI300X 出貨量,總計 327,000 臺。

AMD 的 MI300 系列加速器上市才一年,因此其發(fā)展速度同樣引人注目。在此之前,AMD 的 GPU 主要用于更傳統(tǒng)的高性能計算應用,例如橡樹嶺國家實驗室 (ORNL) 的 1.35 exaFLOPS Frontier 超級計算機。

Omdia 云計算和數(shù)據(jù)中心研究總監(jiān) Vladimir Galabov 向The Register表示:“他們去年成功地通過 HPC 領域證明了 GPU 的有效性,我認為這很有幫助。我確實認為人們渴望找到 Nvidia 的替代品。”

為什么選擇 AMD?

這種需求在多大程度上是由 Nvidia 硬件供應有限所導致的很難說,但至少從紙面上看,AMD 的 MI300X 加速器提供了許多優(yōu)勢。MI300X 于一年前推出,聲稱其AI 工作負載浮點性能比老牌 H100 高 1.3 倍,內存帶寬高 60%,容量高 2.4 倍。

后兩點使得該部件對于推理工作負載特別有吸引力,其性能通常取決于內存的數(shù)量和速度,而不是 GPU 可以拋出多少 FLOPS。

一般來說,當今大多數(shù) AI 模型都是以 16 位精度進行訓練的,這意味著為了運行它們,每 10 億個參數(shù)需要大約 2 GB 的 vRAM。每臺 GPU 配備 192 GB 的 HBM3,單臺服務器擁有 1.5 TB 的 vRAM。這意味著大型模型(如 Meta 的 Llama 3.1 405B 前沿模型)可以在單個節(jié)點上運行。另一方面,配備類似設備的 H100 節(jié)點缺乏以全分辨率運行模型所需的內存。141 GB 的 H200 不受同樣的限制,但容量并不是 MI300X 的唯一亮點。

MI300X 擁有 5.3 TBps 的內存帶寬,而 H100 為 3.3 TBps,141 GB H200 為 4.8 TBps??偠灾@意味著 MI300X 理論上應該能夠比 Nvidia 的 Hopper GPU 更快地為更大的模型提供服務。

盡管 Nvidia 的 Blackwell 才剛剛開始面向客戶推出,但在性能和內存帶寬方面遙遙領先,AMD 的新款 MI325X 仍然以每 GPU 256 GB 的容量優(yōu)勢占據(jù)優(yōu)勢。其功能更強大的 MI355X 將于明年年底發(fā)布,將容量提升至 288 GB。

因此,微軟和 Meta 都選擇 AMD 的加速器也就不足為奇了,這兩家公司都在部署數(shù)千億甚至數(shù)萬億個參數(shù)的大型前沿模型。

Galabov 指出,這一點已反映在 AMD 的業(yè)績指引中,該指引每個季度都在穩(wěn)步上升。截至第三季度,AMD 現(xiàn)在預計 Instinct 將在 2024 財年帶來 50 億美元的收入。

進入新的一年,Galabov 相信 AMD 有機會獲得更多的市場份額。“AMD 執(zhí)行力強。它與客戶溝通良好,善于透明地談論自己的優(yōu)勢和劣勢,”他說。

一個潛在的驅動因素是 GPU 比特庫的出現(xiàn),例如 CoreWeave,它們每年部署數(shù)萬臺加速器。Galabov 表示:“其中一些公司會刻意嘗試圍繞 Nvidia 替代方案建立商業(yè)模式”,他指出 TensorWave 就是其中一個例子。

定制硅片大步前進

不僅僅是 AMD 在蠶食 Nvidia 的帝國。在云計算和超大規(guī)模企業(yè)大量購買 GPU 的同時,許多企業(yè)也在部署自己的定制 AI 芯片。

Omdia 估計,Meta 定制 MTIA 加速器的出貨量(我們在今年早些時候對其進行了更詳細的研究)將在 2024 年達到 150 萬臺,而亞馬遜則訂購了 90 萬臺 Inferentia 芯片。

這是否對 Nvidia 構成挑戰(zhàn)在很大程度上取決于工作量。這是因為這些部件旨在運行更傳統(tǒng)的機器學習任務,例如用于將廣告與用戶匹配、將產品與買家匹配的推薦系統(tǒng)。

雖然 Inferentia 和 MTIA 在設計時可能并未考慮到 LLM,但谷歌的 TPU 肯定曾被用于訓練該搜索巨頭的許多語言模型,包括其專有的 Gemini 和開放的 Gemma 模型。

據(jù)Omdia所知,谷歌今年訂購了約一百萬個TPU v5e和48萬個TPU v5p加速器。

除了 Inferentia,AWS 還擁有 Trainium 芯片,盡管名稱如此,但這些芯片已針對訓練和推理工作負載進行了重新調整。Omdia 估計,到 2024 年,亞馬遜將訂購約 366,000 個此類部件。這與其Rainier 項目計劃相一致,該項目將在 2025 年為模型構建者 Anthropic 提供“數(shù)十萬”個 Trainium2 加速器。

最后還有微軟的 MAIA 部件,這些部件在 AMD 推出 MI300X 前不久首次亮相。與 Trainium 類似,這些部件針對推理和訓練進行了調整,微軟作為 OpenAI 的主要硬件合作伙伴和模型構建者,顯然在這方面做得不錯。Omdia 認為微軟在 2024 年訂購了大約 198,000 個此類部件。

人工智能市場比硬件更大

過去兩年中,英偉達的巨額營收增長理所當然地讓人們關注到了人工智能背后的基礎設施,但這只是一個更大謎團中的一塊碎片。

Omdia 預計,隨著 AMD、英特爾和云服務提供商推出替代硬件和服務,Nvidia 將在未來一年努力擴大其在 AI 服務器市場的份額。

“如果我們從英特爾身上學到了什么,那就是一旦市場份額達到 90% 以上,就不可能繼續(xù)增長。人們會立即尋找替代方案,”Galabov 說道。

然而,Galabov 懷疑,Nvidia 不會在競爭日益激烈的市場中爭奪份額,而是會專注于通過讓技術更容易獲得來擴大整個潛在市場。

Nvidia 推理微服務 (NIM) 的引入只是這一轉變的一個例子,NIM 是一種容器化模型,其功能類似于構建復雜 AI 系統(tǒng)的拼圖。

“這是史蒂夫·喬布斯的策略。智能手機的成功歸功于應用商店。因為它讓技術更容易使用,”Galabov 談到 NIM 時說道。“人工智能也是如此;建立一個應用商店,人們就會下載并使用它。”

話雖如此,Nvidia 仍然扎根于硬件。云提供商、超大規(guī)模計算提供商和 GPU 比特庫已經宣布基于 Nvidia 強大的新型 Blackwell 加速器打造大規(guī)模集群,至少在性能方面,該加速器遠遠領先于 AMD 或英特爾目前提供的任何產品。

與此同時,Nvidia 加快了其產品路線圖,以支持每年推出新芯片的節(jié)奏,從而保持領先地位。看來,盡管 Nvidia 將繼續(xù)面臨來自競爭對手的激烈競爭,但它短期內不會失去王冠。

(來源半導體行業(yè)觀察)

標簽:芯片 我要反饋 
泰科電子ECK、ECP系列高壓直流接觸器白皮書下載
ABB協(xié)作機器人,自動化從未如此簡單
優(yōu)傲機器人下載中心
億萬克
專題報道
聚力同行 · 新智“碳”索
聚力同行 · 新智“碳”索

“新華社-智能·零碳”項目策劃以“聚力同行·新智‘碳’索”為主題的新能源專題,主要圍繞光伏、儲能、鋰電、氫能、風能五大新... [更多]

2025中國國際機床展覽會
2025中國國際機床展覽會

4月21至26日,以“融合創(chuàng)新,數(shù)智未來”為主題的第十九屆中國國際機床展覽會在首都國際會展中心盛大舉辦。憑借場館的卓越服... [更多]

2023-2024 智能·零碳成果展映
2023-2024 智能·零碳成果展映

“2023-2024智能·零碳成果展映”展示國內外企業(yè)推進“雙碳”實踐的最新成果,鼓勵更多企業(yè)、科研機構、投資機構等廣泛... [更多]