英偉達(Nvidia)的人工智慧故事理所當然地吸引了投資者的目光,不過競爭對手也在準備替代方案。AMD、英特爾、Cerebras、Tenstorrent、Groq、D-Matrix 和所有雲服務提供商將如何影響市場呢?
對人工智慧有所了解的人都知道,Nvidia在人工智慧加速器領域占據數據中心的主導地位。從市場份額、硬體、軟體和生態系統的角度來看,不存在懸念。但人工智慧是新的黃金,根據 Gartner 的數據,2024 年的人工智慧收入將達到 670 億美元,2027 年將增長到 1190 億美元,因此所有競爭對手都在轉向生成式人工智慧。新的 AMD MI300 看起來很有競爭力,但在 Nvidia 的 人工智慧礦井中淘金的並非只有 AMD 一家。讓我們來看看這一領域的競爭格局,評估一下勝負。
競爭格局簡介
幾年前,我們曾經看到許多資金雄厚的初創公司在追 Nvidia,但現在競爭格局已經發生了變化,大部分競爭者調整了產品計劃,轉而追生成式人工智慧(包括推理和訓練),而有些企業則試圖避開 Nvidia 的鋒芒。以下是筆者對這些公司的總結。我省略了很多初創公司,因為這些初創公司尚未上市或只是主打邊緣人工智慧,邊緣人工智慧超出了本文的討論範圍。以下是筆者對各主要玩家的觀點。
美國的主要數據中心人工智慧加速器提供商一覽(圖:筆者)
市場動態
我見過一些分析師預測 Nvidia 僅占據 80% 的市場份額。我沒有數據可以反駁這種說法,但在我看來似乎有點偏差。我認為Nvidia在數據中心人工智慧加速領域的份額到今年年底將接近 90% 或更多。為什麼這麼說呢?如果AMD「僅僅」實現了Lisa Su最近的2024年預測,即35億美元的新增營收,那麼大約只占 5%的份額。我猜測其他競爭對手在總體上最多也只能達到20-30億美元。(我相信AMD將至少超額完成2024年的目標,或許還能再增加十億或兩億。)
以下是關於美國的主要數據中心人工智慧加速器提供商的說明。
NVIDIA
無需多說,這家人工智慧領域的領軍企業旗下的新晶片路線圖已經翻了一番,這很可能是利用人工智慧加速晶片設計的結果。千萬不要錯過下個月的 GTC。如果讀者不能參加的話,我會從現場報道 GTC!
AMD
在我反駁了AMD的發布聲明後,AMD的工程師重新運行了一些基準測試,結果看起來更好了。但在他們展示 MLPerf 同行評審結果和/或具體收入之前,我估計其性能與 H100 差不多,不會有明顯提升。MI300更大的HBM3確實將使AMD在雲計算和企業推理市場上處於非常有利的位置。AMD 用於 LLM 的軟體和模型最近獲得了很多讚譽,我們猜測除中國外,每個雲服務提供商和超大規模計算平台現在都在測試該晶片。AMD 在今年年底將穩居第二,在 25 年和 26 年還有很大的增長空間。100 億美元的目標肯定是有可能的。
SambaNova 和 Groq
SambaNova 和 Groq 現在比兩年前更加專注於訓練和推理服務。Groq 的 Llama2 70B 的推理性能簡直令人驚嘆,大約是 Nvidia 的 10 倍,不過這些說法還需要 MLPerf 等同行評審基準的驗證。但他們的演示讓我大開眼界。
事實上,Groq LPU™ 推理引擎的輸出令牌吞吐量比所有其他基於雲的推理提供商快 18 倍。
Groq 的 Llama 2 70B 參數模型的每秒吞吐量(令牌數)輕鬆擊敗了一系列Nvidia GPU 推理平台,高出 14 倍 (圖: LLMPerf Leaderboard)
artificialAnalysis.ai 正好剛剛發布的 nbew 基準展示了 Groq 的推理性能和經濟實惠性。下面這張圖表令人瞠目,就在我發表這篇文章的同時發布的。
剛剛公布的結果以及其他更多結果。他們需要改變坐標軸才能更好地展示 Groq 的結果!(圖:artificialanalysis.ai)
SambaNova 去年秋天曾推出 SN40 下一代晶片,目前正將 SN40 作為一項服務提供,預計今年晚些時候提供機架出貨供本地部署使用。老實說,他們的故事挺不錯的,但我覺得他們不太透明,有點令人不快。要想在訓練方面獲勝,他們必須比 Nvidia 做得更好。還有 AMD。還有英特爾。還有 Cerebras。基準測試呢?客戶呢?拜託了!
這套 SambaNova 系統於 2022 年交付給美國阿貢國家實驗室。(圖:SambaNova)
Cerebras
這家Wafer-scale Engine (WSE)公司在Andrew Feldman的領導下今年繼續獲得進展,拿下Mayo Clinic的交易後還拿下其他製藥公司和 G42 Cloud 的交易。各位密切關注一下,據說他們的集成系統單價為 200 萬美元,可能是市場上速度最快的(希望他們能公布 MLPerf)。我喜歡 WSE 的一點是,WSE擁有大量的 SRAM 內存,無需擴展即可支持大型語言模型。而當確實需要擴展時,與其他(較小)平台所需的編碼操作相比,Cerebras 編譯器使其變得非常簡單。
Cerebras 首席執行官 Andrew Feldman 站在準備交付給客戶的箱子上。(圖:Cerebras)
Cerebras 是一家成功的人工智慧初創企業,擁有足夠的資金繼續發展壯大。Cerebras也有足夠的資金研發 WSE-3,預計將在 2024 年上半年宣布。
英特爾
英特爾目前在人工智慧領域遇到的阻礙是所有人都在等Gaudi 3 ,也就是Gaudi 2 即將推出的後續產品。其實 Gaudi 2 看起來相當不錯,但是AMD搶走了Gaudi 2在銷售和市場上的風頭。除了 Pat Gelsinger 宣稱的 4 倍性能提升和 2 倍網路帶寬之外,大家對 Gaudi 3 知之甚少。我對於Gaudi 3的細節了解不足,但我預計,如果Gaudi 3 能夠趕緊發布,英特爾將在 2024 年底排名第三。否則,我認為 Cerebras 將在 2004 年底排名第三,收入遠遠超過 10 億美元。
英特爾Gaudi 3 看起來將於 2024 年末面世,這幾乎可以確保 AMD 在市場上穩居第二。同時,英特爾的至強伺服器 CPU 人工智慧在用於推理處理性能方面仍比 AMD 有明顯優勢,AMD 可能會在今年晚些時候試圖縮小這一差距。
高通
高通公司的 Cloud AI100 推理引擎憑藉其全新的 Ultra 平台再次受到關注,該平台可為生成式人工智慧提供四倍更高的性能。最近,HPE 和聯想的智能邊緣伺服器、Cirrascale 甚至 AWS 雲都選擇了Cloud AI100。AWS 推出了用於推理實例的高能效驍龍衍生產品,與基於當前一代圖形處理器(GPU)的亞馬遜 EC2 實例相比,性價比最高可提高 50%。鑑於 AWS 擁有自己的 Inferentia 加速器,這說明雲計算領導者看到了市場對高通公司的需求,說明了很多問題。我一直在想高通公司何時以及是否會宣布 Cloud AI100 的後續版本,但如果今年晚些時候我們看不到更新的版本我會感到驚訝。
基於 PCIe 的 AI100 雲(圖:高通)
雲服務提供商作為自家晶片設計商的崛起
雖然 AMD 和英特爾的晶片看起來不錯,但 Nvidia 最大的競爭威脅可能來自其最大的客戶:超大規模提供商。在 CSP (雲服務提供商)中,谷歌憑藉新的 TPU v5p 和自家對人工智慧引擎的巨大需求明顯處於領先地位。谷歌雲平台還建立了一個龐大的Nvidia H100集群,可擴展到26,000個GPU,為其雲客戶提供服務。不過,谷歌應用程序將繼續使用自家 TPU 生態系統,這得益於新的 TPU v5p(p表示性能)及其「超級電腦」,帶寬是 TPU v4 的兩倍,並用於新的谷歌Gemini和聊天服務的訓練和推理處理,取代了 Bard。
新的 v5p 令每個 Pod 的晶片數量增加了一倍,每個晶片每秒可提供 918 萬億次運算。(圖:谷歌)
微軟去年秋天推出自己的 Nvidia GPU 的替代產品「Maia」,從而完成了雲計算自家人工智慧加速器三足鼎立的局面。雖然我還沒有看到基準測試結果,但不得不相信 與OpenAI 的合作夥伴關係一定教會了他們如何加速加速大語言模型,預計 Maia 將在 Azure 內成功運行大量 CoPilot 循環。
為 Maia 100 AI 加速器定製的機架及其「小搭檔」:位於華盛頓州雷德蒙德的微軟實驗室的一個熱室中。當晶片處理人工智慧工作負載的計算需求時,「小搭檔」就像汽車散熱器一樣,循環液體在機架來回倒騰,以達到冷卻晶片的目的。(圖:微軟)
同時,亞馬遜 AWS 在繼續改進內部推理和訓練平台,這兩個平台當然就是 Inferentia 和 Trainium。Trainium2 的訓練性能提高了四倍,現在擁有 96 GB 的 HBM。該公司再次陷入完全缺乏有意義基準的困境。大家對 AWS 的網站上客戶名單中的大多數公司名稱都不太熟悉。這種情況將會改變,因為公司內部對這兩款晶片的使用將有助於 AWS 改進軟體,當然,更新的硬體版本一定會比 AWS 早期的嘗試更好。
結論
正如大家看到的,市場格局正在迅速演變,主要晶片供應商、初創公司和超級計算公司都在改進自己的人工智慧晶片,以便在人工智慧淘金熱中分一杯羹。但將各個玩家作比較有一定的困難,尤其是提供商更喜歡不透明的環境,而不是開放的競爭環境。
我們不指望 AMD 和 AWS 會發布 MLPerf 基準測試,但如果谷歌不發布 MLPerf 基準測試,我們會感到驚訝。英特爾在Gaudi3準備就緒後也會發布 MLPerf 基準測試。新的 MLPerf 基準測試預計將於下月發布。
路透社的一條引人注目的消息稱, Nvidia將開始合作推動定製晶片的發展,超大規模企業和汽車公司可以打造自家定製的Nvidia GPU的替代品,這將有助於定製晶片的蓬勃發展。