AI的普及正在迎來一個重要轉折點——行業焦點正從訓練新模型逐步轉向模型的推理部署。對於那些試圖從英偉達
手中爭奪市場份額的AI晶片初創企業來說,機會就在眼前,錯過便再難追回。
與模型訓練相比,推理計算的工作負載更加多元,這為晶片初創企業提供了差異化競爭的空間。大批量推理所需的計算、內存與頻寬配比,與AI助手或代碼智能體的需求截然不同。
正因如此,推理計算正變得日益異構化——某些特定場景可能更適合GPU,而另一些則更適合專用硬體。
英偉達去年12月以約200億美元收購Groq便是一個典型案例。這家初創公司的晶片架構以SRAM為核心,在規模足夠大的情況下,其LPU能夠以遠超GPU的速度生成Token。然而,有限的計算容量與較舊的晶片技術使其擴展效率難以提升。
英偉達的解決方案是:將推理流水線中計算密集型的預填充(prefill)環節遷移至自家GPU,同時保留對頻寬要求較高的解碼(decode)操作運行在新購入的LPU上。
這種組合併非英偉達專屬。就在GTC大會結束後的一周,AWS宣布推出自己的分解式計算平台,採用自研Trainium加速器負責預填充,並引入Cerebras Systems"餐盤大小"的晶圓級加速器承擔解碼任務。
連英特爾也加入了這場競爭,公布了一項參考設計方案:使用GPU(據推測即去年秋季曾透露的那款)處理預填充,AI晶片初創公司SambaNova的新款RDU則負責解碼部分。
目前,大多數AI晶片初創企業的勝出主要集中在解碼環節。SRAM雖然容量有限,但速度極快。因此,在晶片數量充足的前提下——或者像Cerebras那樣依靠足夠大的單顆晶片——這類架構非常適合加速解碼操作。不過,初創企業的布局並不止於此。
本周,Lumai詳細介紹了其光學推理加速器。該產品以光而非電子來執行矩陣乘法運算,這也是絕大多數機器學習工作負載的核心操作,其功耗僅為純數字架構的一小部分。Lumai預計,下一代Iris Tetra系統將在2029年實現在10千瓦功耗預算內達到ExaOPS級別的AI運算性能。
從技術層面看,該晶片採用混合電光架構,但推理過程中的主要計算任務由光學張量核心承擔。
目前,該公司將這款晶片定位為GPU的獨立替代方案,適用於計算密集型推理場景,如批量處理任務。長遠來看,公司還計劃將光學加速器用於預填充處理器。
儘管該架構尚處早期階段,目前僅能運行Llama 3.1 8B或70B等十億參數級模型,但進展已足夠成熟,這家總部位於英國的初創企業已向新興雲服務商和超大規模雲服務商開放評估。
然而,並非所有AI晶片初創企業都認可"預填充+解碼分別用不同晶片"的路線。本周早些時候,Tenstorrent發布了基於RISC-V架構的Galaxy Blackhole計算平台,公司CEO吉姆·凱勒對分解式推理的方案明確表示不認同。
"業內每家公司都在搞加速器套加速器的遊戲。CPU運行代碼,GPU加速CPU,TPU加速GPU,LPU再加速TPU,如此循環。這套邏輯導致方案越來越複雜,而且極有可能無法適應AI模型和應用場景的變化。在Tenstorrent,我們認為更通用、更簡潔的方案才是正確方向。"他在聲明中如是說。
Q&A
Q1:推理計算和訓練計算有什麼區別?為什麼推理對AI晶片初創企業更重要?
A:訓練是讓模型從數據中學習,需要大規模統一的計算資源;推理則是將訓練好的模型部署後對外提供服務,工作負載更加多樣化。正因推理場景複雜多變,不同任務對計算、內存、頻寬的需求各不相同,這為晶片初創企業提供了差異化突破口,不必與英偉達在同一賽道上正面競爭。
Q2:Lumai的光學推理加速器和普通GPU相比有什麼優勢?
A:Lumai的光學推理加速器使用光而非電子進行矩陣乘法運算,功耗遠低於純數字架構的GPU。其下一代Iris Tetra系統預計在2029年實現10千瓦功耗下達到ExaOPS級AI性能。目前該晶片已可運行Llama 3.1 8B/70B等模型,並已向雲服務商開放評估,適合批量處理等計算密集型推理場景。
Q3:Tenstorrent的Galaxy Blackhole平台和英偉達、AWS的分解式推理方案有什麼不同?
A:英偉達和AWS採用的是分解式推理方案,即用不同晶片分別處理預填充和解碼兩個階段。而Tenstorrent的Galaxy Blackhole平台基於RISC-V架構,CEO吉姆·凱勒明確反對這種"加速器套加速器"的複雜方案,認為其兼容性差、難以適應AI模型的快速變化,主張用更通用、更簡潔的單一架構解決推理問題。






