微軟打造「小晶片雲」架構，欲大幅降低LLM實現成本

如果英偉達和AMD正興奮地搓搓小手，打算趁著微軟在生成式AI領域大展拳腳的機會狠狠賣一波計算器材，把握OpenAI GPT大語言模型掀起的這波東風，那恐怕得好好再考慮一下了。雖然微軟要搞AI是真的，OpenAI想把GPT模型作為未來的軟體核心和服務也是真的，但想靠賣晶片賺到這筆收益卻絕非易事。

贊助商廣告

自生成式AI爆發之初，我們就一直堅持認為，如果推理階段對於硬體的需求量與訓練階段相同，那這項技術哪怕再美好也只能是空中樓閣。畢竟沒人能負擔得起那樣的成本，即使是財力雄厚的超大規模數據中心運營商和雲服務商也做不到。

正因為如此，微軟決定與華盛頓大學的研究人員合作，共同開發出所謂「小晶片雲」（Chiplet Cloud）的新方案。從理論上講，其在運行微軟GPT-3 175B和谷歌PaLM 540B模型的推理時，似乎擁有著能壓倒英偉達「Ampere」A100 GPU的性能（略遜於「Hopper」H100 GPU）和谷歌TPUv4加速器的表現。

這款Chiplet Cloud架構的相關論文由Shuaiwen Leon Song牽頭撰寫。Shuaiwen Leon Song是太平洋西北國家實驗室的高級科學家兼技術主管，還在雪梨大學與華盛頓大學參與未來系統架構研究。他於今年1月加入微軟，擔任高級首席科學家並參與管理Brainwave FPGA深度學習團隊，還針對PyTorch框架開展DeepSpeed深度學習優化（這兩個項目均隸屬於微軟研究院的AI at Scale專題）。

說這麼多當然不是在閒扯，其中的重點是以上項目全都被GPT所擊敗，迫使微軟在Leon Song加入的同時向OpenAI投資了100億美元。截至目前，微軟已經向OpenAI注資達130億美元，其中大部分用於在微軟Azure雲上訓練並運行GPT模型。

如果要用一句話來概括Chiplet Cloud架構，那就是：晶圓級、大規模並行、與Cerebras Systems類似的大量SRAM矩陣數學引擎，然後用一個個完美的裸晶將其拼合成統一的系統。或者更確切地講，不是用SRAM做晶圓級矩陣數學單元，而是製造出大量個體成本極低、而產量卻極高（因此有助於降低整體成本）的小單元，再用高速互連把它們對接起來。

贊助商廣告

這種方法類似於IBM的BlueGene系列大規模並行系統（例如安裝在蘿倫斯利弗莫爾國家實驗室的BlueGene/Q）同IBM為橡樹嶺國家實驗室打造的偏重GPU的「Summit」超級電腦間的區別。BlueGene與日本RIKEN實驗室的「K」和「富岳」系統更相似，從長遠來看也有可能代表著正確的發展方向。最大的區別，在於我們需要針對AI訓練、HPC計算和AI推理再對處理器做不同調整。

最近幾周，我們一直在討論基於Transformer架構的生成式AI模型那恐怖的構建成本。Chiplet Cloud論文很好地闡述了亞馬遜雲科技、Meta Platforms和谷歌為何一直在努力尋求自研晶片，從而顯著降低AI推理的實現成本。

華盛頓大學的Michael Taylor、Huwan Peng、Scott Davidson和Richard Shi等研究人員在文章中寫道，「通過GPU等商用硬體提供基於生成式Transformer大語言模型的辦法，如今已經在可擴展性方面遭遇到瓶頸。配合GPU，行業領先的GPT-3在每塊A100上的每秒token處理量為18個。再考慮到ChatGPT及其將大語言模型集成至各類現有技術（例如網路搜索）當中的承諾，令人們不得不對大語言模型的可擴展性和盈利能力產生懷疑。例如，谷歌搜索每秒需要處理超過9.9萬條查詢，如果要把GPT-3嵌入到每條查詢當中，並假設每次查詢生成500個token，那麼谷歌將需要34.075萬台英偉達DGX伺服器（共搭載272.6萬塊A100 GPU）才夠用。單是這些GPU的資本支出就將超過400億美元，且電力消耗也將十分巨大。假設能量利用率為50%，平均功率將超過1千兆瓦，足夠為75萬個普通家庭供電。」

GPU（不止是英偉達家的GPU，這裡包括一切GPU）的問題在於，它們屬於通用計算設備，所以必須支持多種不同類型的計算以滿足全部用例。事實也的確如此，否則英偉達的GPU就該只配備Tensor Core處理器，而沒必要提供向量引擎。而且即使是谷歌TPU這類設備（本質上就是單純的Tensor Core張量處理器），其尺寸、複雜性以及HBM記憶體棧也大大拉高了交付成本。而至少根據微軟的比較，新的Chiplet Cloud在總體擁有成本（TCO）方面將遠遠優於英偉達A100 GPU：

贊助商廣告

注意：Chiplet Cloud論文中引用的A100資源價格來自Lambda GPU Cloud，而TPUv4的價格則來自Google Cloud。

以下圖表，為上圖中所選參考數據點的具體數據：

在擁有1750億參數的GPT-3模型上，與英偉達A100 GPU相比，Chiplet Cloud模擬設備將每1000個token的推理成本大幅降低了94.4倍，token的生成延遲更是降低了327.3倍。儘管H100的吞吐量比A100高出3.2倍（這裡比較的是A100上的INT8吞吐量與H100上的FP8吞吐量），我們也很難想像這麼誇張的延遲差異可以用速度更快的HBM3記憶體輕鬆彌合。而且即使這樣計算，H100的市場價格大約是A100當前價格的2倍，在性價比上還是無法與Chiplet Cloud相匹敵。相信H100將在上圖中位於A100的左下方位置，但距離不會太遠。

如果轉而使用配備HBM記憶體的Tensor Core矩陣數學引擎，那麼性能肯定會相應提高，如上圖右側列出的TPUv4計算引擎部分。即使是在擁有5400億參數的超大規模PaLM模型而言，張量處理器帶來的提供依然顯著。而微軟給出的理論計算顯示，Chiplet Cloud在運行推理時每生成1000個token的成本仍可降低15.2倍，延遲降低19.5倍。

在這兩種情況下，微軟都成功優化了每token的生成成本，同時輔以更合理的延遲水平。很明顯，只要客戶願意為推理再多支付一點成本，那麼Chiplet Cloud架構也肯定能把延遲降得更低。

通過這張圖表，可以看到超大規模數據中心運營商和雲服務商為什麼熱衷於為AI推理負載打造原研ASIC，特別是在大語言模型在推理期間瘋狂吞噬計算和記憶體帶寬資源的背景之下：

贊助商廣告

AI工作負載的密度越大，ASIC相較於GPU所帶來的成本優勢也就越明顯。順帶一提，從圖表中還可以看到，微軟很清楚谷歌搜索的密度比Bing搜索高得多、而且成本也更低。（奈何Bard實在不給力。）GPU和定製ASIC之間的盈虧平衡點；而在Chiplet Cloud模擬加速器上運行DeepSpeed-Inference的情況則完全不同。

在設計Chiplet Cloud的過程中，微軟和華盛頓大學的研究人員還得出了以下幾條結論。

首先，晶片的生產成本在任何計算引擎的總體擁有成本中均占很大比例。

根據我們的估計，GPU占現代HPC/AI超級電腦總體算力的98%，成本則占比在75%左右。微軟估計，對於採用7納米工藝蝕刻的晶片，製造大語言模型推理加速器的成本約為3500萬美元，具體涉及CAD工具、IP許可、掩模、BGA封裝、伺服器設計和人力成本。當然，對於400億美元的潛在投資總額來講，這點資金完全就是灑灑水、不必過多糾結。

也就是說如果想要降低成本，就絕不能使用顛覆性過強的計算引擎。微軟方面在論文中表示，台積電7納米製程工藝的缺陷密度為每平方厘米0.1個，而750平方毫米晶片的單價則是150平方毫米晶片的2倍。

第二，推理既是個算力問題，也是個記憶體帶寬問題。

這裡簡單解釋一下，假設我們使用較舊的GPT-2模型和同時代的英偉達「Volta」V100 GPU。大部分GPT-2核心的運算強度較低（需要的算力不強），而且記憶體帶寬也被HBM2限制在每秒900 GB。但即使是這樣，微軟也計算出至少需要每秒85000 GB的記憶體帶寬（幾乎提升了兩個數量級），才能驅動V100 GPU中112萬億次的算力來有效運行GPT-2模型。

有鑑於此，Chiplet Cloud的技術訣竅也許就來自Cerebras Systems、GraphCore和SambaNova Systems的經驗積累：獲取模型參數及其關鍵值的中間處理結果，回收這些結果以加快模型生成，並儘可能將其存儲在鄰近矩陣數學引擎的SRAM當中。在這方面，DRAM和HBM那邊的差距就很大了：

贊助商廣告

所以，在這裡使用SRAM幾乎成了順理成章的選擇。

另一個重點在於，微軟需要一種方法來降低小晶片設計的封裝成本，同時儘可能減少會增加推理延遲、降低吞吐量的晶片間通信。微軟正想辦法把小晶片製作成獨立封裝，並在板上（而非插槽上）做集成，同時使用張量加管線並行映射策略來減少Chiplet Cloud各節點間的通信。每個小晶片都有充足的SRAM來保存所有計算單元的模型參數與KV緩存。這實際上就構成了一套大規模分布式緩存，其中各個小晶片都能在運行自己獨特推理負載時從中提取到所需數據。

經過種種工程權衡，微軟構想中的Chiplet Cloud架構基本如下所示：

這裡沒有用到矽中間層或者有機基板，因為這樣會增加成本和複雜度，進而拉低封裝的良品率。長久以來，這一直是困擾GPU和GPU等大型、高精尖設備的核心難題。微軟的小晶片基板使用印刷電路將大量小晶片接入2D環面，微軟表示這樣的電路設計更加靈活，能夠適應設備的不同映射。（類似於Meta Platforms在自己的電路設計中，使用PCI-Express作為GPU加速器系統間的互連機制）。板上還設有FPGA控制器，每個小晶片都有一個以25 GB/秒速率運行的全雙工鏈路，通過ground reference signaling（GRS）鏈接實現80毫米的覆蓋範圍。微軟表示，也可以根據需要通過其他類型的互連實現各節點間的對接。

微軟還提到，不同模型對於小晶片的算力和記憶體容量也有不同要求，還包括是否要針對延遲或總體擁有成本進行優化。下面來看相關圖表：

贊助商廣告

首先可以明確一點，絕對不存在百試百靈的「銀彈」設計方案。最終晶片的通用度越高，則運行效率就越低。雲服務商相對更需要通用設備，畢竟誰也說不準客戶到底要拿雲端資源運行什麼工作負載。當然，廠商也可以只針對專有軟體棧做配套服務，這時候就能瘋狂優化以提供最佳性價比，同時又保留一點未優化空間作為自己的業務利潤。

如果微軟針對PaLM 540B做優化，專門出售一批面向谷歌用例的Chiplet Cloud，那多是一件美事啊？到那個時候，不知道專為PaLM 540B定製的Chiplet Cloud會不會奪走Google Cloud手中的TPU客戶。

我們不確定微軟的這個Chiplet Cloud項目中有多少仍處於理論研究階段，有多少已經開始實踐落地甚至是運行測試了一段時間。不管實際情況如何，微軟肯定是在研究上花了不少的錢，如今也擁有了能夠對抗英偉達和AMD的談判籌碼。想創業的朋友也可以多多關注，沒準能利用這些專業知識克隆微軟的現有產品。谷歌的TPU就是這麼來的，再加上風險投資對待AI相關業務還相對比較樂觀，各位何不把握機會、試上一試？