但就在上周,英特爾公司CEO Pat Gelsinger宣布離職,而亞馬遜雲科技則在拉斯維加斯召開了一年一度的re:Invent大會。今年的大會吸引到6萬人親臨現場,40萬人在線關注,是誰在控制著超大規模計算廠商和雲服務商的技術發布命脈已經不言而喻。
沒錯,就是亞馬遜。
事實上,亞馬遜雲科技還占據著不發布新產品的主動權,畢竟他們不像其他晶片廠商那樣必須定期更新自家陣營。相較於英特爾、AMD和英偉達那樣拼命向ODM和OEM廠商推銷計算引擎,亞馬遜雲科技直接創建虛擬化實例並以租賃形式向客戶提供原始容量的訪問權限。從各個方面來講,這都是一種更加順暢且便於操作的業務形態。
如果大家關注了亞馬遜雲科技公共計算高級副總裁Peter DeSantis的開幕主題演講,以及亞馬遜雲科技 CEO Matt Garman以及母公司亞馬遜CEO Andy Jassy帶來的最新消息,肯定會和我們一樣對後續計算引擎相關公告抱有極大熱情。沒錯,相信很多人都期待在今年的re:Invent大會舞台上,亞馬遜雲科技能夠一舉公布了Graviton 5伺服器CPU、Inferentia 3 AI推理加速器以及Trainium 3 AI訓練加速器等重磅消息。
可惜的是,除了Garman在一張幻燈片中提到Trainium 3將採用3納米製程工藝(可能由台積電提供),性能為Trainium 2的兩倍、每瓦性能較Trainium 2高40%之外,再沒有關於亞馬遜雲科技這些自主研發晶片的更多具體細節。另有一篇新聞稿補充稱,Trainium 3 UltraServers的性能將達到Trainium 2版UltraServers的4倍,意味著其將從Trainium 2的16設備規模擴展至Trainium 3時代的32設備。
Garman還提到,Trainium 3「將於明年晚些時候推出」,由此看來其正式交付時間很可能是re:Invent 2025大會。早在今年6月,就在會議稱亞馬遜雲科技高管證實Trainium 3的熱功耗將突破1000瓦,但這也完全在意料之中,畢竟英偉達那邊的旗艦級「Blackwell」B200 GPU的峰值功率同樣高達1200瓦。
而且這個數字還不如我們家中常見的吹風機大,雖然我已經很多年沒用過吹風機了。另外換算下來,這也就相當於十幾枚白熾燈泡。
真正讓我們感到驚訝的是,亞馬遜雲科技居然沒有在上個月的SC24超算大會上公布面向高性能計算(HPC)類應用的Graviton4E。這顯然不符合亞馬遜雲科技當初在2021年11月公布普版Graviton 3,於2022年11月公布增強版Graviton 3E的套路。目前的Graviton 4可以說是市面上最強大的Arm架構伺服器CPU之一,當然也是泛用性最強的選項之一。Graviton 4於2023年11月問世,並在今年8月迎來了內存提升。
亞馬遜雲科技最大的優勢,就是其不需要每年都為CPU、AI加速器和DPU制定升級路線。相比之下,英偉達和AMD的GPU路線圖就顯然遵循著每兩年發布一次,中間這年針對前一年發布的GPU進行內存升級或者性能優化的固定節奏。
亞馬遜雲科技的晶片更新節奏看似是兩年,但中間也會有小幅波動。需要強調的是,Graviton 1實際上是一款強化版的「Nitro」DPU卡,所以不能算數。根據DeSantis在2018年發布Graviton 1時的主題演講中所說,Graviton 1是「向市場發出的信號」,旨在驗證客戶是否準備好在數據中心內使用Arm架構CPU。而隨著2019年Graviton 2的推出,亞馬遜雲科技開始採用台積電的現代7納米製程工藝,同時配合Arm的「Ares」N1核心設計出這款64核處理器。與亞馬遜雲科技上運行的英特爾及AMD x86 CPU相比,Graviton 2不僅同樣能夠支撐起現實業務,而且性價比還要高出40%。
兩年之後,Graviton 3採用Arm更強大的「Zeus」V1核心——儘管「只有」64核,但卻可以承載起強度更大的任務。又是兩年,Graviton 4如期而至,我們猜測其採用更先進的4納米台積電工藝,將96個「Demeter」V2核心塞入插槽,並輔以十幾個DDR5內存控制器(內存帶寬為537.6 GB/秒)。直接按單核心進行比較,Graviton 4比Graviton 3的每核性能高了30%、核心數量增加50%,因此粗略來看其性能可達Graviton 3的2倍。根據我們之前推測得出的定價模型,其性價比相當於提高了13%到15%。而在實際基準測試當中,Graviton 4往往可實現40%的性能增量。
坦率地講,亞馬遜雲科技也必須用兩年時間才能從這筆高昂的處理器設計投資中收回成本。因此,本周re:Invent 2014也確實不太可能發布關於Graviton 5的消息。但從DeSantis、Garman和Jassy的主題演講中,還是能夠窺探到新款晶片的一點端倪。
亞馬遜雲科技的各位高層確實在主題演講中發布關於Graviton晶片家族的一些有趣統計數據。亞馬遜雲科技計算與網路服務副總裁Dave Brown展示了一張非常有趣的圖表,這也在一定程度上解釋了英特爾最近幾個季度的財務狀況為何如此糟糕:
粗略地看,亞馬遜雲科技四項核心服務(包括Redshift Serverless 和 Aurora 資料庫、Managed Streaming for Kafka 以及ElastiCache 搜索)之下的約半數負載都運行在Graviton實例之上。在剛剛過去的Prime Day購物節中,亞馬遜調用了超過25萬塊Graviton處理器支持這場盛事。
Brown繼續補充道,「最近我們又迎來了另一個重要里程碑。在過去兩年之間,我們數據中心內超過50%的CPU容量都由亞馬遜雲科技 Graviton提供。也就是說,Graviton處理器的數量比所有其他類型的處理器加起來還要多。」
這正是微軟多年之前希望達成的目標,也符合我們長久以來的期待。從長遠來看,x86隻能算是一種具有傳統價值的遺留平台,地位可能跟之前的大型機與RISC/Unix類似。RISC-V最終可能也會掀起又一次革命,讓Arm架構同樣成為「前浪 」。(除此之外,兼具開源屬性與可組合構建塊,並由專家監督的開源ISA似乎也是一條可行的道路。總之,期待Linux在作業系統領域大殺四方,最終讓Windows Server也淪為傳統平台。)
Garman的演講,則讓我們了解到亞馬遜雲科技內部Graviton伺服器集群的龐大規模。「Graviton正在瘋狂增長,這裡我們要結合背景來看。2019年,整個亞馬遜雲科技業務總值為350億美元。現如今,亞馬遜雲科技機群中運行的Graviton,其算力規模與2019年的總體算力相當。這無疑是相當令人印象深刻的增長速度。」
我們倒是很好奇2019年亞馬遜雲科技的伺服器機群規模和現在的規模具體是多大。總之比較靠譜的估算是,Graviton伺服器機群的增長速度比亞馬遜雲科技自身更快,而且可能是快得多得多。而且這對英特爾的傷害要比對AMD的傷害大得多,畢竟近年來AMD的x86伺服器CPU一直就比英特爾做得好。
Trainium晶片將對AMD和英偉達形成壓力
Garman提及Trainium 3的唯一理由,就是AI訓練(以及越來越多的推理負載)在高性能計算層面的需求增長速度,要遠遠快於市場所能提供的計算引擎數量。隨著英偉達加大其「Blackwell」B100與B200 GPU的供貨規模,加上AMD不斷推進其「Antares」MI300系列的產能,如果亞馬遜雲科技想讓客戶能夠放心把自己的AI工作負載轉移到Trainium上,就必須得表現出全力加速自家AI晶片研發的決心。於是乎,Trainium 3就登上了本屆re:Invent大會的舞台。
話雖如此,但我們確實希望亞馬遜雲科技能在明年11月或12月召開re:Invent大會之前,帶來更多關於Trainium 3的細節消息。畢竟包括谷歌和微軟在內,其他各大科技巨頭都打算在2025年全力宣傳其自主研發的AI加速器。
與Graviton家族一樣,我們認為Trainium系列晶片從現在起也將保持每兩年一代的更新速度。畢竟這類設備價格昂貴,亞馬遜雲科技必須在儘可能多的設備上攤銷Trainium開發成本,才能像Graviton CPU那樣達成預期財務目標。另外跟Graviton晶片一樣,我們認為亞馬遜雲科技將半數AI訓練和推理工作負載運行在自主研發的Trainium晶片上的日子也已不遠。由此看來,英偉達和AMD的滋潤生活可能也不長久了,畢竟谷歌、微軟、騰訊、百度和阿里巴巴都有可能走上相同的自給自足道路。
亞馬遜雲科技當然不會愚蠢到想在GPU加速器市場上跟英偉達直接競爭,但如同谷歌的TPU、SambaNova的RDU、Groq的GroqChip以及Graphcore的IPU一樣,這位雲服務巨頭絕對能夠打造出一款相對夠用的差異化加速器滿足自己的AI訓練和推理需求,同時為雲客戶提供價值增量。而且跟直接採購英偉達GPU相比,原研道路很可能有著更大的利潤空間或者至少更主動的形勢掌控能力。
正如我們之前提到,亞馬遜雲科技高管並沒有過多討論Trainium 3,但他們對Trainium 2在UltraServer pod中Trn2實例上的正式開放表現得相當興奮。
去年re:Invent大會結束之後,我們於2023年12月詳細介紹了Trainium 2及其前身Trainium 1,包括用於AI推理的配套Inferntia 1與Inferentia 2加速器架構。本周,亞馬遜雲科技進一步討論了採用Trainium 2加速器的系統架構,並展示了為這些加速器橫向及縱向擴展AI集群所打造的相關網路硬體。
下面我們就看圖說話。
下圖是DeSantis展示的Trainium 2卡:
Trainium 2似乎是將兩個芯粒以互連形式塞進了同一封裝,而且可能使用NeuronLink實現晶片到晶片互連。該互連設計則以負責將Trainium 1和Trainium 2晶片相互連接的結構為基礎,以便二者能在共享的HBM內存之上實現工作負載的連貫共享。
Trainium 2伺服器中設有一個頭節點,該節點帶有兩塊主機處理器用於訓練其下一代Claude 4基礎模型。Garman表示,Project Ranier將擁有「數十萬」個Trainium 2晶片,其性能將達到Claude 3模型訓練設備的5倍。