一年一度的Hot Chips大會即將於本周在斯坦福大學舉行。Hot Chips是半導體設計專家們的重要盛會,這裡的「技術濃度」堪稱業界之最。此次會議不僅希望將晶片領域最睿智的頭腦齊聚於一堂,更可供大型晶片廠商發布新品、展示未來前景。
今年的會議自然也不例外,Arm選擇了Neoverse處理器技術作為最大的新聞焦點。就在提交IPO申請的一周之後,Arm公司決定在Hot Chips上發布Neoverse計算子系統(CSS)與Neoverse V2平台。我們將在後文中具體介紹這些公告內容,並與大家一同展望由此引發的市場影響。
Neoverse是什麼?
有些朋友可能不大熟悉,Neoverse是Arm建立的處理器技術家族,面向數據中心市場、特別是雲計算用例。Neoverse擁有三大不同平台,分別針對不同的需求領域。首先是Neoverse V系列平台,其針對高性能計算(HPC)和機器學習等要求較高的負載場景。
第二位成員是Neoverse N系列,屬於針對雲數據中心主流需求而打造的平台。在考慮到企業客戶往往需要將通用工作負載遷移至雲端2時,AWS、Azure和甲骨文等雲服務商紛紛部署N系列處理器,藉此在各自的數據中心內建立雲實例。
這裡要澄清一下,Neoverse本身並不是實體晶片,而是可供各晶片製造商構建自家CPU的設計方案。以Neoverse N2為例(即Arm N家族中的第二代參考設計),我們就看到了兩種截然不同的應用思路:AWS藉此設計出自己的原研晶片(名為Graviton);而CPU廠商Ampere則設計出基於Arm的Altra,這款晶片主要供雲服務商和其他超大規模基礎設施廠商使用。
最後出場的是Neoverse家族中的親民選手,專注於高效網路吞吐量的E系列平台。如果大家希望在Arm架構之上運行低功耗網路或者5G設備時,E系列就是最能滿足需求的選項。
這些平台在各自市場區間內均取得了成功。V系列為眾多HPC集群提供支持,而且成功躋身於超級計算500強榜單。此外,英偉達的Grace CPU也是以V系列架構為基礎設計而成。N系列的知名度可能最高,因為它在全美各主要雲服務商當中均得到了廣泛部署。實際上,根據Arm最近提交的F-1文件,該公司估計Arm架構CPU已經在全球雲服務CPU市場上占有10%的份額。
Neoverse計算子系統:專注提升運行速度的定製化晶片
技術創新的步伐正不斷加快,這一點在當前數據中心內部署的工作負載類型上就有直接體現。但遺憾的是,這些工作負載往往運行在未針對其獨特計算需求進行優化的通用系統之上。
以往,業界對此給出的答案就只有「請再耐心等待幾年,讓晶片製造商開發出專用的CPU。」或者,大家也可以支付高昂的溢價,定製能夠高效解決問題的特定軟硬體組合。
Arm 的Neoverse計算子系統(CSS)是一套預集成、預驗證的N-2平台,允許合作夥伴圍繞內存、I/O、加速和其他領域進行定製化擴展。Arm為Neoverse計算子系統設置的定位,就是幫助合作夥伴利用定製化晶片加快占領市場的速度。換句話說,以更低的開發成本縮短產品上市時間。
我們可以將Arm的方案與高度依賴英特爾/AMD等老牌廠商處理器的傳統思路進行對比。供應商的嵌入式工程組織現在可以採用標準產品(例如AMD的EPYC伺服器處理器),並在產品工程團隊的全力支持下為特定客戶定製晶片設計。通過向合作夥伴開放Neoverse計算子系統,Arm正開拓出一條速度更快、成本更低的價值交付之路。
除了由此帶來的業務擴大機會,此舉對Arm來說還代表著其他巨大潛力。Neoverse計算子系統能夠將Arm架構定位成新興高增長市場的試水載體。上圖紅框部分提到,計算子系統(CSS)方案預計節約了80個工程年。這不僅縮短了產品上市時間,還能在定製化晶片的整個開發過程中顯著節約成本。
另外可以預見的是,超大規模基礎設施廠商必定會利用Neoverse計算子系統開發內部晶片,用以執行各類專用功能。這也是各大主要雲服務商的常見實踐。基於計算子系統的設計體系,能夠幫助這些服務商更快打造出更具深度的差異化解決方案。
Neoverse V2平台:為雲、高性能計算和機器學習帶來性能提升
Arm公布的另一項消息,與性能更高的V系列平台相關。前文提到,Arm已經成功在高端伺服器市場上占得一席之地,著力為性能需求更高的工作負載提供支持,並逐步將業務擴展至高性能計算和AI/機器學習領域。
該公司的V系列平台憑藉出色的核心性能和可擴展矢量引擎(SVE)與CMN-700(一種高速互連方案,可通過高可擴展性網格將內存、存儲和工作負載加速器連接起來)。
V2是該公司的下一代V系列產品。去年首次公布的V2如今即將上市,且不負Arm所望獲得了強有力的市場認可:英特爾的Grace超級計算晶片就是以V2架構為基礎設計而成。
從報告的V2性能數據來看,在人們關心的所有工作負載之上,V2性能都較V1實現了顯著提升。
SPEC CPU和SPECRate(速度和吞吐量)分別迎來13%和17%的增長比例。
在流行的分布式內存緩存系統MemCacheD上進行的測試表明,V2性能提升達15%。
Web伺服器NGINX在V2上的運行性能提升達32%(反向代理、安全等)。
由於V2在分支預測、獲取和硬體預取等方面做出改進,MySQL Percona發行版的性能(按每秒事務數量計算)提升了104%。
最後,使用XGBoost進行的機器學習測試發現,V2的性能相較於V1平均提高了一倍。
V2與V1的性能比較數字確實令人印象深刻,但我們更感興趣的是V2與Arm各大競爭對手的比較。很幸運,英偉達主動將其Grace CPU同英特爾Sapphire Rapids和AMD的Genoa CPU進行了比較,具體結果參見下圖。
在深入研究這些數字之前,需要注意的是Grace採用由英偉達設計的一致性結構(名為LPDDR5X)來支持V2平台。也就是說,我們可以通過兩種方式觀察其性能。第一是在單一伺服器級別進行性能衡量,如左圖所示。在這種比較中,可以看到Grace CPU的性能與Genoa基本相當,雙方均較Sapphire Rapids表現出明顯的優勢。其中,英偉達晶片在圖形分析用例中帶來出色的性能表現。
第二種性能衡量方法就是通過真實應用中的功率預算,據此分析搭載不同處理器的伺服器分別可以處理多少工作負載。在這種情況下,Grace成功擊敗競爭對手,如右圖所示。在功率預算為5兆瓦的數據中心之內,可以看到Grace在各項指標上的性能幾乎都達到數據中心的2倍,其中圖形分析再次以最顯著的優勢證明了圖形處理巨頭的實力。
這種懸殊的差異,源自Grace CPU(及其背後的V2設計)的出色能效。Arm在V2設計中就在努力壓榨每瓦性能產出,這對於重視可持續運營目標的客戶來說無疑是個重要利好,同時也具備極強的經濟效益。相比之下,選擇英特爾或AMD晶片的客戶就必須在功耗方面付出更高成本,才能獲得與Arm家衍生CPU相當的性能水平。
一點看法
Arm在雲數據中心領域的進步(從約四年前的幾乎為零,到如今10%左右的總體份額)絕對令人印象深刻。考慮到2010年初Arm生態系統的一系列早期失誤,當下的成就就更是顯得難能可貴。不知道大家還記不記得當初Calxeda、Cavium、Applied Micro甚至是AMD開發的Arm處理器……它們顯然都已經成了歷史的眼淚,被遺忘在贏家通吃的科技戰場之下。
同樣的,Arm的V系列平台在高性能領域同樣占據強勢地位。這塊業務的崛起也是令人印象深刻,因為其需要克服的第一個難題,就是如何打破「智慧型手機晶片商」這個固有印象。好在成功的表現讓Arm擺脫了這種僵化頭銜,現在幾乎沒有人會繼續揪住這個問題不放。
Neoverse計算子系統的落地,相信會在市場上引發關注。這個平台既擁有巨大潛力、也不缺少廣闊的機會空間。未來,我們期待看到會有多少殺手級應用通過計算子系統構建而成,又有哪些細分市場能夠充分發揮計算子系統的業務加速優勢。
至於V2,人家已經在市場上獲得了巨大成功。英偉達Grace CPU與Grace Hopper超級晶片選擇這套Arm架構,本身就足以鞏固V2在江湖上的名號和地位。而我相信,這還只是V2平台輝煌旅途中的平凡一站。
那麼,未來伺服器市場是否會迎來更多基於Arm的伺服器,用以滿足客戶不斷增長的細分需求?HPE和聯想已經發布了基於Arm架構的伺服器平台,那戴爾家的方案會不會也在緊鑼密鼓的設計當中?
除了英偉達Grace之外,V2還有沒有新的增長空間?既然英偉達已經證明了Arm相較於x86 CPU能展現出顯著的每瓦性能優勢,會不會有其他晶片廠商願意選擇V2構建自己的超級計算平台?
最後,Arm的市場潛力還有多大?雖然目前的10%已經值得讚賞,但計算子系統加V2的組合應該還會進一步幫助Arm擴大占有率。至於最終答案,Arm應該會用接下來幾個季度的實際表現向我們緩緩揭露。