在系統架構師們坐在桌前、打算設計一套新平台時,首先會認真梳理供應商提供的CPU、加速器、內存、閃存、網卡和PCI-Express控制器和交換機路線圖。而在計算與內存混合系統設計以及共享加速器和內存等組件的集群快速普及的當下,交換機在其中扮演的角色正愈發重要。
問題在於:不同組件間的路線圖並沒有真正協調一致。大部分CPU和GPU製造商都保持著每兩年一次的重大計算引擎升級,而兩次重大發布間的這一年則做架構和製程調整,確保每年都有新產品可以銷售。以太網和InfiniBand市場上的網路交換機和網卡同樣大多以兩年為周期,並且在英特爾至強CPU占市場主導時,努力讓自家產品的發布跟晶片巨頭保持著節奏同步。然而,英特爾這邊不斷重新調整路線圖、AMD作為CPU供應商的重新崛起,以及其他Arm CPU製造商(包括三大超大規模數據中心提供商與雲服務商)的加入早已打破原本和諧的更新周期。
之後還有PCI-Express總線,過去二十年間它早已無處不在。雖然近年來PCI-Express規格的發布節奏越來越固定,PCI-Express控制器也始終堅守自己的發展路線圖,但通過MicroChip和博通等廠商發布的PCI-Express交換機卻始終落後幾個節拍。
所以正常的思路,當然是把這些路線圖協調統一起來。具體來講,PCI-Express規範應該與IT行業開展廣泛而深入的合作,幫助PCI-SIG組織加快步伐、擺脫每三年更新的慣例,跟上兩年一次的技術升級節奏。雖然還有具體困難,但如果能夠更快升級至PCI-Expres 7.0,那麼I/O帶寬和通道數將可更好地與高吞吐量計算引擎相適配,更好地為行業需求服務。如果能夠契合統一,未來行業將更多使用PCI-Express總線來處理基於CXL的分層與共享主內存。
我們調整了PCI-SIG的帶寬圖表。圖中誤將2022年發布的PCI-Express 6.0規格記為2021年,非常抱歉。
請別誤會,我們對PCI-SIG做出的努力深表感激。目前數據中心和各類邊緣廠商正在通力合作,終於在2017年的PCI-Express 4.0之後讓總線協議的發展步入了可預測的正軌。當初一系列嚴峻的信號和材料挑戰,導致數據中心在PCI-Express 3.0時代停滯了足足七年,當時業界就認為主導CPU的英特爾在提升I/O方面有點「不給力」。早在2012年3月,「Sandy Bridge」至強E5就沒能按時發布,原因是晶片組中的SATA埠燒了。之後,關於PCI-Express 4.0和5.0控制器難以集成進處理器的謠言開始滿天飛。
一般來說,每當PCI-Express發布新的規範,那麼約一年之後就會有控制器被嵌入到計算引擎和網路接口晶片當中。因此當PCI-Express 4.0在2017年問世時,首批使用該總線的系統在2018年準時亮相——即IBM基於Power 9晶片打造的Power Systems設備。接下來是AMD在2019年8月推出的「Rome」Epyc 7002中使用該規範。英特爾方面則動作最慢,直到2021年4月的「Ice Lake」這代至強SP處理器才引入PCI-Express 4.0控制器。
雖然在短短兩年之後的2019年,PCI-Express 5.0規範就號稱做好了「戰鬥準備」,但直到2021年IBM才在其高端Power E1080設備中的Power 10處理器上實際應用。AMD則在2022年11月的「Genoa」Epyc 9004中引入。這次動作最慢的又是英特爾,直到2023年1月推出的「Sapphire Rapids」至強SP伺服器晶片才正式集成PCI-Express 5.0。
所以從產品的層面來看,PCI-Express 4.0到5.0其實相隔了三年,並沒能跟上規範間的兩年升級節奏。
從現在的情況來看,規範和產品必須把升級周期壓縮到兩年之內,確保始終跟計算引擎和網路互連保持同步。其中還包括PCI-Express交換機ASIC,之前這些ASIC一直遠遠落後於PCI-Express 3.0、4.0和5.0的實際普及時間。
在每一代協議中,PCI-Express埠和PCI-Express交換機之間都存在發布滯後。這種延遲性,迫使系統架構師只能在可組合性(即在pod層級使用PCI-Express交換機的理想狀態)和更大帶寬(直接通過伺服器插槽提供)間做出權衡。系統和集群的設計必須兼具可組合性和良好帶寬,而拉高基數無疑是最可行的辦法。
目前,市場上只有兩家PCI-Express交換機製造商:博通(通過多年前收購PLX Technologies)和MicroChip。2021年2月,我們曾對PCI-Express 5.0版的MicroChip Switchtec ASIC做過分析,其通道從28條擴展到100條,埠也從16個擴展到52個。但據我們所知,這款產品並未指出貨。博通則在2022年2月就推出過PCI-Express 5.0晶片組合,其中包括ExpresFabric PEX 89100交換機。該交換機配備24至144條通道和24至72個埠。截至本文撰稿時,我們已再次求證這些產品是否正在銷售,但博通並未給出回復。
我們的觀點是,PCI-Express交換機必須跟得上節奏,保證計算伺服器、內存伺服器和存儲伺服器都有最新的PCI-Express晶片可用。畢竟伺服器中必然要嵌入交換機,而且不該通過犧牲通道/埠/基數的方式來換取帶寬。所以市場上需要更多供應商,這樣一家沒做好、也有其他廠商可以選擇。因此我們才特別期待Rambus能夠進軍PCI-Express交換機ASIC市場。
也正是為了滿足這麼多需求,PCI-SIG才決定為PCI-Express 7.0規範發布0.3版本。
下面來看一年之前PCI-Express 6.0規範正式落地、PCI-Express即將亮相時,我們對於後續PCI-Express路線圖做出的預測:
PCI-Express 7.0規範預計要到2025年才會獲批,就是說其實際登陸系統可能要到2026年末或者2027年初。但這樣的等待周期還是太長了,我們需要PCI-Express 7.0來提供帶寬加速器,靠它處理模擬或AI模型訓練所需要的大量數據、也要靠它與極度複雜的CXL 4.0共享內存與池化內存規範相適配。
當然,我們知道加快PCI-Express 7.0控制器和交換機的上市速度絕非易事,也將拉動所有相關產品都同步提速。畢竟周期縮短之後,計算引擎和外設製造商也都會猶豫,還要不要在PCI-Express 6.0的產品周期中投入太多資金。
但本文的觀點還是非常堅定:隨著PCI-Express 6.0投入產品並經過嚴格測試(新規範用到新的PAM-4信令和FLIT低延遲編碼,因此需要接受嚴格測試),我們認為行業應該儘早加速並儘可能跟CPU和GPU的發展路線圖相匹配,全面轉向兩年的更新周期。
只有各項要素保持均衡,最終構建的系統才能高效協同、攜手前進。