當今數據中心的路由通常由一種名為"胖樹"的數據結構主導,其形態類似企業組織架構圖:每一層的節點與下一層的多個節點相連。其中,底層節點代表相互通信的路由器,而上層節點則是用於簡化路由流程的輔助路由器。底層路由器發送的數據包會沿樹狀結構向上傳遞,直至到達目標路由器所在的分支,再向下轉發。
這種設計易於實現,但效率低下:額外的路由器層帶來了不必要的開銷,樹頂的路由器也容易發生擁塞。此外,胖樹結構較為脆弱,單個路由器的故障就可能導致樹中大片區域斷聯。
從理論上看,最優的替代方案是"平面"網路,即路由器之間直接互聯。理想情況下,路由器應以隨機方式連接,以最大化網路中路徑的多樣性。然而,這在實踐中並不可行——在隨機網路中動態計算路徑需要大量算力,隨機布線也會導致數據中心內線路縱橫交錯、難以管理。
在我們近期發布於arXiv的一篇論文中,我們描述了首個可規模化落地的平面網路數據中心。我們提出了一種"准隨機"網路拓撲,它保留了隨機連接的諸多優勢;同時引入了一種我們稱之為ShuffleBox的無源光學器件,使平面網路的布線具備了工程可行性。這套網路設計方案被我們命名為RNG(彈性網路圖),目前已在AWS數據中心中投入使用,並已成為全球大多數新建數據中心的默認選擇。與傳統方案相比,RNG減少了69%的路由器用量,吞吐量最高提升33%,預計可降低40%的網路設備電力消耗。
數學理論的支撐
1990年代初,數學家們已證明,最優路由網路具有隨機拓撲結構——每個路由器僅與少數幾個其他路由器隨機相連。這一結論看似違反直覺,但整個網路因此在任意一對路由器之間都擁有大量不同路徑。隨機網路還展現出出色的彈性:沒有任何單一路由器比其他路由器更為關鍵。1%的路由器發生故障,網路容量僅下降約1%,性能退化是線性且可預測的,而非災難性的集中式崩潰。
網路研究人員也通過仿真驗證了上述結論,證明隨機平面拓撲在性能上優於對應的胖樹結構。
然而,這些理論成果始終難以在現實中落地。任何網路設計都需要配套"路由協議"來決定數據包的傳輸路徑。在隨機網路中,計算並實現合理的路由路徑集合需要大量硬體資源,遠超普通商用路由器的能力上限;而採用專用硬體來處理路由又會導致成本飆升。更大的難題在於,在數據中心內實現路由器的隨機布線在工程上幾乎無法實現。
我們的解決方案是構建一種"准隨機"網路拓撲,在隨機與確定性組件之間找到恰當的平衡點。
Spraypoint路由算法
在胖樹結構中,層級本身就能指引數據包的走向,且所生成的路徑保證是最短路徑。而在准隨機圖中,沒有明顯的結構可供利用。傳統平面拓撲中的多路徑路由方案通常需要比商用硬體多20至80倍的內存資源。
我們的核心洞察在於:可以利用拓撲結構中的隨機特性,以輕量級的方式開闢豐富的路徑選項。
我們的路由算法Spraypoint包含兩個組件。源路由器將流量"噴灑"至其所有鄰居節點;每個目標路由器設有若干專屬"路徑節點",負責將流量匯入目標。基本機制如下:源端發出的每個數據包首先隨機轉發至一個鄰居節點,隨後由經典最短路徑算法將其路由至某個路徑節點,再由該節點轉發至最終目標。噴灑機制使流量能夠經由多種不同路徑抵達目標,而路徑節點則防止流量在目標附近發生擁塞。在具體實現中,我們在每個目標周圍構建若干"環",流量沿環逐步向內收斂。
通過向鄰居節點噴灑流量,Spraypoint所提供的路由器間獨立路徑數量幾乎是標準最短路徑路由技術的兩倍,從而顯著提升了繞過擁塞鏈路或故障路由器的概率。
ShuffleBox:讓平面網路布線成為可能
隨機圖需要將任意兩台路由器相連,而這些路由器可能分布在不同機房,相距數百米。這正是該拓撲的優勢所在——它實現了路由器之間的快速通信;但這同時也是其劣勢,因為如此複雜的布線結構極難實現。
這正是我們准隨機方案發揮作用之處。我們並非讓所有連接都隨機分布,而是將網路拓撲中的特定部分固定下來。我們的核心創新是一種名為ShuffleBox的無源光學器件:一側連接路由器埠,另一側與其他ShuffleBox相連,內部線路按照特定規律排列,使ShuffleBox之間的隨機連接在宏觀上形成准隨機拓撲。
當一個新機架接入時,技術人員只需將其路由器插入本地ShuffleBox的可用埠即可,無需在其他地方重新布線。整個物理布線的複雜度、線纜數量和安裝流程均與胖樹方案相當,而邏輯拓撲實際上已是准隨機結構。
數學模型與大規模驗證
引入任何新型網路拓撲之前,運營商都需要確信其能滿足容量和性能要求。胖樹拓撲擁有簡單明了的預測模型,可量化性能和容量約束。
准隨機圖此前從未有過類似的工具。為此,我們針對路徑長度、路由數量、特定鏈路的流量分布等網路統計指標,建立了全新的數學模型,提供精確的公式供網路運營商選取設計參數。我們基於530處理器年的仿真對這些模型進行了大規模驗證——相當於單顆CPU連續運行半個千年,這些計算均在Amazon EC2上完成。
運營商現在可以根據伺服器數量和目標性能指標,計算出成本最低的合規拓撲方案,並對其可靠性充滿信心。
生產環境落地與全球推廣
首個准隨機網路於2024年底在愛爾蘭都柏林附近正式上線,承載真實生產流量。我們將實際性能與數學模型的預測進行了對比驗證,識別出若干運營層面的優化點,並在後續兩次部署中加以應用。在這些生產網路的端到端基準測試中,我們的平面拓撲在多路徑傳輸負載和時延敏感型儲存操作方面的表現與胖樹方案持平。整個過程無需任何客戶側工作負載調整,網路在現有應用層之下透明運行。
截至2026年4月,准隨機布線已成為全球大多數AWS新建數據中心的默認架構。路由器數量減少69%,直接轉化為每個站點在電力、散熱和運維開銷方面的大幅節省。對於用戶而言,這意味著每一次API調用、資料庫查詢和機器學習訓練任務背後,都有著更具彈性的基礎設施支撐——而這一切無需更改任何一行代碼。
Q&A
Q1:AWS的RNG網路設計和傳統胖樹架構相比,有哪些具體優勢?
A:RNG(彈性網路圖)相比傳統胖樹架構有三大核心優勢:一是路由器數量減少69%,顯著降低了硬體成本、散熱需求和運維開銷;二是網路吞吐量最高提升33%,得益於Spraypoint算法提供了幾乎兩倍於標準最短路徑路由的獨立路徑數;三是網路設備電力消耗預計降低40%。此外,RNG的彈性更強,單個路由器故障僅導致線性、可預測的容量下降,不會像胖樹那樣造成大面積斷聯。
Q2:ShuffleBox是什麼?它是如何解決平面網路布線難題的?
A:ShuffleBox是AWS團隊開發的一種無源光學器件,是實現平面網路工程落地的關鍵創新。它一側連接本地機架的路由器埠,另一側與其他ShuffleBox互聯,內部線路按照特定規律排列。這種設計使得ShuffleBox之間的連接在邏輯上呈現出准隨機拓撲,同時將物理布線的複雜度控制在與胖樹方案相當的水平。新機架接入時,技術人員只需將路由器插入本地ShuffleBox的可用埠,無需在其他地方重新布線,大幅簡化了施工流程。
Q3:Spraypoint路由算法是如何工作的?
A:Spraypoint由兩個核心組件構成。首先,源路由器將流量"噴灑"至其所有鄰居節點,而非沿固定路徑轉發;其次,每個目標路由器設有若干專屬"路徑節點",負責匯聚並轉發流量至最終目的地。數據包從源端出發後,先隨機轉發至一個鄰居,再由最短路徑算法路由至某個路徑節點,最終抵達目標。這種機制使流量能夠經由大量不同路徑傳輸,有效繞開擁塞鏈路或故障路由器,同時路徑節點機制防止目標附近出現流量積壓。






