英特爾公司今天宣布,該公司幫助美國能源部建造的超大規模超級電腦Aurora的所有計算模塊已經安裝完畢。

該系統是能源部、英特爾和慧與公司三方的合作。它位於Argonne國家實驗室。科學家們將使用該系統運行人工智慧模型、模擬和大規模數據分析應用。
預計今年晚些時候,Aurora的理論峰值性能將超過2 exaflops。這將使它的速度幾乎達到世界目前運行最快的超級電腦(即能源部另一個名為Frontier的系統)的兩倍。一個exaflop等於每秒10億次的計算。
Argonne國家實驗室的實驗室副主任Rick Stevens表示:「在我們努力進行驗收測試的同時,我們將使用Aurora來訓練一些科學方面的大規模開源生成式人工智慧模型。」「Aurora擁有超過6萬個英特爾Max GPU,一個非常快的I/O系統和一個全固態大容量存儲系統,是訓練這些模型的完美環境。」
Aurora由10,624個被稱為刀片的計算模塊組成。這些刀片每個重70磅,在166個冰箱大小的機櫃裡運行。完全組裝好的系統所占的空間相當於兩個專業籃球場。
每個Aurora刀片包括兩個來自英特爾至強Max系列CPU晶片的中央處理單元。還有六個英特爾Max系列GPU顯卡。這些處理器由內存晶片、網路設備和內置在每個刀片中的冷卻裝置支持。
英特爾的Xeon Max系列CPU晶片基於10納米架構。它們針對人工智慧模型等工作負載進行了優化,這些模型需要頻繁地將數據移入和移出內存的能力。為了加速此類工作負載,這些CPU採用了一種被稱為HBM的高速內存,這在英特爾之前的晶片中是沒有的。
英特爾的Max系列GPU,構成了Aurora的另一個核心構件,也針對AI工作負載進行了優化。顯卡表達計算的語言被稱為指令集。英特爾Max系列GPU的指令集專門針對矩陣乘法,即人工智慧模型用來處理數據的數學運算。
這些晶片還包括多達128個光線追蹤單元。光線追蹤是一種渲染照明和陰影效果的方法。據英特爾稱,該技術加快了科學應用的數據可視化功能。
總體而言,Aurora具有21248個CPU和63744個顯卡。這使得它成為世界上最大的GPU集群。這些晶片由一個220PB的對象存儲池支持,Aurora將用來存儲科學應用的數據。
充分利用Aurora的性能需要研究人員專門為該系統優化應用。為了減輕這一任務,能源部已經創建了一個名為Sunspot的縮微版Aurora。它提供了一個環境,研究人員可以在其中測試不同的軟體優化方法。
截至今年早些時候,有十多個研究小組正在使用該系統。一旦Aurora開始運行,這些團隊將開始從Sunspot轉移代碼。早期的Aurora用戶將側重確定在第一批生產應用可以部署之前可能必須解決的所有技術問題。