伯克利實驗室開始為未來的NERSC-10百億億次級系統進行招標

2023年4月18日

Timothy Prickett Morgan

蘿倫斯伯克利國家實驗室的國家能源研究科學計算中心是美國能源部推動超級計算創新的關鍵機構之一，它在幾家供應商身上豪擲重金設計和建造超級電腦，目前該機構已經開始為未來的NERSC-10百億億次級超級電腦進行招標。

贊助商廣告

儘管慧與（Hewlett Packard Enterprise）是美國唯一一家樂於承接功能性超級電腦業務的主流伺服器供應商，但這並非十拿九穩，這裡可能會有一些競爭。

慧與於2016年8月以2.75億美元的價格收購了Silicon Graphics，然後在2019年8月以13億美元的價格收購了Cray，從而整合了兩家競爭對手，否則它們可能會參與競標這台還沒有暱稱的 NERSC-10機器。

在2018年為橡樹嶺國家實驗室（Oak Ridge National Laboratory）安裝了200 petaflops 的「Summit」混合CPU-GPU超級電腦並為蘿倫斯利弗莫爾國家實驗室安裝了125 petaflops的Summit變體「Sierra」之後，IBM離開了超算業務——藍色巨人曾表示這項業務對其無利可圖。因此要想尋找第二個百億億次級機器的來源，希望相當渺茫。

英偉達可能是美國能源部HPC系統的主要承包商，看到其光學鏈接GPU研究投入生產將是一件有趣的事情。但英偉達似乎對這個想法並不感興趣。在阿貢國家實驗室的「Aurora」百億億次級系統陷入困境後，英特爾已經完全失去了成為HPC系統主承包商的興趣，AMD也沒有興趣執牛角，聯想幾乎退出了競爭，即使它可以算是半家美國公司，可另一半卻是中國的。然後就剩下了法國的Atos和戴爾，後者更像是小規模地在HPC領域做些皮毛工作，而不是擔當功能級系統架構師。

微軟Azure、亞馬遜網路服務公司（AWS）或谷歌雲（Google Cloud）可以在伯克利實驗室內部建立一個系統，實際上這可能是美國政府想要的——與慧與或任何競標者競爭。但是我們很難相信會有哪家雲供應商真的將其視為一個機會，因為這是固定成本交易，更像是只能覆蓋研發成本，而不是一樁利潤豐厚的交易，甚至連成本加成都沒有，更不用說是合理的利潤了。

贊助商廣告

建造百億億次級電腦對於國家安全和推動資訊技術創新很重要，但這並不是一個賺錢的簡單方法。而且從來也不是。而且幾乎可以肯定的是，它永遠也不會是。能源部長Jennifer Granholm應該為了去年在橡樹嶺運行的「Frontier」超級電腦以及今年晚些時候會進入蘿倫斯利弗莫爾國家實驗室的「El Capitan」超級電腦給慧與和AMD送鮮花、巧克力和感謝信。

我們認為，NERSC-10的競標將會沒多少競爭。並且可能在一定程度上受到山姆大叔的脅迫，「他」需要百億億次級機器的替代供應商和架構，以減輕各種交付風險以及如此重要的機器只有單一來源的風險。鑑於對多樣性的渴望，我們認為NERSC-10很有可能基於英偉達未來的混合CPU-GPU晶片，而不是AMD類似的CPU-GPU晶片，除非AMD對其未來的Instinct MI400或MI500計算引擎非常積極。這可能是一台基於「Falcon Shores」混合CPU-GPU設計的機器，但鑑於阿貢國家實驗室的「Aurora」混合CPU-GPU機器的困境，英特爾將不得不做出很多讓步才能成為NERSC-10系統的一部分。讓步的可能將會是價格，這可能會贏得交易。這就是AMD在美國能源部百億億次級系統的採購中的擊敗IBM和英偉達的方法。

也許能源部和國防部將不得不創辦自己的超級電腦製造商，像一家超大規模企業一樣，找一家美國的原始設計製造商（ODM）來建造它。為什麼不這樣做呢？無論如何，我們需要一個大型的美國ODM，對吧？（Supermicro可以算作美國最大的一家，但還有其他幾家。）而且NERSC-10要到2026年才會安裝，所以有時間做一些不同的事情。但如果發生這種情況，競爭性投標就會消失，因為一旦山姆大叔成立了自己的系統，正如我們所說的那樣，就將贏得所有交易。為了證明其存在是正當的，它就必須這樣做。

NERSC-10 的徵求意見書（RFP）和速度

伯克利實驗室於4月17日開啟了NERSC-10電腦的徵求建議書（RFP），RFP預計將於今年第四季度發布，並在2024年第四季度簽署系統構建和非經常性工程（NRE）附加組件合同。計劃於2025年安裝NERSC-10搶先體驗系統，於2026年下半年交付系統，於2027年全面投入生產。

贊助商廣告

讓我們來看看 NERSC-10的願望清單。

首先，該機器提供的應用性能必須是現有93.8 petaflops 「Perlmutter」電腦的10倍，「Perlmutter」是一款HPE Cray EX235n系統，配備了64核AMD 「Milan」 Epyc 7763處理器與Nvidia「Ampere」A100 GPU加速器，通過HPE Slingshot-10以太網互連連接。10 倍不是理論上的64位浮點運算速度要求，而是在Perlmutart上運行的混合應用程序（稱為 Workflow-SSI 堆棧）的性能提高10倍。伯克利實驗室進一步表示，NERSC-10機器必須混合使用CPU和混合CPU-GPU節點，以充分提升Workflow-SSI的性能，這兩種節點的具體組合方式由提供RFP的供應商決定。

無論採用何種架構，NERSC都必須適用於20兆瓦的功率包絡（略低於橡樹嶺在使用的21.1兆瓦），提供1.69 exaflops的峰值並在High Performance Linpack基準上維持1.1 exaflops的性能。Perlmutter的功率為2.6兆瓦，經Linpack測試可提供70.9 petaflops的性能，每瓦27.4 gigaflops，這個效率是Frontier的一半，後者在Linpack測試中達到每瓦62.7 gigaflops。

很難猜測2026年安裝的頂級超級電腦的每瓦gigaflops能夠達到多少，但是讓我們試試看。如果你每隔幾年都會看看11月的Green500排名，那麼在2014年，平均大約為4 gigaflops/瓦至5 gigaflops/瓦。兩年後的2016年，這個數值介於每瓦6 gigaflops到10 gigaflops之間。2018年，它約為每瓦15 gigaflops，而在2020年約為每瓦27 gigaflops。Frontier是每瓦62.7 gigaflops。問題是：計算效率能否在2024年再次翻一番，還是從現在開始更傾向於提高50%？讓我們悲觀一點，因為摩爾定律已經到頭了。對於2024年製造的電腦，每瓦100 gigaflops，增加60%，2026年製造的機器進一步提高35%，達到每瓦 135 gigaflops。這在四年內翻了一番多，這得益於進程收縮和減少CPU和GPU之間延遲的打包。

因此，在20兆瓦的功率範圍內，這意味著NERSC-10機器的原始64位性能為2.7 exaflops，每瓦135 gigaflops。我們不認為伯克利實驗室準備用足20兆瓦，特別是考慮到加州的電力成本，但我們確實認為它希望擁有一台在Linpack上提供至少1 exaflops的機器。

贊助商廣告

假設NERSC-10的峰值為1.5 exaflops，這將適合在Linpack上提供1 exaflops的11兆瓦功率包絡內。根據我們的計算，這樣的機器將提供Perlmutter 16倍的峰值性能，並且應該能夠很好地實現伯克利實驗室在NERSC-10 RFP中將實際應用性能提高10倍的規定。如果計算能力的提升或計算效率不如系統潛在供應商所希望的那樣好，那麼它可以用節點數量來彌補，就像功能級超級電腦經常採用的方式，它仍然適合20兆瓦的功率包絡。

人們可能會說伯克利實驗室的科學家們憤世嫉俗，但考慮到未來四年的各種未知數，他們實際上只是務實而已。

目前還沒有給出NERSC-10系統的預算數據，但RFP指南確實透露NRE往往會占到系統建設合同的10%到20%，其中包括早期訪問系統和多個測試和開發系統。

NERSC-10 機器必須能夠使用 OpenMP指令運行C （2017）、C （2020）和Fortran （2018）。它必須支持計算引擎（CPU、GPU等）的LLVM後端，並使用Kokkos、SYCL、OpenACC和CUDA應用程序編譯應用程序。MPI是網路設備上的核心捆綁在一起的粘合劑。文件中沒有指定網路類型，但毫無疑問，它將支持無限帶寬技術（Infiniband）或以太網。