在美國,exascale(百億億次)高性能計算系統的第一步始於2007年的一系列專題研討。直到15年後,橡樹嶺國家實驗室才真正上線1686 petaflops的「Frontier」系統。今年,阿貢國家實驗室正準備為「Aurora」啟動上線儀式,這將是美國第二或第三台百億億級超算設備——究竟位次如何,還要看蘿倫斯利弗莫爾國家實驗室的「El Capitan」何時通電。
這些百億億級超算的誕生之路充滿了延誤和挫折,期間還遭遇過技術變革、中國的競爭壓力及其他挑戰。阿貢國家實驗室環境與生命科學計算實驗室副主任Rick Stevens則表示,更進一步的zettascale、甚至是量子計算目標可能落地更慢,二者很可能都需要15到20年、甚至是更加漫長的開發周期。
而這,正是高性能計算的本質所在。
Stevens在最近一場網路研討會會上這樣描述HPC計算的近期和遠期發展態勢,「這將是一場持久戰。如果大家只關註明年會發生什麼,那HPC明顯不適合你。如果你想著眼於10年甚至20年的中長周期,那HPC才是最佳選擇。至於向著其他恆星系探索,那就是超遠期的千年大計了。總之,我們目前才剛剛起步,之前還能沿著摩爾定律前進,但現在最重要的問題是思考10年後的高性能計算會是什麼樣子?20年後呢?可能到時候情況已經完全不同的,我們當下就需要做好準備。」
Stevens此次演講的主題在於AI。不只是HPC應用程序和研究工作能夠從AI技術中受益2,AI管理的模擬與智能體、專用AI加速器乃至AI在大型系統開發中的作用都有巨大的想像空間。他指出,2019年至2022年間既是COVID-19突然爆發的危機時刻,也是AI大事頻發的歷史性階段。
隨著大語言模型(廣受歡迎的ChatGPT及其他生成式AI聊天機器人都以此為基礎)和Stable Diffusion文本到圖像深度學習的起飛,AI技術已經被納入蛋白質結構預測、開放式數學問題和各類HPC開發場景。也正是在此期間,百億億次超算系統開始真正落地。
Stevens表示,「越來越多的機構開始構建自己的大語言模型,這波爆發式增長仍在繼續,而且幾乎所有模型都集中在私營部門。其中只有少數是由非營利性組織完成的,且以GPT-4為代表的最強模型大多採取閉源模式。由此可見,AI模型的發展趨勢並未走向種類繁多的小體量模型,而是數量有限的超大模型。這也是當前階段內最重要的元事件。」
所有這一切——模擬與智能體、新興AI應用和AI用例——都將在未來幾年內消耗更多算力。伊利諾伊州的阿貢國家實驗室的領導級計算設施(ALCF)項目考慮的正是這個問題,規劃Aurora及之後的超算設計方向。Stevens和他的同事們正在構想一套比Aurora強大8倍以上的系統,徵求建議書將於2024年秋季發布,實際裝機計劃在2028年或2029年。「對於機器學習這類低精度運算需求,這套系統預計將擁有近0.5 zettaflop,相當於當前系統的2到3倍。」
目前一大關鍵挑戰,就是此類系統到底要搭載怎樣的加速器。究竟是現有通用GPU的後續版本(針對AI模擬用例提供增強支持),還是面向AI優化的其他全新引擎?
「這是最根本的問題。我們知道模擬將繼續發揮重要作用,也需要性能和精度更上一層樓的技術規範,但這項技術在AI中到底占比多少仍沒有明確的答案。世界各國都在考慮下一代超算系統要如何權衡,特別是要以怎樣的態度側重於AI市場或AI應用基礎。」
ALCF使用來自Cerebras Systems、SambaNova Systems、GraphCOre、英特爾Habana Labs和Groq的系統構建起AI測試環境,其中將採用專為AI工作負載設計的加速器,探索這些技術能否快速發展成熟並作為大規模超算系統的基礎,以更高效率運行HPC機器學習應用。
「問題在於,通用GPU在未來的用例下能否提供充足的性能支持並與CPU緊密耦合,證明其仍然是正確的解決方案。或者說,未來會很快出現其他更好的替代方案。」其中多租戶支持可能成為判斷的關鍵。「如果某套引擎正使用節點內的一個子集,那要如何同時支持子集內的其他應用?如何使用補充資源支持節點上應用程序的具體占用?這類需求中仍有很多懸而未決的現實挑戰。」
目前值得考量的幾個現實問題:
此外,新的大系統該如何構建也是件麻煩事。一般來講,新的技術浪潮(例如冷卻或供電系統的變化)要求對整個基礎設施做出重大升級。Stevens表示,更加模塊化的設計理念(即更換組件但保留系統的整體架構)當然更具意義。系統內的模塊可能比目前的節點還更大,能夠定期更換且無需升級整個基礎設施。
「我們要構想一個包含供電、冷卻,也許還有無源光學器件的基礎設施,之後就是可以頻繁更換的模塊,它們要具備簡單接口來跟晶圓廠的製程節點對齊。另外還有電源連接器、光學連接器和冷卻連接器。我們正在認真與供應商開展討論,考慮如何開發這種模塊化設計,爭取在未來兩年、而不是五年內實現系統內的組件升級。」
考慮到能源部各科學實驗室目前擁有的資產,包括百億億級超算系統和數據基礎設施、大型實驗設施和用於科學模擬的大型代碼庫,ALCF正在加緊關注這些現實問題。另外,原本為百億億級系統組建的跨領域、跨學科實驗室團隊也要利用起來;Stevens介紹稱,之前的團隊規模達到千人級別。
再來看自動化因素。阿貢和其他實驗室都掌握著超算系統和海量應用程序。於是問題來了:他們能不能找到覆蓋大部分工作的自動化方法,例如創建和管理AI智能體,從而高流程更快、更輕鬆、更高效?這個問題目前同樣沒有明確的答案。
以上研究工作都在不斷推進,zettascale和量子系統發展也在按自己的節奏同步進行。Stevens預計這兩類系統在未來15年到20年內都沒有廣泛落地的可能性。Zettascale恐怕要到這個十年末才能實現低精度部署,而64位精度的系統也許要到2035年才能出現。(英特爾則認為這個時間節點可能是2027年。)
在量子計算方面,成本的重要性與技術本身同樣重要。在exascale百億億次設備上運行應用程序兩周,大概要燒掉約700萬美元。而在擁有1000萬量子比特(目前尚不存在)的大規模量子設備上運行相同的作業,可能要花掉50億至2000億美元(參見下圖)。因此,這個成本必須再降幾個數量級,才能以物有所值的方式真正幫助人們解決大規模問題。
「也就是說, 我們需要在發展量子計算的同時,在經典計算方面也取得持續進展,利用經典計算解決期間出現的現實問題。雖然預計zettascale的開發同樣需要15到20年的時間,但這是更可以把握的發展節奏,也是我們真正觸手可及的技術選項。」
所有這一切都將回歸最初的主題:HPC創新需要大量時間,量子加經典的混合系統可能才是最終解決之道。未來的計算基板可能會以分子、光子甚至是其他未知的形式,工程師和科學家們距離正確答案還非常非常遙遠。
Stevens總結道,「目前對技術格局影響最大的仍然是AI,而且我們對於AI技術如何重構系統、真正為大規模AI計算打造理想平台也只是略知皮毛。但遊戲規則已經有所改變,如果我們在10年後重新討論這個話題,可能思路都將完全不同。也許我們的猜測是對的,也許並不成立。總之這將是一場漫長的競賽,期間會有很多顛覆性因素,我們要做的就是駕馭這些顛覆因素、而不是強行與之對抗。事實上,顛覆是我們的朋友,它們能讓我們在既有思路之外獲得新的啟發和能力,所以我們應當主動尋求顛覆、擁抱顛覆。」