宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

走向十萬億億次新時代,不需要多建核電站

2023年03月07日 首頁 » 熱門科技

走向十萬億億次新時代,不需要多建核電站

在高性能計算的世界中,滿足於過去的成就毫無意義。無論以往有多輝煌、多眩目,一切榮耀皆是序章。在去年睽違已久的百億億次算力大關終被攻破之後,在橡樹嶺國家實驗室的Frontier超級電腦幫助人類達成這一壯舉之後,我們又有了新的奮鬥目標。

下一個挑戰非常明確:十萬億億次算力,相當於Frontier超算系統的1000倍。在2021年宣布重返英特爾擔任CEO的幾個月後,Pat Gelsinger再次登上新聞頭條,他表示晶片巨頭計劃在2027年拿下十萬億億次目標。

Gelsinger在2021年10月的採訪中提出,「2027年達成十萬億億次是一項巨大的內部計劃,需要把我們的多種技術結合起來。五年性能提升1000倍,這絕對是一場令人嘆為觀止的探索。」

至於英特爾的主要競爭對手AMD,熱衷於推動轉變的公司掌門人蘇姿豐在ISSCC 2023的舞台上也同樣公布了十萬億億次計劃,只是給出了更為保守——或者說更為合理的時間表。

回顧過去兩年多來超級電腦的性能發展趨勢和計算領域的創新成果,包括先進封裝技術、CPU與GPU、小晶片架構、AI採用速度等等,蘇姿豐認為該行業達成十萬億億次水平的時間點可能是在10年之後。

她在演講中指出,「我們去年剛剛邁過了一道非常重要的里程碑,也就是打造出首台百億億級超級電腦。」而達成這個光榮目標的正是採用AMD晶片的HPE系統,「其中使用到CPU與GPU組合,包含大量技術細節。無論是從性能角度,還是從效率角度,我們都真真正正實現了百億億次超級計算能力。但現在我們將開啟新的征程,思考接下來還能不能保持住這樣的創新節奏……這是每個人都需要思考的挑戰,我們要如何才能繼續快步前進?」

挑戰的核心,在於能源效率。雖然數據中心伺服器的性能每2.4年就翻一番,高性能計算甚至每1.2年翻一番,GPU則每2.2年翻一番,但伺服器的能源效率卻似乎沒多大提升的空間。

走向十萬億億次新時代,不需要多建核電站

GPU能源效率的提升同樣在逐漸放緩:

走向十萬億億次新時代,不需要多建核電站

與此同時,超級計算效率每2.2年翻一番。如果按照這個趨勢來分析,那麼預計到2035年左右的十萬億億次系統需要消耗500兆瓦電力次浮點運算。

走向十萬億億次新時代,不需要多建核電站

在蘇姿豐看來,「這樣的情況根本就沒有可行性。總功率已經跟一座核電站差不多,所以我們當前面臨的根本挑戰,在於如何把握接下來的十年將計算效率推向新的高度。整個行業已經為此做了很多工作,但我們必須要讓效率和性能齊頭並進、相輔相成。」

但攻克如此艱難的挑戰並非沒有可能。除了成功登頂全球最快超級電腦(比Top500榜單中接下來6大超算的總和性能更強)之外,Frontier在Green500超級電腦排名中也位列第二,顯示出極強的能源效率優勢。

不過一系列客觀挑戰,也確實讓效率的進一步提升變得愈發困難。一方面是摩爾定律的維持空間愈發有限,意味著性能密度與能源效率的雙重提升絕非易事。另外,IO無法像邏輯電路那樣等比例縮放,隨著IO距離越來越小,每比特能耗會有所增加。而且在超級電腦等大型系統當中,I/O仍是限制效率的主要因素。下面來看蘇姿豐展示的I/O能效圖:

走向十萬億億次新時代,不需要多建核電站

再有,更大的數據集以及計算-內存之間的傳輸帶寬,也讓內存訪問變得越來越耗電。

 「下一個十年,我們需要做些什麼?答案是真正從整體上推動系統級效率的提升,考慮跨計算、跨通信以及跨內存等各項元素,只有這樣才能打造出最高效的系統。」

蘇姿豐表示,AMD目前最關注的是高級架構,目標是「為正確的工作負載使用正確的計算技術。以異構架構和加速計算為例,這就是我們目前正在努力推動的方向。」

Frontier採用的是AMD的Instinct MI250加速器,一款6納米製程的GPU。這款晶片針對高性能計算和AI工作負載提供大量領域特定的架構增強功能,集成有大量小晶片;同時配備一塊2.5D小晶片,用於拉近高帶寬內存與計算間的距離。

如今,3D小晶片已經在半導體行業中廣泛流行。蘇姿豐還談到在計算上堆疊內存的想法,這種方式有望減少處理器訪問內存時產生的功耗。

走向十萬億億次新時代,不需要多建核電站

 「這種設計的真正作用,是讓我們能夠將計算組件更緊密地結合在一起,同時降低通信成本。當我們將這些計算元件安放在電路板上時,各元件之間的距離決定了彼此通信時所耗費的電力。現在,我們可以將其以2D/2.5D排列方式進行封裝,或者採取3D堆疊排列形式,從而顯著提升系統的整體通信效率。」

作為蘇姿豐的另一個關注重點,領域特定計算的本質就是用正確的工具執行正確的操作。從雙精度浮點運算到其他數學格式,合理的搭配能夠提升計算效率,並在過程中引入AI和機器學習以改善自動化水平。簡單來講,就是針對特定應用需求選擇更有針對性的加速手段。

所有這一切相結合,衍生出的產物就是下一代GPU Instinct MI300,一款專門面向高性能計算和AI工作負載的晶片。

 「通過5納米製程工藝和3D堆疊,我們得以將緩存、底部晶片結構再到頂部CPU和GPU疊放起來,使用新的數學格式和不同的內存架構,藉此將性能和能源效率提升5到8倍。」

這種堆疊設計對於CPU和GPU非常重要,因為二者通常擁有自己的內存緩存,因此在共享數據時必須在處理器周圍移動數據。MI300的CDNA 3 APU架構包含一個統一內存架構,可消除MI250中獨立內存緩存所對應的冗餘內存副本,藉此降低數據訪問能耗。

蘇姿豐還談到內存和計算堆棧等領域有待實現的其他創新目標。

 「到目前為止,我們展示的是在計算晶片上堆疊SRAM。我們已經將其投入生產,並在某些工作負載上實現了顯著改善,但對其他一些工作負載幫助不大。如果能在計算晶片上堆疊DRAM乃至其他類型的內存,適用範圍可能會更廣。」

走向十萬億億次新時代,不需要多建核電站

AMD公司還與三星合作,共同將處理機制引入內存。蘇姿豐坦言,「作為處理器設計師,這樣的想法似乎有點反直覺。」但在理論上,確實可以把一部分處理操作納入內存。來自AMD和三星的研究團隊發現,將部分算法核心放入內存可以將整體訪問功耗降低達85%。

走向十萬億億次新時代,不需要多建核電站

 「這裡的工作只針對單個組件,但正好藉機探索應用程序如何使用此類技術。這是個需要進行大量跨學科實驗的新領域。」

此外,AMD公司還與DARPA合作開發共封裝光通信技術,藉此提高IO效率。小晶片與壓縮封裝正給本地通信問題帶來解決希望,但還需要更多努力才能讓遠距離IO的效率進一步提升。其中一種方法,就是在光學晶片中更加緊密地集成光學接收器和計算晶片。

走向十萬億億次新時代,不需要多建核電站

最終目標,是實現系統級封裝架構,這樣封裝本身將成為新的主板,全面容納從CPU到加速器、再到內存和光學元件的一切。

 「這要求我們從多個層面開展不同思考。從計算的角度來看,我們的目標是優化每一個計算核心,使其達至最佳狀態。無論是CPU還是GPU,抑或是領域特定加速器或者是機器學習中的訓練/推理ASIC,我們都可以對各個計算核心進行分別優化,甚至由不同部門對其做各自優化。」

走向十萬億億次新時代,不需要多建核電站

對於這樣的組件混合和匹配需求,標準化晶片到晶片接口將成為決定成敗的關鍵。

AI將在這一領域中發揮越來越大的作用,而不再只是一種用來解決高度重複問題(比如訓練大規模模型)的「錦上添花」式工具。例如利用AI來替代物理模型。對於複雜的物理問題,傳統的解決方案一直是使用海量數據集運行CFD模型。

然而,AI加速高性能計算「的基本思路,是使用傳統高性能算力完成一部物理模擬,再利用這些數據進行訓練和推理,藉此縮短研究周期。如果發現找不到正確答案,則可以轉而訓練其他不同模型集,由此建立起效率更高的混合工作流程。」

走向十萬億億次新時代,不需要多建核電站

當然,目前討論這一切還為時過早。仍需要一些工作來找尋正確的算法,並確定如何解決問題,最終將更多算法思維引入系統級優化。但蘇姿豐強調,如果半導體行業想要進一步提升能源效率、讓十萬億億次計算成為現實,就必須將這些難題一一攻克。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新