AMD公司CTO Mark Papermaster制定了未來兩年的發展計劃。
過去幾年以來,隨著摩爾定律的逐步放緩,以及需要更高的功率來支撐一代又一代的高處理性能,半導體器件的發熱量正變得愈發誇張。
正因為如此,晶片製造商才必須在晶片的設計和製造方式上發揮創意,確保即使總功率有所增長,也要把能效控制在合理水平。AMD公司CTO Mark Papermaster在接受採訪時表示,對於晶片設計師們來說,單純把更多電晶體封裝到晶片當中並不代表就萬事大吉了。
「現在已經不能繼續這麼粗暴解決了……在當初的摩爾定律時代,新的製程節點讓我們能不斷封裝進更多性能更高的電晶體,同時不會增加能耗……但那段美好的時光已經結束了。」
這也是AMD多年來一直在探索解決的問題。該公司為此在2021年啟動了30x25計劃,目標是到2025年將計算效率較2020年的基準提高30倍。
雖然這些努力為算力的可持續性帶來了明顯優勢,但AMD這種努力提高晶片每瓦性能的舉措更多是出於自身生存的考量。
正如AMD CEO蘇姿豐在今年早些時候的ISSC主題演講中所明確指出,考慮到當前的技術發展速度,雖然zetaFLOP(千百億億次)超級電腦在未來十年之內肯定可以實現,但必須要嚴格控制其運行功率才能實現真正的可用性。據她估計,目前這樣一台設備的運行功率可能會超過500兆瓦。
隨著AMD最後期限的臨近,其晶片業務倒也已經取得了重大進展。不過接下來還有很長的路要走,因為迄今為止其性能提升還只有13.5倍。
從高級封裝技術入手
Papermaster解釋道,這是個亟待解決且極其複雜的問題,而且並沒有什麼單一方案可供參考。「我們正處於算力與能耗呈指數遞增的曲線之上,必須考慮有什麼手段能夠遏制這條曲線。」
在起步階段,AMD公司就一直強調通用、加速和特定領域計算能力的靈活組合,希望將CPU、GPU、FPGA和加速器等IP組合協同起來以解決問題。
AMD還大力投資於多種技術,包括小晶片與先進封裝方案,希望突破現代半導體製造技術的極限。
AMD優化能效的首要思路之一,就是將計算與I/O和內存分離開來,之後為二者使用最佳處理技術。其中的思路在於,某些元素會比其他元素更適合隨製程縮小而實現擴展。也正因為如此,AMD的Epyc 4 CPU才會在計算晶片中採用5納米節點、而I/O晶片則採用6納米節點。
這種方法還能在行進封裝技術的加持下進一步發展,從而將單一產品的電晶體密度提高至掩模版的極限以上。AMD上周發布的MI300系列加速器就屬於這類成果,該晶片採用APU加GPU設計,由多達13個小晶片組裝而成(此外還有8個高帶寬內存棧),再使用高性能晶片互連將它們連接在一起。
說到MI300A(這裡的「A」代表APU),AMD實際上還開發了一項名為Smart Shift的技術,可以根據工作負載在晶片的24個Zen 4核心和6個CDNA 3 GPU晶片之間動態分配功率。
但性能越強、發熱量越大的趨勢已經不可逆轉
可以上種種方法還是無法改變摩爾定律正逐漸失效的事實,將更多算力塞進單一封裝仍會帶來更高的功耗,只能說目前的技術有助於在數據移動的角度控制負載、降低損耗。
他解釋道,「集成度越高,被耗費在串行器反序列化器上的電力就越少——這裡浪費的能量其實相當可觀……但更大的創新也已經蓄勢待發。」
即使如此,晶片本體發熱量的不斷上升也給熱管理構成了挑戰。根據之前的相關報道,熱管理正成為令數據中心運營方煩惱的頭號難題,特別是那些希望大規模部署AI基礎設施的運營商。
但Papermaster認為這些挑戰並非不可克服,反而代表著下一代熱管理及數據中心基礎設施的發展機遇。
他解釋道,「在建立數據中心時,投資於更先進的冷卻技術將越來越有性價比。對運營商們來說,保持領先優勢、使用新的可再生能源以及為數據中心選擇更適合的地理位置將物有所值。在我看來,先進冷卻、改善導熱材料、增強系統散熱等方面都有著全新的發展空間。」
通過這些技術,Papermaster預計AMD及其他半導體廠商完全可以將系統總功耗推得更高。「無論如何,我認為我們還沒有挖盡全部潛能。」
軟體層面亦不乏機遇
除了架構、封裝和系統層面的改進之外,Papermaster還專門強調了軟體質量提升所帶來的其他機遇。
他強調,「下一個前沿領域就是通過軟體棧建立更深入的合作夥伴關係。我們已經開始與領先的AI從業者密切合作……包括微軟、甲骨文、Lamini等廠商,還有我們在Mosaic ML項目中做出的種種探索。這些合作夥伴關係已經讓我們深入了解到可以與軟體解決方案的提供方和社區參與者攜手進行哪些優化。」
隨著上周ROCm 6軟體平台的推出,我們看到AMD在通過軟體改進來推動更高能效方面已經取得一定進展。AMD方面也表示,單憑對底層軟體框架的優化,他們就成功將vLLM、HIP Graph和Flash Attention等大語言模型的性能表現提高至1.3倍到2.6倍左右。
ROCm 6與MI300系列加速器則通過組合進一步改進架構設計,與ROCm 5加MI250相比,前者在運行Llama 2 700億參數模型的推理負載時可將延遲降低至八分之一。