類似於室內設計師將椅子、桌子和其他家具布置在家居環境之內,晶片設計師也需要搞清楚處理器的各部分組件要如何放置在平面圖上,同時充分考慮到各組件間的往來延遲。
室內設計師需要考慮房間內空間和起居使用的便利性,而晶片設計師則關注功率、性能和面積與宏單元位置的影響。內存等電晶體、PCI-Express控制器或內存控制器等模擬設備,甚至是核心本身,都需要在半導體設備上找到屬於自己的安放點位。
長久以來,這兩個步驟一直依靠手動方式完成——首先放置宏單元,之後放置無數較小的標準單元。近期,設計人員開始採用更為混合的方法,同時放置宏單元和標準單元,於是挑戰性也達到新的高度。
英偉達研究科學家Anthony Agnesina和Mark Ren在最近討論AI輔助宏單元布局的博文中寫道,「這些宏單元往往比標準單元大得多,而標準單元則是數字設計的基本構建塊。宏布局對於晶片布局有著巨大影響,直接決定著許多設計指標,例如面積和功耗。因此,改進這些宏單元的布局,對於優化每塊晶片的性能和效率至關重要。考慮到宏布局、標準單元而已以及由此產生的功能、性能與面積(PPA)之間的複雜關係,必須想辦法改進這一設計流程。」
近年來出現的新方法,包括藉助強化學習(算法和神經網路通過對大量宏單元放置示例進行採樣學習)實現對並發單元和宏單元的布置。英偉達建議使用DREAMPlace,也就是該公司於2019年首次推出的GPU加速開源深度學習工具包,嘗試在晶片上放置超大規模集成(VLSI)電路,徹底顛覆以往以手動方式設計宏單元和標準單元布局的老辦法。
英偉達還建議調整當前並發單元和宏單元的布局設計方式,例如使用多目標優化框架來擴展搜索空間以縮小「最優性差距」,也就是拉近已知最佳解決方案與設計方案下限值之間的差距。
DREAMPlace是一款使用PyTorch深度學習框架和工具包創建的分析放置器,可使用放置問題來訓練神經網路。英偉達科學家們在日前的國際物理設計研討會上發表了AutoDMP(基於自動DREAMPlace的宏布局)研究論文,這也標誌著這家GPU巨頭乃至整個半導體行業都在探索如何利用AI設計出更強大、更高效的新型晶片。
AutoDMP整合了上周英偉達在GTC 2023大會上展示的所有前沿和核心組件,能夠覆蓋從GPU加速到機器學習技術、再到提高效率與降低功耗等各類需求。
作為八位參與研究的英偉達團隊成員,Agnesina和Ren寫道,「這項工作表明,使用基於機器學習的多目標優化和GPU加速數值布局工具,可以有效探索廣闊的設計空間,找到更好的宏布局解決方案。DREAMPlace將布局問題表述為布局密度約束下的線長優化問題,並對其進行數值求解。」
據研究人員介紹,這裡提出的方法要求使用多目標樹結構Parzen估計器(MOTPE)貝葉斯優化算法,通過調整布局器的參數來探索設計空間,最終全力追求三大基本目標——線長、單元密度和降低通信擁塞。其中還包含一個雙層功率、性能和面積(PPA)評估方案,用以管理搜索空間的複雜度。論文提到,英偉達還鼓勵對DREAMPlace布局引擎做進一步優化,「以減少合法化問題並顯著擴展其設計空間,從而改善潛在的可實現PPA指標。」
Agnesina和Ren寫道,「我們建議在參數空間中使用多目標優化,而非單目標優化。需要相互權衡的目標分別為線長、密度和通信擁塞度。線長近似於直線施泰納最小樹(RSMT)長度。密度是指DREAMPlace中使用的目標單元密度。最後,使用RUDY算法估計擁塞情況。」
研究人員在DREAMPlace中選擇了16個參數來定義設計空間。Agnesina和Ren解釋道,這些參數「是根據對布局質量有顯著影響的觀察結果而一一確定的。」「其中包括與優化相關的參數(例如基於梯度的數值優化器及其學習率)和物理參數(例如用於密度評估的bin數和密度目標)。多目標優化力圖找到帕累托邊界,這是一組非支配的目標空間點,代表著若不降低至少一個其他目標,則任何目標均無法繼續改進。」
他們還在DREAMPlace之外添加了新的參數,包括最初將單元和宏布置在底板中心,這樣會影響最終布局的質量。此外,為了簡化宏單元的合法保證(所謂宏單元的合法性,就是確保宏單元間互不重疊,且符合各種設計約束),他們還添加了兩個參數以確保宏單元間的最小垂直和水平間距。
AutoDMP還接受了TILOS AI研究所的宏布局基準測試的評估,其中包含帶有大量宏單元的CPU與AI加速器設計。在評估當中,研究人員將AutoDMP與商業EDA工具相集成,並在英偉達DGX AI系統上運行了多目標優化。這套系統包含四個「Ampere」A100 GPU加速器,各加速器均具有80 GB的高帶寬內存。測試會啟動16個並行進程來採樣參數並運行DREAMPlace,選定的布局則被納入由CPU驅動的TILOS EDA流程接受檢驗。
通過調整DREAMPlace中的增強參數並引入多目標優化機制,研究人員發現,他們能夠在幾個小時之內在DGX系統上生成宏布局選項——包括為每份設計做1000個設計點採樣。實際效果不僅超越了開源學術工具、比肩商業產品,「這樣的進步更有助於縮短早期架構探索周期,更準確、更高效地評估布局修改決策。」
Agnesina和Ren最後總結道,「這項工作證明,將GPU加速布局器與AI/機器學習多目標碼數優化相結合將帶來切實優勢。此外,考慮到可擴展性在現代晶片設計流程中的重要意義,我們希望這種方法能夠為新的前瞻性設計空間探索翻開歷史性的又一篇章。」