
Microsoft 研究人員提出了一種名為管理保留內存 (MRM) 的新概念 - 這是一種具有短期持久性的存儲級內存 (SCM),專門針對 AI 基礎模型工作負載進行 IO 優化。
Microsoft 首席研究軟體工程師 Sergey Legtchenko 和其他研究人員在 Arxiv 上發表的論文中描述了 MRM,旨在解決 AI 集群中高帶寬內存 (HBM) 的局限性。他們指出,HBM "由於多個原因對 AI 工作負載來說並不理想",它"在寫入性能方面過度配置,但在密度和讀取帶寬方面配置不足,同時每比特能耗顯著。由於製造複雜性,其成本也很高,良率低於 DRAM。"
研究人員表示,SCM 方案 - 如英特爾已停產的 Optane 以及潛在的 MRAM、ReRAM 或 PCM (相變存儲器) 替代方案 - 都假定在內存 (需要持續供電刷新以保留數據的易失性 DRAM) 和存儲 (長期保存數據,以年計) 之間存在明顯的界限。
他們說:"這些技術傳統上提供長期持久性 (10 年以上),但 IO 性能和/或耐久性較差。" 例如:"閃存單元的保留時間超過 10 年,但這是以犧牲每個存儲單元的讀寫吞吐量為代價的,相比 DRAM 要低。這些特性意味著 DRAM 用作處理器的內存,而閃存用於二級存儲。"
但從保留時間來看,這種界限實際上不必如此明顯。保留時間存在一個從零到數十年甚至更長的連續譜。DRAM 在需要刷新之前確實會短暫保留數據。研究人員寫道:"非易失性是存儲設備的一個關鍵屬性,但在存儲單元層面上這個概念其實具有誤導性。對所有技術而言,存儲單元只是提供一個保留時間,這是一個從 DRAM 的微秒到多年的連續體。"
通過默認支持這種明顯的內存-存儲分界概念,"支撐 SCM 的技術被迫要實現非易失性,要求其保留時間達到十年或更長。不幸的是,實現這種高保留時間需要在寫入和讀取延遲、能源效率和耐久性等其他指標上做出權衡。"
對於像推理這樣的 AI 工作負載來說,具有非易失性的通用 SCM 是不必要的。這類工作負載需要高性能的模型權重和 KV 緩存數據順序讀取,但寫入性能要求較低。由於此類工作負載規模巨大,需要一個新的內存類別,因為 HBM 的每比特讀取能耗太高,而且"成本高昂,良率挑戰顯著"。
Microsoft 研究人員表示,他們理論上的 MRM "與易失性 DRAM 不同,它可以在斷電時保留數據,且不會在頻繁的單元刷新中浪費能量,但與 SCM 不同,它並不針對長期保留時間。由於大多數推理數據無需長期保存,保留時間可以放寬到幾天或幾小時。作為回報,MRM 具有更好的耐久性,並致力於在讀取吞吐量、能源效率和容量等關鍵指標上超越 DRAM (和 HBM)。"
他們指出:"由於 IO 是大規模且順序的,因此不需要字節尋址",這表明塊尋址結構就足夠了。
研究人員正在理論上定義一個新的內存類別,表示在內存-存儲層次結構中存在一個特定於 AI 基礎模型的空白,可以用適當的半導體技術來填補。這"為這一應用領域開啟了更好內存的電腦架構研究領域。"
論文中的圖表"顯示了現有內存/存儲技術的耐久性與工作負載耐久性要求之間的比較。在適用的情況下,我們區分了現有設備中觀察到的耐久性和技術所展示的潛力。"耐久性是指可以持續進行寫入循環的時間長度。"HBM 在耐久性方面過度配置,而現有的 SCM 設備雖然不能滿足耐久性要求,但底層技術具有實現這一目標的潛力。"
Microsoft 研究人員表示:"我們明確不局限於特定技術,而是強調一個機會空間。這是對從研究底層存儲單元技術的人員,到思考內存控制器的人員,再到設計訪問內存的軟體系統的人員的行動召喚。為 AI 時代更好的內存而展開跨層級協作。"
他們總結道:"我們提出了一種可以與 HBM 共存的新型內存類別 - 管理保留內存 (MRM),它能夠利用最初為 SCM 提出的內存技術,但通過權衡保留時間和寫入吞吐量等指標,來改善這些 AI 工作負載所需的關鍵性能指標。通過放寬保留時間要求,MRM 有可能讓現有提出的 SCM 技術提供更好的讀取吞吐量、能源效率和密度。我們希望這篇論文能夠真正開啟對存儲單元技術和內存晶片設計創新的新思維,專門針對 AI 推理集群的需求。"