東京工業大學的科學家們設計出一種新型3D DRAM棧,其頂部配有處理器,可提供比高帶寬內存(HBM)高出四倍的傳輸帶寬與僅五分之一的訪問功耗。
HBM通過中介層將小型DRAM棧接入至CPU,從而避開了受到CPU限制的DRAM插槽數量。在Bumpless Build Cube 3D(簡稱BBCube3D)概念中,單個DRAM晶片通過微凸塊(連接器)與上方或下方的晶片相連,而連接孔(通過矽通孔,即TSV)穿過晶片將各個微凸塊連接起來。
研究團隊負責人Takayuki Ohba教授表示,「BBCVube 3D擁有良好的性能潛力,可實現每秒1.6 TB理論傳輸帶寬,相當於DDR5的30倍、HBM2E的4倍。」
研究人員們削薄了每個DRAM晶片,同時消除了BBCube3D晶圓疊層(WOW)設計中的微凸塊。與DDR5或HBM2E(第二代高帶寬擴展內存)設計相比,這種新方案使得內存塊擁有更高速度和更低的運行能耗。這是因為前者的運行溫度更高,而且凸塊的存在會增加電阻/電容和延遲。
HBM微凸塊還會占用空間,且晶片的硬度也必須達標,否則無法承受堆疊層合併所帶來的壓力。通過消除微凸塊,每個內存晶片都可以變得更薄、矽通孔更短,從而實現帶好的散熱效果。BBCube3D設計還不需要中介層,因為處理單元、CPU或GPU能夠直接綁定至緩存晶片,而緩存晶片本身又可綁定至DRAM棧的頂端。
研究人員們解釋道,「更短的矽通孔互連能夠為CPU和GPU等高溫設備提供更好的散熱……高密度矽通孔本身就可以充當熱管,因此即使是在3D結構當中,其預期運行溫度也會更低。」
「由於矽通孔長度更短且信號並行度更高」,BBCube「能夠實現更高帶寬與更低運行功耗」。
通過調整相鄰IO線的時序來確保其彼此異相,研究人員還成功減少了分層DRAM中的串擾。這種方法被稱為四相隱藏輸入/輸出,意味著IO線永遠不會與其緊鄰的線路同時發生值變化。
下圖所示,為BBCube與DDR5和HBM2E內存技術的速度與能耗比較。可以看到,其帶寬達到DDR5內存的32倍,速度相當於HBM2E的4倍。與此同時,BBCube 3D設計還實現了比DDR5和HBM2E更低的訪問能耗水平。
Ohba解釋道,「由於BBCube的熱阻和阻抗都更低,所以能夠緩解3D集成設計中經常出現的熱管理和電源問題。此次提出的新技術能夠在達成可觀傳輸帶寬的同時,將每bit訪問功耗降低至DDR5的二十分之一和HBM2E的五分之一。」
BBCube 3D屬於高校主導的研究項目。關於該項目的詳細背景資訊,可以在MDPI Electronics論文《論使用晶圓上晶圓(WoW)與晶圓上晶片(CoW)實現兆級三維集成(3DI)的BBCube》(https://www.mdpi.com/2079-9292/11/2/236)中找到。論文提到,「BBCube允許將堆疊的晶片數量提升至HBM的4倍,意味著使用16 Gb DRAM裸片時內存容量可以達到64 GB。」
文章同時指出,「通過堆疊40層DRAM,即可實現Tb級別的3D內存。」
論文《Bumpless Build Cube (BBCube) 3D:使用WoW與CoW的異相3D集成實現TB/s級傳輸帶寬與最低bit訪問功耗》(Bumpless Build Cube (BBCube) 3D: Heterogeneous 3D Integration Using WoW and CoW to Provide TB/s Bandwidth with Lowest Bit Access Energy)對BBCube 3D概念也做了描述,文章發表於2023年6月的IEEE 2023 VLSI技術與電路研討會。