宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

北京大學研究團隊突破模擬計算精度極限:讓矩陣運算快過超級電腦千倍

2025年10月23日 首頁 » 熱門科技

在數學的世界裡,解方程組就像解開一個複雜的謎題。當你面對一堆相互關聯的未知數時,傳統電腦需要一步步地計算,就像一個人在黑暗中摸索著尋找出路。然而,北京大學的研究團隊最近在《Nature Electronics》期刊上發表了一項突破性研究,他們開發出一種基於電阻式隨機存取存儲器(RRAM)的模擬計算系統,能夠以前所未有的精度和速度解決矩陣方程問題。

北京大學研究團隊突破模擬計算精度極限讓矩陣運算快過超級電腦千倍

從廚房配方到矩陣運算的奇妙類比

矩陣方程在我們生活中無處不在,雖然大多數人並不知道。當你用手機打電話時,基站需要處理多個用戶同時發送的信號;當科學家模擬天氣變化時,需要求解描述大氣流動的方程;當人工智慧學習新技能時,也需要解決複雜的優化問題。所有這些問題的核心都是解決形如Ax=b的矩陣方程,其中A是一個係數矩陣,x是我們要找的未知數,b是已知的結果。

傳統數字電腦解決這類問題就像一位廚師按照食譜一步步做菜。首先切菜,然後炒制,接著調味,每個步驟都必須按順序完成。當矩陣規模增大時,計算複雜度會呈立方級增長,一個100×100的矩陣需要的計算量是10×10矩陣的1000倍。這種"馮·諾伊曼瓶頸"讓數據在處理器和內存之間來回奔跑,就像廚師不斷地在廚房和儲藏室之間往返取材料,效率自然大打折扣。

北京大學團隊提出的解決方案則像是把整個廚房變成了一個智能烹飪系統。他們使用RRAM晶片構建了一個模擬計算電路,每個存儲單元的電導值代表矩陣中的一個元素。當電流通過這個陣列時,根據歐姆定律和基爾霍夫定律,電路會自然地完成矩陣運算,就像水流過精心設計的管道系統會自動分流一樣。更妙的是,通過添加運算放大器形成閉環反饋,整個系統可以在一步內求解矩陣逆運算,不需要反覆疊代。

精度瓶頸的巧妙突破

模擬計算雖然速度快,但精度一直是個老大難問題。這就像用溫度計測量體溫,水銀溫度計雖然反應快,但讀數可能不夠精確。研究團隊的RRAM器件只能可靠地編程到8個電導狀態(相當於3比特精度),這對於許多實際應用來說遠遠不夠。

為了解決這個問題,團隊採用了一種類似於"分而治之"的策略。他們將高精度的矩陣分解成多個低精度的"切片",就像把一個大蛋糕切成多塊來分別處理。具體來說,一個24位精度的矩陣被分解成多個3位的子矩陣,每個子矩陣有不同的權重。最重要的切片用於構建低精度求逆(LP-INV)電路,所有切片則用於高精度矩陣向量乘法(HP-MVM)運算。

北京大學研究團隊突破模擬計算精度極限讓矩陣運算快過超級電腦千倍

這個系統的工作流程就像一個精密的鐘表機制。首先,LP-INV電路快速給出一個粗略的答案,雖然不夠準確但方向正確。然後,HP-MVM通過位切片技術計算出精確的殘差(實際結果與理想結果的差距)。接著,系統用這個殘差來修正答案,如此反覆幾次,就能達到極高的精度。實驗表明,對於一個4×4的矩陣,經過三次疊代後,每個元素的誤差已經降到千分之一以下。這種方法的妙處在於,它充分利用了模擬計算的速度優勢,同時通過疊代修正克服了精度不足的問題。

從小規模到大規模的擴展之道

解決小矩陣問題只是第一步,真正的挑戰在於如何擴展到實際應用所需的大規模矩陣。研究團隊開發的BlockAMC(塊矩陣模擬計算)方法就像搭建積木一樣巧妙。當面對一個大矩陣時,系統將其分割成多個小塊,每個小塊可以在不同的RRAM陣列上獨立處理,最後再將結果組合起來。

北京大學研究團隊突破模擬計算精度極限讓矩陣運算快過超級電腦千倍

這種方法特別適合處理複數矩陣,這在無線通信等領域非常常見。複數矩陣可以展開成實部和虛部兩個子矩陣,就像把一個立體拼圖分解成多個平面來處理。實驗中,團隊成功解決了16×16的實數矩陣求逆問題,達到了24位定點精度(相當於32位浮點精度)。整個過程中,系統執行了16次HP-INV操作,每次處理單位矩陣的一個列向量。經過十個周期的疊代,逆矩陣元素的相對誤差降到了千萬分之一的量級。

更令人印象深刻的是,當矩陣規模從32×32擴展到128×128時,雖然需要使用多級BlockAMC,但系統的性能仍然保持優異。這就像建造摩天大樓,雖然樓層增加了,但通過合理的結構設計,整體穩定性依然可靠。計算複雜度分析顯示,LP-INV操作數量按N^1.59增長,HP-MVM操作數量按N^2增長,都遠低於傳統數字處理器的N^3複雜度。

5G通信中的實戰檢驗

為了驗證這套系統的實用性,研究團隊將其應用於大規模MIMO(多輸入多輸出)無線通信系統的信號檢測。在5G和未來6G北京大學研究團隊突破模擬計算精度極限讓矩陣運算快過超級電腦千倍網路中,基站配備了大量天線來同時服務多個用戶,這需要實時處理大規模矩陣運算。

實驗設置就像一個微縮的通信場景。團隊用一個16×4的MIMO系統傳輸北京大學校徽的二值化圖像,每個用戶天線傳輸8比特數據,相當於256-QAM調製中的一個符號點。信號經過帶噪聲的信道傳輸後,在基站使用零迫(ZF)檢測方法恢復。這個過程的核心就是求解格拉姆矩陣H^H*H的逆,這正是數字處理器的性能瓶頸所在。

北京大學研究團隊突破模擬計算精度極限讓矩陣運算快過超級電腦千倍

結果令人振奮。僅僅經過兩個疊代周期,傳輸的圖像就被完美重建,所有的256-QAM星座點都被正確檢測,沒有任何錯誤。與32位浮點數字處理器相比,HP-INV在兩到三個周期內就達到了相同的誤碼率性能。對於更大規模的128×8 MIMO系統,通過兩級BlockAMC處理16×16的複數矩陣,系統在三個周期內就達到了與數字處理器相同的性能。

這些結果不僅驗證了系統的正確性,更重要的是展示了其在實際應用中的潛力。在信噪比測試中,無論是16-QAM還是256-QAM調製,HP-INV都能快速收斂到理想性能。特別是對於簡單的16-QAM調製,誤碼率隨信噪比穩定下降,表明較低的精度就足夠了。

速度與能效的雙重飛躍

研究團隊對系統的瞬態響應進行了詳細測量。對於4×4矩陣,模擬INV電路在120納秒內就能收斂到穩定解,MVM操作的響應時間約為60納秒。這個速度取決於運算放大器的增益帶寬積和矩陣的最小特徵值,而不是矩陣大小,這意味著時間複雜度實際上接近O(1)。

北京大學研究團隊突破模擬計算精度極限讓矩陣運算快過超級電腦千倍

與最先進的數字處理器相比,這套系統展現出了壓倒性的優勢。研究團隊將其與英偉達H100 GPU、AMD Vega 20 GPU以及專門設計用於128×8 MIMO信號處理的ASIC晶片進行了對比。在32×32的矩陣規模下,HP-INV的等效吞吐量已經超越了所有數字處理器。在128×128的規模下,即使使用了BlockAMC帶來的額外開銷,系統的吞吐量仍然比數字處理器高10倍,能效高3-5倍。

如果未來能夠開發出響應時間更快的運算放大器(將INV響應時間降到20納秒,MVM降到10納秒),系統性能還能再提升4倍。在最理想的情況下,模擬計算可以實現比數字處理器高1000倍的吞吐量和近100倍的能效。這就像從步行升級到高鐵,不僅速度快了,每公里的能耗反而更低。

研究團隊還評估了導線電阻對系統性能的影響。通過仿真發現,即使在128×128的大規模陣列中,導線電阻(約1.73歐姆)對收斂速度的影響也很小,證明了系統的魯棒性。此外,通過"確認"操作可以驗證所有器件處於正確狀態,如果發現缺陷可以用並行冗餘陣列替代,進一步提高了系統的可靠性。

技術細節背後的創新

這項研究的成功離不開多項技術創新的支撐。首先是RRAM晶片的製造工藝。團隊使用商用40納米CMOS工藝平台,在M4和M5金屬層之間嵌入了基於氧化鉭(TaOx)的RRAM陣列。這種1T1R(一個電晶體配一個電阻)的結構確保了對每個存儲單元的精確控制。通過寫入驗證方法,器件可以可靠地編程到8個電導狀態(0.5-35微西門子),具有足夠的讀出裕度。

其次是巧妙的編碼方案。最低的電導狀態通過強復位獲得,代表數值零。為了避免依賴強復位,還可以引入一個額外的高電導狀態,使用差分編碼方案覆蓋-7到 7的範圍。這種標準的AMC方法特別適合實值矩陣向量乘法。

整個系統的控制也經過精心設計。LP-INV電路板包含8×8 RRAM陣列、運算放大器、模擬開關、多路復用器、DAC和ADC。HP-MVM則是一個完全集成的晶片,包含1Mb RRAM陣列、跨阻放大器、ADC、模擬開關、多路復用器和寄存器。所有這些組件通過個人電腦協調工作,實現了從硬體到算法的完美配合。

至頂AI實驗室洞見

這項研究為模擬計算開闢了新的道路。通過將低精度模擬運算與疊代優化相結合,團隊成功突破了模擬計算長期存在的精度瓶頸。BlockAMC算法的引入使得系統能夠處理實際應用所需的大規模矩陣。在大規模MIMO通信系統中的成功應用更是證明了這種方法的實用價值。隨著技術的進一步發展,基於RRAM的模擬計算有望在科學計算、人工智慧訓練、信號處理等領域發揮越來越重要的作用,為後摩爾時代的計算架構提供新的可能。

論文地址:

https://www.nature.com/articles/s41928-025-01477-0

END
本文來自至頂AI實驗室,一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
Q&A

Q1:RRAM晶片在矩陣運算中是如何工作的?

 A:RRAM晶片中的每個存儲單元代表矩陣的一個元素,其電導值對應元素的數值。當電流通過陣列時,根據歐姆定律和基爾霍夫定律自然完成矩陣運算,就像水流過管道系統會自動分流。通過添加運算放大器形成閉環反饋,可以在一步內完成矩陣求逆,無需像傳統電腦那樣反覆疊代計算。

Q2:北京大學團隊的模擬計算系統相比傳統數字處理器有多大優勢? 

A:在128×128矩陣規模下,該系統的吞吐量比英偉達H100 GPU等數字處理器高10倍,能效高3-5倍。如果採用更快的運算放大器,理論上可實現比數字處理器高1000倍的吞吐量和近100倍的能效。在大規模MIMO通信測試中,僅需2-3個疊代周期就能達到與32位浮點數字處理器相同的性能。

Q3:BlockAMC算法是如何讓系統處理大規模矩陣的?

 A:BlockAMC將大矩陣分割成多個小塊,每個小塊在不同的RRAM陣列上獨立處理,最後組合結果。這就像搭積木,通過合理組合小模塊來構建大系統。對於複數矩陣,可以展開成實部和虛部分別處理。實驗中成功解決了16×16實數矩陣求逆,達到24位定點精度。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新