這項由丹麥奧爾堡大學哥本哈根分校、義大利熱那亞大學、歐洲核子研究中心(CERN)以及美國Ceva公司聯合完成的研究,於2026年6月以預印本形式發布,論文編號為arXiv:2606.07098。研究提出了一種名為SigmaScale的大型語言模型壓縮方法,有興趣深入了解的讀者可以通過該編號在arXiv平台查閱完整原文。
手機里的導航App、客服聊天機器人、幫你寫郵件的AI助手——這些功能背後,都有一個或大或小的語言模型在默默運轉。但這些模型的"大腦"有多大?頂級的大語言模型動輒擁有數百億甚至上千億個參數,相當於一本幾十億頁的百科全書。這樣龐大的"大腦"要運行起來,對計算資源的消耗極其驚人,絕大多數普通設備根本無法承載。正因如此,如何在不過多損失智能的前提下,讓這些AI大腦"瘦身",成了整個人工智慧領域最熱門的研究課題之一。
SigmaScale正是這一背景下誕生的新方案。它的核心思路是:與其被動地裁剪模型,不如主動地"重新排列權重的內部結構",讓壓縮變得更加精準高效。
一、為什麼AI大腦需要"減肥",以及減肥有多難
先打一個比方。一個擁有數百億參數的大語言模型,就像一家超大型圖書館,裡面藏著數億本書。每次有人提問,圖書館的所有員工都要同時上崗,翻遍所有書架才能給出答案。這固然準確,但電費和人工成本高得驚人。普通家庭的書房根本放不下,更別提供電了。
AI壓縮技術想解決的,就是如何把這座超大型圖書館"搬進"一個小書房,同時保留最核心的知識。目前主流的壓縮方式有幾種大路線。量化技術就像把精裝書換成口袋書,字印得小一些但內容一樣;剪枝技術則是直接把某些使用頻率極低的書架整個拆掉;知識蒸餾是讓一個大模型把知識"教"給一個小模型,就像老師帶學生。而本文研究的"低秩分解",則是一種更數學化的操作——把一本厚重的百科全書拆分成兩本薄書,這兩本薄書合在一起能還原原來大部分的內容。
低秩分解的優勢在於不需要特殊的硬體支持,可以和量化、剪枝等方法疊加使用,靈活性很強。實現低秩分解最經典的數學工具叫做"奇異值分解",簡稱SVD。用圖書館的比喻來說,SVD會把圖書館裡所有書按重要程度排序,然後只保留最重要的那一部分,把剩下的丟棄掉。
然而問題在於,如果直接用SVD壓縮神經網路的權重矩陣,效果往往不理想。根本原因是:這些權重矩陣里有一些"異常值",就像圖書館裡有幾本極度偏門但被某類讀者極度需要的書。如果SVD不加分辨地按照統一標準排序,這些特殊書籍就可能被誤刪,導致模型在某些任務上表現大幅下降。
此前學界已經提出了一些改進思路,核心是在做SVD之前先對權重矩陣做一個"預處理"——用一個縮放矩陣S對權重做變換,讓矩陣內部的結構更適合被壓縮,然後再執行SVD。代表性工作包括ASVD和SVD-LLM,前者通過吸收激活值中的異常值來改善縮放,後者通過對激活協方差矩陣做Cholesky分解來對齊奇異值和壓縮損失。然而,這些方法得到縮放矩陣S的方式都是"解析推導"的——也就是說,S是根據某個數學公式一次性算出來的,而不是通過反覆試驗、不斷改進得到的。
SigmaScale的研究團隊提出了一個截然不同的問題:如果我們不去推導S,而是直接讓機器自己去"學"出最好的S,會怎樣?
二、SigmaScale的核心思路:讓縮放矩陣自己"成長"
在理解SigmaScale具體做什麼之前,先把這個核心比喻定下來:整個壓縮過程就像給一張皺巴巴的地圖重新熨平,再摺疊成一個小包。
原始的權重矩陣就是那張皺巴巴的大地圖,裡面資訊密集,皺褶(即異常值和不均勻的資訊分布)使得摺疊(壓縮)時總會丟失關鍵細節。縮放矩陣S就是熨斗,它可以在摺疊之前先把地圖熨平,讓摺疊時丟失的資訊儘可能少。以前的方法是根據地圖皺褶的位置直接推算熨斗的溫度和運動軌跡(解析推導)。而SigmaScale的方法是:先把熨斗放上去,觀察摺疊後的效果,根據效果反饋不斷調整熨斗的力度和角度,直到摺疊出來的效果最好為止(梯度優化學習)。
在技術實現上,SigmaScale為每個權重矩陣分別準備兩組可學習的向量,分別負責行方向和列方向的縮放,合稱dr和dc。通過對這兩個向量取指數,就能得到永遠為正的對角縮放矩陣Sr和Sc(指數函數的值恆為正,保證了縮放是合法的線性變換)。整個過程是:先用Sr和Sc對原始權重矩陣W做行列縮放,得到一個被"熨平"了的新矩陣,然後對這個新矩陣執行SVD截斷壓縮,最後再把縮放的效果"反向撤銷",還原回原始參數空間裡的低秩近似矩陣W'。
為了衡量壓縮效果好不好,研究團隊設計了一個"激活感知損失函數":把原始權重矩陣W和壓縮後的矩陣W'分別作用於一批真實的輸入數據X,比較兩者輸出的差距。這批輸入數據來自一個"校準集"——研究中使用了Wikitext數據集的訓練子集,共32條長度為2048個詞語的文本。差距越小,說明壓縮後的模型"行為"和原始模型越接近。
在優化過程中,梯度(即告訴熨斗"往哪個方向調"的信號)需要通過SVD這一步向前傳播,而SVD的導數在數學上存在不穩定的地方(當兩個奇異值非常接近時,分母趨近於零,導數會爆炸)。研究團隊採用的應對策略是:一旦檢測到這種不穩定情況就跳過該次更新步驟。在實驗中,即使有部分步驟被跳過,損失函數依然能夠正常收斂,通常會觸發早停機制,說明這種"容錯"處理方式在實踐中是可行的。
整個縮放矩陣的訓練在兩張Nvidia H100 GPU上進行,每個實驗條件(一個模型加上一個壓縮比例)平均耗時約45.5小時。相比之下,後續的後壓縮微調在兩張AMD MI300X GPU上只需約2小時。
三、流水線全貌:從"敏感性探測"到"後壓縮微調"
SigmaScale的完整工作流程可以拆成三大階段,就像給地圖做處理有三道工序:先量體裁衣,再熨平摺疊,最後修邊整形。
第一道工序叫"敏感性探測",目的是為模型的每一層、每一個權重矩陣決定壓縮的力度。不同的矩陣對壓縮的承受能力不同,就像地圖上不同區域的皺褶程度不同,有些地方可以大幅摺疊而不丟失資訊,有些地方則必須保留更多細節。研究團隊預先設定了從10%到90%共九個壓縮比例檔位,壓縮比例越高意味著保留的參數越少。對於每個檔位,他們孤立地對模型的每一個注意力權重矩陣和MLP權重矩陣做一次簡單的SVD截斷,然後測量模型困惑度(一個衡量語言模型預測能力的指標,數值越低越好)的變化。通過這個步驟,研究團隊可以知道哪些矩陣對壓縮特別敏感,應該保留更高的秩,哪些矩陣壓縮容忍度高,可以被大幅削減。
隨後,研究團隊使用了ASVD論文中提出的二分搜索算法來尋找最優的全局壓縮方案:在達到目標整體壓縮比例的前提下,找到一組讓模型困惑度增加最小的各層截斷秩組合。這就像在預算有限的情況下,合理分配給各個圖書館分館的經費,讓整體服務質量下降最少。
第二道工序就是前文詳述的"學習縮放矩陣並執行SVD壓縮",這是SigmaScale的核心創新所在。每個權重矩陣都獨立地訓練自己的一對縮放向量dr和dc,學習完成後,縮放向量被用來構造最終的低秩矩陣L和R,以W' = LR的形式替換原來的權重矩陣。
第三道工序是"後壓縮微調",相當於地圖摺疊後的"修邊整形"。壓縮不可避免地會引入一些誤差,導致模型性能下降,後壓縮微調的目的是通過在真實數據上繼續訓練,讓模型重新找回失去的性能。研究團隊主要使用了Alpaca數據集(一個包含指令跟隨樣本的數據集)進行一個完整輪次的微調,只優化被壓縮修改過的權重矩陣,保持其他部分凍結不動。
此外,研究團隊還對比了兩種微調範式:一種是傳統的監督微調(直接讓模型學習正確答案),另一種是知識蒸餾(讓一個未壓縮的完整模型作為"老師",把其輸出的概率分布作為"軟標籤"指導壓縮後的"學生"模型學習)。研究團隊的知識蒸餾損失函數將KL散度(衡量兩個概率分布差異的指標)和標準交叉熵損失以0.7:0.3的權重組合使用。
四、在真實大模型上的實驗:哪些情況下SigmaScale更好
研究團隊在兩個真實的大型語言模型上進行了驗證:Meta發布的Llama 3.1 8B Instruct(80億參數的指令跟隨版本)和阿里發布的Qwen3-8B(同樣80億參數)。壓縮比例分別設置為保留90%參數、保留75%參數和保留50%參數三個檔位,對應的壓縮力度從輕到重。
評估指標方面,研究團隊使用了兩類指標。其一是"困惑度",在Wikitext2測試集(141條、每條2048詞的文本)上測量,數值越低越好,反映模型對語言的整體預測能力。其二是五個零樣本推理基準測試,分別是OpenBookQA(開放書籍問答)、ARC-Easy(科學推理)、WinoGrande(常識填空)、PIQA(物理常識推理)和HellaSwag(句子補全),這些測試衡量模型在沒有任何示例幫助的情況下回答問題的能力,報告的是長度歸一化準確率。
對比基準方面,研究團隊與SVD-LLM和ASVD+進行了直接比較,並統一了超參數設置以確保公平。
在Llama 3.1 8B Instruct上,保留90%參數時,SigmaScale的困惑度為8.95,ASVD+為8.26,SVD-LLM為13.31,原始未壓縮模型為7.21。可以看到,SigmaScale在SVD-LLM基礎上有顯著改善,但略遜於ASVD+。然而在五個零樣本基準上,SigmaScale的綜合表現相當出色:ARC-Easy達到78.62%,WinoGrande達到73.32%,PIQA達到79.54%,HellaSwag達到75.98%,這些數字均優於ASVD+,甚至在某些指標上接近未壓縮模型的水平。加入知識蒸餾後(SigmaScale KD),困惑度進一步降到8.70,零樣本性能也略有提升。
保留75%參數時,情況開始分化。SigmaScale的困惑度為18.48,而ASVD+只有13.67,SVD-LLM為18.15。在困惑度這個指標上,SigmaScale並不占優勢。但在零樣本基準上,SigmaScale在多個任務上仍然表現更好,OpenBookQA達到36.80%,ARC-Easy達到63.89%,WinoGrande達到62.43%,PIQA達到73.78%,HellaSwag達到61.41%,均高於兩個對比方法。知識蒸餾版本將困惑度降至17.90,零樣本性能也略有改善。
保留50%參數時,SigmaScale遭遇了明顯的困境。Llama 3.1的困惑度飆升至138.63,遠高於SVD-LLM的39.83和ASVD+的48.39。這意味著在極端壓縮下,SigmaScale學到的縮放無法挽救被丟棄的大量奇異值所攜帶的資訊。儘管知識蒸餾將困惑度從138.63降至121.85,但仍然遠遠高於對比方法,實用性大打折扣。在零樣本基準上,SigmaScale此時也基本失去了優勢。
在Qwen3-8B上,整體規律相似但表現略好。保留90%參數時,SigmaScale困惑度為10.89,SVD-LLM為11.51,ASVD+為10.11,基線為9.72,SigmaScale夾在中間。零樣本基準上,ARC-Easy達到80.18%,PIQA達到77.75%,HellaSwag達到68.09%,均優於SVD-LLM,部分優於ASVD+。保留75%參數時,SigmaScale困惑度14.68略高於ASVD+的12.34,但零樣本基準在ARC-Easy(74.28%)、OpenBookQA(40.40%)等任務上有明顯優勢。保留50%參數時,Qwen3的情況比Llama 3.1好一些,困惑度31.92雖然高於SVD-LLM的21.84,但在零樣本基準ARC-Easy(57.00%)上甚至超過了SVD-LLM(55.51%),說明Qwen3的架構對這種壓縮方式的適應性可能更強。
關於知識蒸餾與監督微調的對比,研究結果顯示兩者差異並不大,與此前某些工作中知識蒸餾大幅優於監督微調的結論不同。這一發現說明,SigmaScale的性能主要來自縮放矩陣學習階段本身,而非後續的微調方式。
五、內部探秘:縮放究竟對矩陣做了什麼
除了宏觀的基準測試,研究團隊還深入分析了學習到的縮放矩陣在微觀層面對權重矩陣結構產生了什麼影響。這部分分析揭示了SigmaScale為何有效的底層機制。
研究引入了"有效秩熵"這一概念來衡量權重矩陣"資訊有多分散"。可以用圖書館的比喻來理解:一個高有效秩熵的矩陣就像一個館藏非常均勻分散的圖書館,每本書的重要性都差不多,很難說哪本可以丟;而一個低有效秩熵的矩陣就像一個大部分知識都集中在少數幾本核心書籍中的圖書館,其餘書可以大量精簡而不損失太多。顯然,後者更容易被低秩分解壓縮,因為少量奇異值就能攜帶大部分資訊。
通過實驗觀察,研究團隊發現:在學習縮放向量dr和dc的過程中,壓縮損失和有效秩熵會同步下降。也就是說,熨斗在把地圖熨平的同時,還讓資訊更加集中到少數幾條"主軸"上,使得後續的摺疊壓縮能保留更多核心內容。更重要的是,這兩個指標的變化之間存在極強的相關性——對於Llama 3.1的七種模組類型,損失下降與熵下降的相關係數介於0.814到0.923之間,這是非常高的統計相關性。
具體來看各模組的數據。在MLP的三種投影矩陣中,門控投影(gate_proj)平均壓縮損失下降了31.1%,有效秩熵下降了2.2%;上行投影(up_proj)損失下降33.7%,熵下降1.8%;下行投影(down_proj)損失下降22.4%,熵下降0.3%。在注意力機制的四種投影中,查詢投影(q_proj)的變化最顯著,損失下降32.4%,熵下降幅度高達8.5%;鍵投影(k_proj)損失下降44.3%,熵下降6.3%;值投影(v_proj)損失下降33.7%,熵下降2.5%;輸出投影(o_proj)損失下降20.8%,熵下降4.9%。在Qwen3-8B上也觀察到了相似的規律,各模組的損失與熵降低相關係數同樣在0.862到0.908之間。
從奇異值分布的可視化圖中可以看出,經過縮放矩陣變換後,較高端的奇異值會被進一步放大,而較低端的奇異值則略有壓縮。這種效果使得奇異值分布變得更加"頭重腳輕"——最重要的那一批奇異值更加突出,在截斷時能保留更多的資訊量。
研究團隊還做了一個對比實驗,分別只訓練行縮放、只訓練列縮放,以及同時訓練行列縮放,測試對象是Llama 3.1 8B第30層的鍵值矩陣(在80%截斷率下)。結果顯示,只訓練行縮放時損失為0.2780,只訓練列縮放為0.2120,而同時訓練行列縮放達到最佳效果0.2060,三種情況下有效秩熵分別從基準的827.88降至817.00、793.00和791.79。此外,先訓練行再訓練列(序貫方式)與同時聯合訓練的對比實驗表明,聯合訓練(損失0.206)略優於序貫訓練(損失0.215)。這些結果支持了研究團隊在最終方法中採用聯合行列縮放的設計選擇。
六、額外實驗:換個數據集做微調會怎樣
研究團隊還進行了兩組額外實驗,探索不同的後壓縮微調數據對結果的影響。
第一組額外實驗使用了一個自製的"Llama-Alpaca"數據集。原始的Alpaca數據集是指令跟隨樣本,但研究團隊用Llama 3.1 8B Instruct模型本身為每條指令生成了三個不同的回答,目的是引入更多樣本多樣性,同時讓微調數據更接近目標模型的輸出分布。實驗還對比了"每條指令用3個回答訓練1輪"和"每條指令用1個回答訓練3輪"兩種訓練方式。結果顯示,Llama-Alpaca數據帶來了一些小幅改善,在25%壓縮率下困惑度有約1分的提升,但在零樣本基準上的變化非常有限,整體上是"有幫助但不顯著"的改進。在知識蒸餾條件下,75%保留率的模型困惑度最低可以降至15.71(KD=1,即完全依賴知識蒸餾損失)。
第二組額外實驗直接用Wikitext訓練數據做後壓縮微調,採用語言建模(預測下一個詞)的方式訓練。這種做法在困惑度上帶來了一定提升(90%保留率時困惑度降至7.89,非常接近未壓縮模型的7.21),但代價是零樣本基準性能全面下降——ARC-Easy從77.57%到更低,HellaSwag從75.83%到更低。這說明用Wikitext微調會讓模型在"預測維基百科文本"上變得更好,但對通用推理能力有損害,存在明顯的過擬合傾向。
七、這項研究的價值邊界與未來方向
研究團隊對SigmaScale的有效性邊界進行了誠實的分析。SigmaScale的核心價值在於改善奇異值截斷的質量,幫助保留權重矩陣的主要結構。這意味著它在"輕度到中度壓縮"場景下效果最好——當保留90%到75%的參數時,學習到的縮放可以讓最重要的奇異值更加突出,減少截斷帶來的資訊損失。
然而,當壓縮達到極端程度(保留50%參數)時,保留的低秩子空間可能實在太小,學習縮放已經無法彌補被丟棄的大量奇異方向攜帶的資訊。這就好比無論地圖熨得多平,一旦只允許你折到原來1/10的大小,很多細節必然消失。從這個角度看,SigmaScale應該被理解為一種"在保留秩的前提下提升截斷質量"的機制,而非一種能夠支撐極端低秩壓縮的完整解決方案。
在計算開銷方面,每次學習疊代都需要完整執行一次SVD,這本身就有O(n?)的計算複雜度,對大矩陣而言代價不小。研究團隊指出,探索更快的近似SVD方法(如隨機化SVD)是未來改進的一個重要方向。
此外,研究團隊坦承,當前對校準數據的選擇(Wikitext)可能並不是最優的,這只是為了與對比方法保持一致。探索不同校準數據分布對縮放矩陣學習效果的影響,以及為不同規模和架構的模型尋找更好的初始化策略,都是值得後續探索的方向。研究團隊還指出,當前的評估僅限於困惑度和特定零樣本基準,對長文本生成和代碼任務的效果尚未驗證,對不同校準分布的魯棒性也未經正式測試。
歸根結底,SigmaScale的貢獻在於提出並驗證了一個新的可能性:與其用數學公式一次性推導出縮放矩陣,不如通過梯度優化讓機器自己去探索最適合每個權重矩陣結構的縮放方式。這種更靈活的路線在輕中度壓縮場景下展現出了與現有最優方法相當甚至更好的零樣本任務表現,為SVD基大模型壓縮方法的設計提供了一條新思路。
說到底,這項研究講的是一件很樸實的事:要把一張大地圖摺疊得更精準,與其靠公式推算熨法,不如讓熨斗自己在反覆試驗中找到最適合這張地圖的熨法。對於那些希望在普通設備上運行強大語言模型的開發者和研究者來說,這種靈活性或許正是他們所需要的。有興趣了解完整技術細節的讀者,可以通過arXiv編號2606.07098查閱原文。
---
Q&A
Q1:SigmaScale和ASVD、SVD-LLM這些方法相比,到底哪個更好?
A:沒有絕對的"更好",取決於使用場景。在90%參數保留的輕度壓縮場景下,SigmaScale在零樣本推理基準上普遍優於SVD-LLM,和ASVD+相比則在某些任務上更好、困惑度上略遜。壓縮到75%時,SigmaScale在零樣本任務上仍有競爭力,但困惑度已落後於ASVD+。極端壓縮到50%時,SigmaScale明顯不如對比方法,不適合這種場景。
Q2:大語言模型壓縮後還能正常用嗎,效果會差多少?
A:這取決於壓縮力度。輕度壓縮(保留90%參數)時,SigmaScale壓縮後的Llama 3.1在ARC-Easy推理任務上準確率從79.63%降至約78%,損失極小,日常使用基本感受不到差別。中度壓縮(保留75%)時性能有所下降,但仍可用於對精度要求不高的場景。極端壓縮(保留50%)則會導致較大性能損失,慎用於對準確性要求較高的任務。
Q3:SigmaScale訓練縮放矩陣需要多少算力,普通研究者能用嗎?
A:目前計算成本較高,每個實驗條件(一個模型加一個壓縮比例)在兩張Nvidia H100 GPU上平均需要約45.5小時,屬於需要較高算力的研究級方法。後續的後壓縮微調只需兩張AMD MI300X GPU約2小時,成本合理。對於沒有高端GPU集群的普通研究者,短期內復現完整實驗存在一定門檻,但隨著近似SVD方法的引入,未來計算成本有望大幅降低。






