喬治亞理工等頂校聯手：讓AI大模型"自學成才"，不再依賴更強大的老師

這項由喬治亞理工學院、加州大學洛杉磯分校、卡內基梅隆大學以及威廉與瑪麗學院聯合開展的研究，以預印本形式發布於2026年5月，論文編號為arXiv:2605.06597。感興趣的讀者可通過該編號在arXiv平台查閱完整論文。

贊助商廣告

一、問題從哪裡來：大模型的"補課困境"

每當我們希望一個人工智慧助手在某個特定領域變得更厲害時，傳統做法都是找一個"更厲害的老師"來指導它。就好像你想學鋼琴，就得找一位經驗豐富的鋼琴家手把手教你，而不是對著鏡子自己摸索。大型語言模型（也就是我們常說的LLM，像ChatGPT、Gemini這類AI）的訓練也是如此——通常需要藉助更強大的模型生成訓練數據，或者直接讓更大的模型當"老師"來指導它們學習。

但這裡藏著一個越來越讓人頭疼的現實問題：依賴"外部老師"這條路正變得越來越貴、越來越麻煩。頂級模型的使用權往往受到商業許可和訪問權限的限制，大量調用它們來生成訓練數據會產生高昂的費用，而且這些"外部老師"本身也可能帶來意想不到的麻煩——比如它們可能存在偏見、涉及隱私敏感內容，或者把自身的某些不良習慣也一併"遺傳"給學生模型。

正是在這樣的背景下，研究團隊開始思考一個頗具挑戰性的問題：一個AI模型，能不能通過向自己學習來變得更聰明，而不是非要找一個比自己更強的老師？

這個想法並不新鮮，研究者們把它叫做"自蒸餾"（Self-Distillation，簡稱SD）。概念本身很直白——讓模型從自己生成的內容中提取知識、改進自己。但真正動手實現時，卻會遇到三道難以繞開的關卡。

第一道關卡是開放式生成的難題。AI語言模型生成的是自由發揮的文字，而不是像做選擇題那樣只有一個標準答案。同一個問題，可以有很多種正確的回答方式——不同的推理路徑、不同的代碼實現方案、不同的表達風格。這使得"判斷自己生成的內容好不好"本身就成了一件極其困難的事。一段答案可能在某些地方是對的，在某些地方又有偏差，甚至表面上看起來合理，實際上卻暗藏錯誤。

贊助商廣告

第二道關卡是自我監督的不可靠性。當模型既是學生又是老師時，問題就來了——如果老師本身就會犯錯，那學生豈不是要從錯誤中學習？更糟糕的是，如果訓練過程中模型稍微偏了一點方向，這個偏差可能會在後續不斷被放大，就像滾雪球一樣越滾越大。

第三道關卡是缺乏系統性的理解。現有的自蒸餾研究大多是"各自為政"的——這篇論文測試了方法A，那篇論文測試了方法B，但沒有人把這些方法放在一起系統地比較：到底哪些方法真正有效？它們在什麼情況下有用？它們之間會不會相互影響、相互增強？

面對這三道關卡，研究團隊沒有選擇修修補補，而是決定從零開始搭建一套完整的體系來回答這些問題，這就是UniSD框架誕生的故事。

二、UniSD是什麼：一個精心設計的"自學訓練營"

理解UniSD最好的方式，是把整個自蒸餾過程比作一個人在沒有老師的情況下練習寫作文。

學生（也就是要被訓練的AI模型）先自己寫一篇作文，然後通過各種方式檢驗自己寫得好不好，再根據這些反饋來改進。UniSD所做的，就是把這個"檢驗和改進"的過程變得儘可能可靠、穩定和高效。

研究團隊識別出自蒸餾需要從三個維度同時發力：監督信號的可靠性、表徵的對齊程度，以及訓練過程的穩定性。基於這三個維度，他們設計了五個相互補充的核心組件，整個框架的數學基礎是一個統一的訓練目標公式，它綜合考慮了每個詞彙級別的分歧度量、可靠性權重、詞彙掩碼以及輔助學習目標。

在監督信號可靠性方面，研究團隊使用了兩種機制。第一種叫做多老師一致性（Multi-Teacher Agreement）。這個方法的靈感來自心理學中的"內部群體智慧"概念——當多個獨立的估計結果高度一致時，這個估計很可能是可信的。具體做法是：不用真正複製多個模型，而是讓同一個教師模型在不同的上下文條件下對同一段學生生成的內容進行評分。這些不同的上下文可以是隨機採樣的示例、通過資訊檢索找到的相關例子，或者是通過提示引導產生的高層次任務描述。如果在所有這些不同視角下，教師給出的評分都高度一致，那就說明這段內容質量可靠，值得用來指導學習；如果評分差異很大，就說明這個信號不穩定，應當降低它對訓練的影響權重。這種一致性評估可以在詞彙級別（評估每個單獨的詞語是否可靠）或者序列級別（評估整段內容的整體可靠性）進行。第二種機制叫做詞彙級對比學習（Token-Level Contrastive Learning），它的作用是讓模型不僅知道什麼是"對的"，還要知道什麼是"差點意思但其實是錯的"。通過構建正例和反例（可以通過提示語言模型生成貌似合理但錯誤的答案，或者通過WordNet、PPDB等工具對正確答案進行語義擾動來生成），訓練模型在詞彙級別上拉近與正確答案的距離，同時推開與錯誤答案的距離，使用的是帶有容差邊界的對比損失函數。

贊助商廣告

在表徵對齊方面，研究團隊引入了特徵匹配（Feature Matching）機制。輸出分布的對齊只關注"說了什麼"，而特徵匹配關注的是"怎麼想到這個答案的"。通過約束學生模型的內部隱狀態（比如最後一層的向量表示）向教師模型的對應位置靠攏，可以在結構層面傳遞更深層的知識，相當於不只是抄答案，還要學習解題的思維過程。研究測試了兩種模式：僅匹配表徵的版本和同時匹配表徵與輸出分布的聯合版本。

在訓練穩定性方面，研究團隊使用了兩種機制。指數移動平均教師（EMA Teacher）解決的是教師信號隨時間漂移的問題。在自蒸餾中，教師和學生其實是同一個模型的不同狀態，隨著訓練的推進，學生的參數不斷更新，教師的信號也在不斷變化。如果今天的錯誤影響了明天的教師信號，錯誤就會像漣漪一樣擴散。EMA的做法是對教師的參數進行時間上的平滑處理——用歷史參數的加權平均值作為教師，衰減係數β控制了歷史記憶的長度。這樣教師的信號就不會因為某一次的偶然波動而劇烈變化。散度截斷（Divergence Clipping）則解決了另一個問題：在訓練時，少數極度"出格"的詞彙可能產生異常大的學習信號，把整個訓練方向拉偏。這個機制通過設定一個閾值κ來限制每個詞彙的學習信號大小，超過閾值的部分被截斷，確保訓練過程平穩進行。

所有這些組件共同構成了UniSD*，一個將五種機制整合在一起的完整訓練流程，也是研究中測試的最強版本。

三、實驗怎麼做的：六個考場、六位學生

為了驗證UniSD框架的有效性，研究團隊設計了一套相當全面的測試方案。

在考場（基準測試數據集）的選擇上，研究團隊使用了六個涵蓋四種不同任務類型的數據集。科學推理方面，ScienceQA包含覆蓋自然科學、社會科學和語言學的選擇題，共有12726道訓練題和4241道測試題；GPQA則是只用於測試的專家級問答集，包含448道生物、化學和物理題。代碼生成方面，MBPP包含120道訓練題和257道測試題，要求模型編寫Python程序；HumanEval只用於測試，共164道函數補全題。常識推理方面，CoS-E在常識問答基礎上加入了人類撰寫的解釋，包含9741道訓練題和1221道測試題。工具使用方面，ToolAlpaca包含模擬真實工具調用場景的多步驟交互任務，有4046道訓練題和68道測試題。其中GPQA和HumanEval作為遷移泛化測試集——模型在其他數據上訓練，然後在這兩個從未見過的領域上接受考驗。

贊助商廣告

在學生（測試模型）的選擇上，研究團隊選取了六個來自三個不同模型家族的語言模型。主力模型是阿里雲的Qwen2.5-7B-Instruct，所有主要實驗都以此模型為核心。為了研究模型規模的影響，還額外測試了同家族的0.5B、1.5B和3B版本。為了驗證方法在不同架構上的通用性，還引入了Meta的Llama-3.1-8B-Instruct和谷歌的gemma-3-4b-it進行跨家族測試。

對照組（基線方法）方面，UniSD與五種方法進行了比較：原始未經訓練的模型（Raw）、標準的監督微調（SFT）、三種現有的自蒸餾方法（SDFT、GKD和SSD以及OPSD）。訓練配置統一使用LoRA（參數高效微調技術，秩為64，alpha為128，dropout為0.05）和AdamW優化器，學習率2e-5，餘弦退火，10%預熱，梯度累積4步，bf16混合精度，訓練1個epoch。在線策略的回答由vLLM以溫度0.7生成，提示詞最大長度3072個token，回答最大長度1024個token。測試時使用greedy decoding（溫度0.0）以確保結果的可重複性。

四、實驗結果：數字背後的故事

核心結果表格展示了在Qwen2.5-7B上的全面對比。原始模型（Raw）的綜合得分是67.9分，SFT達到68.3分，現有最強基線GKD達到70.5分，而UniSD*以73.3分的綜合得分排在第一位，比原始模型提升了5.4分，比最強基線提升了2.8分。

通過仔細分析實驗結果，研究團隊發現了幾個重要的規律。

首先，"抄答案式學習"（靜態模仿）不如"在自己的錯誤中學習"（在線策略學習）。標準SFT確實能提升某些任務的表現——比如ToolAlpaca提升了4.4分，CoS-E提升了0.7分，這是因為這類任務的關鍵在於學習固定的格式和參數結構。但SFT在ScienceQA、GPQA、MBPP和HumanEval上都有所退步。原因在於SFT是一種"均值尋求"行為——它會把所有可能的正確答案平均化，對於那些有多種合理解法的任務（比如編程題），這種均值化反而會削弱模型的鋒芒。在線策略方法則因為是在模型自己生成的內容上學習，更符合實際推理時的狀態，從一開始就提供了更好的起點。

贊助商廣告

其次，多老師一致性在提升監督可靠性方面確實有效。詞彙級一致性在ScienceQA上取得了85.2分的最高成績，在六個數據集中有四個排名第一或第二；序列級一致性更保守但更穩定，在所有數據集上都沒有退步，綜合得分72.5分與詞彙級的72.2分相比略高。這揭示了一個權衡關係：詞彙級一致性能更好地利用局部可靠信號，實現更高峰值性能；序列級一致性提供更穩健的平均表現。在輔助上下文的構建方式上，檢索式上下文在ScienceQA（85.2）、GPQA（36.2）和HumanEval（83.5）上表現最佳，因為語義相似的例子能提供任務特定的證據；隨機上下文則因多樣性而在各任務上保持競爭力；歸納式上下文在格式敏感任務（如ToolAlpaca，詞彙級一致性達到77.9）特別有用，但在CoS-E這類短問答任務上幫助有限。敏感性分析顯示，更多的上下文數量並不總是帶來更好的結果，最優的K值因任務和粒度而異，強調了互補性上下文的重要性，而不是數量的堆砌。

第三，在單個組件中，EMA教師的表現最為突出，與序列級一致性並列單組件最高綜合得分72.5分。EMA在ToolAlpaca上的提升尤其顯著，達到77.9分，比原始模型高出16.1分，這說明對於有嚴格輸出格式要求的生成任務，平滑演變的教師目標特別有幫助。對比學習綜合得分71.9分，略低於均值，但它是所有單組件中唯一在全部六個數據集上都有正向提升的方法，體現了負樣本條件監督作為分離有用教師信號的魯棒手段的價值。特徵匹配的表徵對齊有幫助但受益於輸出層面的輔助：僅表徵匹配綜合得分71.5，聯合匹配（同時對齊表徵和輸出分布）提升到72.1。散度截斷是最保守、計算最高效的組件，綜合得分70.3，適度的收益（+2.4）表明截斷主要作為輕量級穩定器而非主要學習信號。

第四，組合所有互補組件的UniSD*表現最佳。在MBPP（74.7）、ToolAlpaca（77.9）、GPQA（36.4）和HumanEval（83.5）上排名第一或並列第一，在ScienceQA（85.0）和CoS-E（82.2）上排名第二。這說明自蒸餾的效果不是單一的，需要從多個維度協同發力。具體而言，不同組件在不同任務上各有優勢：EMA在ToolAlpaca上特別有效，一致性和UniSD*在ScienceQA和HumanEval上領先，UniSD*在MBPP和GPQA上帶來最大提升。

贊助商廣告

在跨模型家族的測試中，UniSD*在三個不同架構的模型家族上都取得了最強的綜合表現，相比原始模型的提升分別為Qwen2.5系列+5.4分、Llama-3.1系列+3.1分、Gemma-3系列+2.2分，同時優於GKD基線。在18個模型-數據集組合中，UniSD*在15個上有提升，在2個上持平，僅在1個遷移泛化場景下有退步，說明可靠性感知的自蒸餾能在不同架構間泛化，而不是過擬合某一種骨幹網路。CoS-E的收益較小，原因在於經過指令調整的大模型已經編碼了大量常識知識，短答案格式也留下了很小的提升空間。

在模型規模的影響方面，研究發現UniSD*在Qwen2.5-3B上取得了最大的絕對提升（+7.06分），這個現象頗有意思——中等規模的模型似乎從自蒸餾中獲益最多。

五、模型有沒有變"走樣"：分布保持性測試

光看任務成績還不夠，研究團隊還關心一個更深層的問題：經過自蒸餾訓練後，模型有沒有變成一個"專才"——在目標任務上表現更好，但在其他方面反而變差了？這就好比一個全能運動員為了提高某一項專項成績，結果破壞了整體的運動協調性。

為此，研究團隊測量了兩個互補的指標。

第一個指標叫做參考答案擬合度。給定一道題和標準答案，讓訓練後的模型在強制提示（teacher forcing）條件下評分，看看訓練後的模型是否更傾向於生成標準答案。這個指標反映的是"模型能不能更好地預測我們希望它說的話"。結果顯示，自蒸餾方法大幅提升了參考答案的擬合度。在Qwen2.5-7B上，原始模型的困惑度（PPL）為20.74，經過一致性、EMA和對比學習訓練後，困惑度降至5.7到6.1之間。在Gemma-3-4B上，原始困惑度高達47.07，經過訓練後降至10.57到11.24。特徵匹配則表現出不太穩定的改善，進一步支持了它作為輔助正則化器而非主要監督信號的定位。

第二個指標叫做基礎分布保持度。對於每個測試提示，讓訓練後的模型自由生成一段回答，然後用原始未訓練模型來給這段回答評分——如果得分越高，說明訓練後模型的生成風格還是更接近原始模型，保持了原有的"個性"；如果得分越低，說明模型已經變得太"專業化"，偏離了原來的風格。

贊助商廣告

結果表明，SFT可能造成嚴重的分布漂移：Qwen2.5-7B的保持度困惑度從原始模型的1.14上升到SFT的1.68，Gemma-3-4B則從1.27急劇上升到3.02。而可靠性感知的自蒸餾方法通常避免了這種崩潰。對Qwen2.5-7B而言，一致性、EMA、對比學習和截斷的保持度困惑度保持在1.09到1.13之間，非常接近原始模型。EMA教師相對SFT將保持度困惑度降低了33.9%，說明平滑演變的教師提供了更兼容分布的目標。

在軌跡級別的細粒度分析中，研究團隊還計算了每個生成回答的詞彙級別Jensen-Shannon散度（JSD）——這個指標衡量訓練後模型和原始模型在每一步預測時的差異程度。UniSD*在將ScienceQA準確率從80.8提升到85.0的同時，將平均詞彙級JSD從SFT的0.054降低到0.041。配對分析進一步顯示，UniSD*在70.3%的樣本上JSD低於SFT，均值和中位數差異均為負值；基礎模型對數概率比較顯示，UniSD*生成的回答在60.6%的樣本上獲得了更高的基礎模型對數概率。這意味著UniSD*不僅使任務成績更好，而且使模型在生成時的詞彙預測分布與原始模型更接近。換句話說，它不是通過把模型改造成一個完全不同的"專才"來提升成績的，而是在保持模型原有特質的基礎上讓它變得更好。

六、代價幾何：時間與能耗的權衡

任何實用的技術都要考慮成本問題。研究團隊對不同組件的訓練時間和資源消耗進行了詳細的分析。

單教師穩定化方法在效率上表現出色。聯合匹配僅需每百萬token消耗0.08千瓦時，對比學習和EMA需要0.10千瓦時，僅表徵匹配需要0.11千瓦時，散度截斷需要0.09千瓦時。這些變體保持了高吞吐量（每GPU小時2.32到3.22百萬token），說明添加表徵、對比或時序穩定化只帶來了適度的額外開銷。

一致性方法則明顯更貴。一致性變體每百萬token需要0.16到0.18千瓦時，峰值內存也增加了約13到17GB（+21%到28%）。以Qwen2.5-7B為例，序列級一致性訓練大約需要100分鐘，而SFT只需要18.6分鐘。這個額外開銷是預期之內的：一致性通過在多個輔助上下文下對每個在線策略回答重新評分來估計可靠性，增加了教師側的前向計算量，並需要儲存額外的提示-回答張量、掩碼和對數概率緩衝區。這將吞吐量降低到每GPU小時1.43到1.66百萬token，暴露了一個清晰的可靠性-成本權衡。內存預算較緊的實現可以通過順序而非並行處理輔助上下文來降低一致性開銷。

贊助商廣告

UniSD*整合所有組件，每百萬token需要0.26千瓦時，吞吐量為每GPU小時0.96百萬token，峰值內存63.0GB。研究團隊建議未來的自蒸餾系統將可靠性估計作為一個有預算的組件來處理：昂貴的多視角一致性可以保留給噪聲大或高不確定性的樣本，而更便宜的穩定器如截斷、EMA平滑或表徵匹配則可以廣泛應用。

整個測試在配備六塊NVIDIA A100 80GB GPU的伺服器上進行，按照CodeCarbon和MLCO2影響計算器的排放核算方法，研究團隊基於運行時間估算了能耗，使用NVIDIA A100 PCIe 80GB的額定功率300W、假定持續利用率0.7、PUE（電源使用效率）1.2，以及碳強度475gCO2e/kWh進行計算。

說到底，UniSD這項研究告訴我們的核心資訊是：AI模型並非一定要找"更聰明的老師"才能進步。通過精心設計的自我檢驗和自我糾正機制，模型完全可以在自己生成的內容中提煉出有價值的學習信號，並且在不損失原有能力的前提下，在各種任務上都變得更強。研究橫跨六種任務、六個模型和三個模型家族的驗證結果，說明這不是某個特定場景下的偶然現象，而是一種有據可查的、可推廣的自我改進路徑。

這對普通人意味著什麼？意味著未來我們使用的AI助手，有望在更低的成本、更好的隱私保護條件下持續進化，不再那麼依賴不斷向更大、更貴的模型"拜師學藝"。當然，這套方法目前主要針對單輪對話場景進行了驗證，研究團隊也坦承這是未來需要擴展的方向，包括長程決策任務、更細粒度的推理過程評估，以及更豐富的自監督目標。想深入了解這項研究的全部細節，可以通過arXiv編號2605.06597查閱原論文。

Q&A

Q1：UniSD框架和普通的監督微調（SFT）有什麼本質區別？

A：普通SFT是"抄答案"——讓模型去模仿固定的標準示例，屬於離線學習，模型在訓練時接觸的內容和它真正推理時生成的內容是不同的，這種不匹配會導致泛化能力受限。UniSD則是"在自己的練習中學習"——讓模型先自己生成回答，再對這些自己生成的內容進行可靠性評估和監督，避免了訓練和推理之間的脫節，同時通過EMA平滑和散度截斷防止自我監督信號的不穩定放大。

贊助商廣告

Q2：多老師一致性機制需要多個不同的大模型嗎，會不會很費錢？

A：不需要多個不同的模型，這是UniSD的一個關鍵設計。所有輔助教師視角都共享同一個教師模型，只是在不同的上下文條件下（比如隨機採樣的示例、檢索到的相關例子或誘導的任務描述）對同一段回答進行評分。這些不同上下文的評分請求可以批量處理，避免了持有多個模型副本帶來的GPU內存翻倍問題，但依然會增加前向計算次數，訓練時間大約是SFT的5倍。

Q3：UniSD自蒸餾方法訓練完後，模型會不會在目標任務變好的同時在其他方面變差？

A：研究通過基礎分布保持度測試專門驗證了這個問題。結果顯示，標準SFT確實容易造成分布漂移（Gemma-3-4B的保持度困惑度從1.27急劇上升到3.02），而UniSD的可靠性感知機制通常避免了這種崩潰，大多數變體的保持度困惑度與原始未訓練模型非常接近。EMA教師相比SFT將保持度困惑度降低了33.9%，UniSD*在提升ScienceQA準確率的同時，詞彙級JSD也低於SFT，說明它是在保持模型原有特質的基礎上變好的。