斯坦福與新加坡國立大學聯手揭秘：當AI「偷師」遇上聰明的防守，誰才能笑到最後？

這項由斯坦福大學、豐田技術研究所芝加哥分院以及新加坡國立大學聯合開展的研究，發表於2026年5月，論文編號為arXiv:2605.22737，有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

一個你每天都在經歷卻渾然不覺的商業博弈

每當你向某個AI助手提問，它回答你的那一刻，一場悄無聲息的博弈就已經開始了。

這場博弈的一方，是花費了巨額資金訓練出聰明AI的公司——我們姑且叫它"老師"。另一方，是那些想要"白嫖"老師智慧的競爭對手——我們叫它"學生"。學生的手段很簡單：大量向老師提問，把老師回答的內容收集起來，然後用這些內容訓練自己的AI，從而獲得和老師相近的能力，卻不用付出老師十分之一的成本。這個過程，在學術圈被稱為"蒸餾攻擊"，說白了就是"抄捷徑學本事"。

這個問題聽起來離普通人很遠，但實際上，每一次你使用某個AI服務，背後都可能牽涉這場博弈。AI公司花大錢培養出的"明星老師"，隨時可能被人廉價複製。更令人擔憂的是，這種複製不僅僅是商業上的損失，還可能加速某些危險能力的傳播。

斯坦福等機構的這支研究團隊注意到，目前學界對這個問題的研究存在一個根本性的漏洞：大家都在研究如何防禦"偷師"，卻從來沒有認真考慮過，現實中真正的"偷師者"會有多聰明。換句話說，現有的防禦手段，其實都是在對抗一個過於理想化、過於"老實"的假想敵。

正是為了填補這個漏洞，研究團隊構建了一個全新的博弈框架——他們將整件事建模為一場"老師"與"學生"之間的策略遊戲，並由此推導出了聰明學生的最優策略和聰明老師的最優防禦方案。

一、為什麼現有的"防偷師"方案都被高估了

在理解研究團隊的突破之前，有必要先弄清楚當前學術界是如何評估防禦效果的。

現有的防禦研究通常是這樣運作的：研究者設計出一套修改AI輸出內容的方案，讓AI的回答變得"沒那麼有用"，從而讓偷師者難以模仿。然後，他們找一個"學生"AI，讓這個學生老老實實地用防禦後的輸出內容訓練，看看學生最終學到了多少東西。如果學生學到的東西很少，就說明防禦成功了。

贊助商廣告

問題在於，這個測試中的"學生"太老實了。它對老師給的每條回答都一視同仁，完全沒有選擇地全部吸收，就像一個不會挑食的孩子，不管碗裡是什麼都往嘴裡塞。

但現實中，真正想要偷師的競爭對手，絕對不會這麼傻。他們會仔細觀察老師給出的每條回答，判斷哪些回答對自己最有價值，然後重點學習這些高價值的內容，忽略那些沒用的垃圾資訊。

研究團隊在論文中展示了一個非常生動的例子來說明什麼叫"高價值"和"低價值"的輸出。當老師AI被要求解釋一道數學題時，如果它給出了清晰、完整的推理過程，一步一步把答案推導出來，這就是高價值的內容——學生可以從中學到真正的推理能力。但如果老師的輸出充斥著大量重複的無意義詞彙（論文中出現的真實案例是大量重複的"raiding"這個詞），那這條輸出對學生來說毫無價值，甚至是有害的噪音。

一個聰明的偷師者，當然會把重心放在前者，完全拋棄後者。現有的防禦評估方案忽視了這一點，導致所有"防禦效果"的數字都被嚴重高估了。

二、用博弈論搭建一個公平的擂台

面對這個問題，研究團隊沒有像過去那樣，孤立地設計防禦方案或攻擊方案，而是把整件事用一個統一的數學框架來描述——一場minimax博弈（可以理解為"你中有我，我中有你"的策略對抗遊戲）。

這個博弈框架的核心思想是：老師和學生各自都有一個"預算"，規定了他們可以偏離默認狀態多遠。老師有一個"保真預算"，意思是它修改自己輸出內容的程度不能太大，否則輸出的內容對真正的用戶就毫無用處了。學生有一個"適應預算"，意思是它可以對老師的輸出進行篩選和重新加權，但不能憑空發明新數據。

框架的另一個關鍵組成部分是"價值函數"。每一條老師的輸出（一個問題加上對應的回答），都可以被賦予一個分數，代表學生從這條輸出中能學到多少東西。價值越高，這條輸出對偷師者越有用，老師就越應該壓制它；價值越低，即使被學生獲得也無傷大雅。

贊助商廣告

這個框架的精妙之處在於，它把兩件原本分開討論的事情——"學生應該如何聰明地偷師"和"老師應該如何防禦"——統一到同一個數學結構中，用同一套語言來表達。由此，研究團隊得以推導出雙方的"最優策略"，也就是數學上的"最佳應對方案"。

三、聰明學生的武器：給每條數據評分，然後重點押注

根據博弈論框架推導出的結論，聰明學生的最優策略出人意料地簡潔：對老師給出的每條回答計算一個"價值分數"，然後在訓練時，價值高的回答就多學幾遍，價值低的就少學甚至不學。

具體怎麼計算這個價值分數呢？研究團隊給出了一個直覺上很有道理的方法：對於每條（問題，回答）對，學生可以先計算"如果我多學習這條數據，我的整體能力會提升多少"。用更技術化的語言來說，就是計算這條數據的"梯度"（理解為"學習這條數據能讓我朝正確方向邁多大的步"）與"我目前在整體任務上的改進方向"之間的相似度。兩者越一致，這條數據的價值就越高。

在實際操作中，研究團隊實現了一個可以在訓練過程中動態調整權重的算法：在每個訓練批次里，學生AI會評估當前批次中每條數據的價值，然後把更多的"注意力"分配給高價值的數據。這就好比一個備考的學生，每天都在重新評估哪些知識點最值得今晚重點複習，而不是機械地從第一頁翻到最後一頁。

這個策略有一個可以調節的"銳度參數"。當這個參數為零時，學生會均等地對待所有數據，等同於"老實的學生"。當參數調高時，學生會越來越專注於高價值數據，理論上能從同樣的原始數據中榨取出更多的學習效果。

四、老師的盾牌：讓輸出變得"對我有用，對你沒用"

知道了聰明學生會怎麼偷師，老師的防禦方向也就清晰了：想辦法壓制那些對學生價值最高的輸出。

博弈框架給出的老師最優策略，同樣是一種"傾斜"操作，只不過方向相反——把輸出概率向價值低的方向傾斜。換句話說，老師要讓"高價值但有害的回答"出現得更少，讓"低價值且安全的回答"出現得更多。

贊助商廣告

目前學術界最先進的防禦方法叫做"抗蒸餾採樣"（簡稱ADS），正是這個思路的一種實現。它在老師AI生成回答的過程中，實時計算每個詞彙選項對學生的"梯度價值"，然後故意降低那些"對學生最有學習價值的詞"被選中的概率。通俗地說，就是老師在說話時，刻意繞開最清晰、最有教學價值的表達方式，轉而用更繞彎、更難被模仿的方式來表達同樣的意思。

這種方法有效，但代價高昂：在生成每一個詞的時候，都需要調用學生AI進行梯度計算，運算量非常大，導致老師的"說話速度"（生成速度）降低了將近3倍。

研究團隊由此受到啟發，提出了一種更廉價的防禦方案。

五、專家乘積（PoE）：一種聰明而廉價的新防禦

研究團隊注意到，"價值最高的輸出"往往有一個共同特徵：老師覺得它非常自然、非常流暢，但學生卻覺得它很難預測、很陌生。換句話說，如果老師的輸出對老師本身來說似乎"很合理"，但對學生來說"完全出乎意料"，那這個輸出對學生來說就極具學習價值——因為這正是學生還不會、正需要學習的地方。

基於這個洞察，研究團隊提出了一個更簡單的價值代理指標：直接計算同一條輸出在老師眼中的"合理程度"與在學生眼中的"合理程度"之差。差距越大，這條輸出的價值越高，老師就越應該避免產生這樣的輸出。

將這個邏輯帶入數學推導，結果會得到一個令人意外的簡潔公式：防禦後的老師輸出概率，等於原始老師概率和學生概率的幾何平均。也就是說，老師在生成每個詞時，只需要同時參考自己和學生的預測，取一個"折中"——偏向兩者都認為合理的詞，遠離只有老師認為合理、學生完全不懂的詞。

這個方案被研究團隊命名為"專家乘積"（Product-of-Experts，簡稱PoE），名字來自機器學習中一個經典的思路：把多個模型的判斷相乘，得到一個更綜合的判斷。

PoE方案最大的優點在於它的計算效率。它不需要任何梯度計算——只需要在生成每個詞時，同時運行老師和學生兩個模型，查看它們各自預測下一個詞的概率分布，然後按比例混合。這種操作幾乎沒有額外的數學開銷，只不過需要同時跑兩個模型，所以生成速度大約是原來的1.6倍，而不是ADS方案的2.9倍。

贊助商廣告

此外，PoE方案還有一個意想不到的好處：由於它的邏輯是"選擇兩者都認可的詞"，這實際上會讓老師的輸出更傾向於清晰、結構完整的推理過程，而不是那種混亂、重複的"垃圾輸出"。從用戶體驗的角度來看，PoE保護下的老師AI，其輸出質量反而可能比ADS保護下的更好。

六、實驗結果：當"聰明學生"上場，防線崩潰了多少

研究團隊在兩個數學推理基準測試（GSM8K，一個初等數學題集；MATH，一個更難的競賽數學題集）上進行了系統性的實驗。他們使用的老師模型是DeepSeek-R1-Distill-Qwen-7B，一個以鏈式推理著稱的開源模型；學生模型是Llama-3.2-3B，一個體量更小的模型；代理學生（用於老師防禦）是Qwen2.5-3B。

實驗分兩組進行：一組是"老實學生"（均等使用所有數據），另一組是"聰明學生"（用研究團隊的價值加權方案訓練）。實驗結果頗為驚人。

以GSM8K為例，當老師使用最先進的ADS防禦時，老實學生的最終準確率只有34%——看起來防禦相當成功，畢竟正常情況下學生可以達到57%左右。但當換成聰明學生之後，準確率直接跳到了51%——相對提升幅度高達50%！換句話說，單靠"聰明地選擇學哪些數據"這一個動作，就讓防禦效果打了一個大折扣。

PoE方案在同樣條件下，老實學生準確率39%，聰明學生達到49%，相對提升約26%。雖然提升幅度比ADS更小，但絕對準確率反而略低於ADS遭受聰明學生攻擊後的數值。

換一個維度來看這個結果：ADS防禦在對抗老實學生時，能把學生準確率從57%壓到34%，降低了約23個百分點；但在對抗聰明學生時，只能壓到51%，實際防禦效果只有6個百分點。防禦力打了不止七折。

MATH數據集上的結果因為本身數字較小，絕對差異不那麼顯眼，但方向完全一致：聰明學生在每種防禦方案下都顯著優於老實學生，相對提升幅度在40%到50%之間。

七、推理質量的比較：PoE意外地更"人性化"

贊助商廣告

研究團隊還做了一件很有意思的事：他們不僅僅關心學生能學到多少，還關心防禦之後老師的輸出質量是否下降——畢竟，如果老師為了防禦而輸出一堆亂碼，用戶體驗會變得很差。

為了評估這一點，他們讓Claude Sonnet 4.6（Anthropic的旗艦AI模型）充當"質量評判員"，用一套專門設計的審核標準，從1到5分評價每條推理鏈的"可審計性"——即普通人是否能一步一步地核驗這條推理的邏輯是否正確。評分標準不在乎推理有多長，只關心每一步是否清晰、相關、可核驗。

為了確保這個AI評判員靠譜，研究團隊還讓人類評分員獨立給30條樣本評分，結果發現AI評判員與人類評分員的一致性達到了κ=0.76，平均誤差只有0.4分，算是相當可靠的評估工具。

實驗結果顯示，ADS防禦後的老師輸出，在質量分布上大幅向低分段偏移——大量輸出出現了前文提到的"raiding"式重複垃圾內容，推理質量嚴重下降。而PoE防禦後的老師輸出，質量分布與未經防禦的正常輸出非常接近，大部分推理仍然清晰、有條理，只是稍微更簡潔了一些。

這個差異有一個直覺上的解釋。ADS的邏輯是"哪些詞彙對學生最有價值，我就偏偏不選那些詞"，所以它有時候會做出一些很奇怪的詞彙選擇，導致推理鏈變得混亂甚至充滿廢話。而PoE的邏輯是"選擇老師和學生都覺得合理的詞"，這個約束本質上是一個保守的質量過濾器——它排除的是那些老師很自信但學生完全看不懂的專業內容，保留的恰恰是兩者都能理解的通俗表達。結果就是，PoE的輸出雖然"教學價值"降低了，但對普通用戶來說，反而更易讀、更清晰。

研究團隊還發現一個有趣的現象：PoE有時候不僅僅是把推理鏈變短，還會換一種完全不同的思路來解題。比如在某道函數方程題中，未防禦的老師和ADS老師都選擇先推導函數的一般形式f(x)=k/x，再代入求值；而PoE老師卻直接把兩個已知點代入函數方程，一步就算出了答案。兩種路徑都正確，但PoE選擇的路徑更簡潔直接。

贊助商廣告

八、真實世界的蒸餾威脅：就連摘要都在泄露秘密

研究論文還包含一個頗具現實意義的附加實驗：他們測試了用三個主流商業AI（GPT、Claude、Gemini）的真實輸出來訓練學生，看看能學到多少能力。

結果令人印象深刻。以GSM8K為例，未經訓練的Llama-3.2-3B準確率只有區區0.76%（幾乎完全不會做數學題）。用簡單的"問題+答案"對來訓練後，準確率提升到3.43%，只是略有改善。但如果用GPT、Claude或Gemini的完整推理鏈來訓練，準確率分別跳升至54.78%、53.57%和51.75%——提升幅度高達數十倍。

這個數字說明，商業AI輸出的"推理過程"確實蘊含著極為豐富的學習信號，遠不只是最終答案那麼簡單。

更值得注意的是，研究團隊在論文中指出，目前很多大公司已經開始限制AI輸出完整的推理鏈，轉而只給用戶提供較短的總結版本。這個做法是否能有效阻止蒸餾攻擊？研究團隊的初步結論是：不能完全阻止。就算是經過壓縮的摘要，裡面仍然包含足以讓學生AI顯著提升能力的信號。真正消除蒸餾風險，只有完全不暴露任何有價值的中間推理步驟——但那樣的話，AI對用戶也就沒什麼用了。這正是這場博弈最根本的兩難困境。

九、這一切對未來意味著什麼

這項研究最重要的貢獻，或許不是那兩個具體的技術方案（聰明學生和PoE防禦），而是它改變了這個領域的評估範式。

過去，研究者們設計防禦方案，然後用"老實學生"來測試，如果老實學生學不到什麼，就宣布防禦成功。這就好比一家超市為了防盜，只測試過不會翻窗戶的小偷，卻沒有考慮到那些會鎖匠技術的專業竊賊。

這個框架告訴大家：任何防禦方案的測試，都必須包含一個"聰明學生"的測試，否則結論都是失真的。這個結論看起來簡單，但它的影響是深遠的——它意味著過去幾年所有防蒸餾研究的"防禦效果數據"，都可能被顯著高估了。

歸根結底，這場"老師"和"學生"之間的博弈，目前還沒有完美的終點。研究團隊明確指出，在他們的實驗條件下，即使是最強的防禦方案，在面對聰明學生時，也無法阻止相當一部分能力的泄漏。從某種程度上說，只要AI公司還在向用戶提供有價值的輸出，蒸餾攻擊就永遠無法被完全消滅——因為有價值的輸出，本質上就包含了學習信號。

贊助商廣告

這場博弈將會持續下去。但至少現在，評判"誰贏了"的標準，變得更加公平和現實了。對於普通人來說，這意味著我們在未來有望看到更多高質量、更難被廉價複製的AI服務——儘管背後的技術角力，遠比你我所能想像的複雜。

感興趣的讀者可以通過編號 arXiv:2605.22737 查閱完整論文，其中包含了完整的數學推導、實驗細節以及大量示例推理鏈的對比。

---

Q&A

Q1：蒸餾攻擊和普通的AI模型訓練有什麼區別？

A：普通AI訓練需要大量原始數據和巨大算力，從零開始培養能力。蒸餾攻擊則是直接向已有的強大AI提問，收集它的回答，再用這些回答來訓練自己的小模型，相當於"站在巨人肩膀上"，以極低的成本複製巨人的部分能力，代價只是不斷地提問。

Q2：專家乘積（PoE）防禦為什麼比抗蒸餾採樣（ADS）更值得推薦？

A：在面對聰明學生的攻擊時，ADS和PoE的實際防禦效果相差無幾，但ADS的生成速度會降低近3倍，而PoE只降低約1.6倍。更關鍵的是，ADS經常產生充斥著無意義重複詞的混亂輸出，嚴重影響用戶體驗，而PoE的輸出質量與正常AI接近，推理鏈清晰易讀。

Q3：目前AI公司限制輸出完整推理過程，能防止蒸餾攻擊嗎？

A：根據這項研究，效果有限。實驗顯示，即便只提供壓縮後的摘要式輸出，學生AI仍能從中提取足夠的學習信號，顯著提升自身能力。只要AI輸出對用戶有價值，其中就必然包含學習信號，這是一個根本性的兩難困境，目前沒有完美解決方案。