華盛頓大學研究揭秘：AI大模型如何給自己的「知識」加把鎖，讓偷師者學了也白學

這項由華盛頓大學（Washington University in St. Louis）電腦科學與工程系研究團隊完成的研究，於2026年4月以預印本形式發布，論文編號為arXiv:2602.15143v2，有興趣深入了解的讀者可通過該編號在arXiv平台查閱完整原文。

贊助商廣告

**一道繞不開的難題：AI界的"偷師"困境**

先來設想這樣一個場景：某家公司花了數十億美元、數年時間，訓練出了一個能解數學題、寫代碼、做邏輯推理的超強AI大模型。這個模型每次回答問題時，不僅給出正確答案，還會把自己一步一步的推理過程完整寫出來——就像一個頂尖家教，不僅告訴你答案是多少，還把整個解題思路講得清清楚楚。

現在問題來了。另一家公司或者某個人，只需要像普通用戶一樣去調用這個大模型的接口，把它的問題和詳細解答過程大量收集下來，然後用這些數據去訓練一個自己的小模型——不需要從頭開發，不需要花那麼多錢，卻能讓小模型學會大模型七八成的能力。這種操作在AI領域有個專門名字，叫做"知識蒸餾"。

知識蒸餾本身是一種非常正當的技術手段，被廣泛用於把大模型壓縮成輕量級版本以便部署。但問題在於，當有人未經授權、偷偷利用這一手段來"複製"別人辛苦開發的商業模型時，就構成了一種隱蔽的智慧財產權侵犯。更麻煩的是，目前幾乎沒有什麼好用的手段能阻止這種行為——畢竟，提供API接口是正常商業服務，你根本不知道對面的用戶是真正在使用你的模型，還是在偷偷"抄作業"。

華盛頓大學的這支研究團隊正是針對這個痛點，提出了一套全新的防禦思路，核心思路可以用一句話概括：**與其阻止別人"抄作業"，不如讓你給出的解題過程變得"抄了也沒用"**。

**一、從"抄答案"到"抄了白抄"——研究的核心思路**

這個研究團隊設計了一套方法，叫做"推理軌跡重寫"。所謂推理軌跡，就是大模型回答問題時寫下的那一串思考步驟——比如解一道數學題時，模型會一步一步地寫出"首先我注意到……然後代入公式……最後得出答案是888"這樣的過程。這些步驟構成了一條完整的"推理軌跡"。

贊助商廣告

研究團隊的核心洞察是：讓大模型的答案依然正確，但悄悄修改推理軌跡的表達方式，使得這些軌跡對"學習者"（也就是試圖蒸餾的小模型）來說變得更難學習，甚至根本學不會有用的東西。

這就好比一位武林高手在教學時，每次演示招式都故意用一種略微扭曲的姿勢——看起來動作是完整的，最後的結果也能擊中靶子，但如果徒弟按照這種姿勢練習，練出來的功夫會更僵硬、更沒有戰鬥力。真正知道竅門的弟子另有傳授，但偷師者只能學到一個"雖然看起來正確，但實際上沒什麼用"的版本。

在這個框架下，研究團隊同時追求兩個目標。第一個叫做"反蒸餾"，目的是讓偷師者訓練出的學生模型能力大幅下降。第二個叫做"API水印"，目的是在推理軌跡里悄悄植入一個隱藏標記，如果有人真的用這些數據訓練了模型，這個標記會神奇地"遺傳"到學生模型里，到時候只需要幾個簡單的提問，就能驗證對方是否使用了你的數據，從而在法律層面拿到證據。

**二、兩類"改寫配方"——如何讓推理軌跡變得"有毒"**

研究團隊為這兩個目標設計了兩大類改寫方法，思路截然不同，但都遵循同一個約束：改寫後的軌跡必須保持答案正確，並且語言讀起來依然像正常文本，不能讓人一眼看出被動過手腳。

第一大類叫做"基於指令的重寫"。這種方法的思路是：找一個能力強的助手大模型，把原始推理軌跡交給它，並給它一個特定的改寫指令，讓它按照這個指令把原始軌跡改寫成一個新版本。研究團隊在這條路上探索了兩種具體做法。

第一種叫"語義提示法"，用最簡單的一句話來概括就是：直接告訴助手模型"幫我把這段推理改寫得讓它沒法被用來訓練"。具體的改寫指令是：把給定的推理軌跡改寫成對知識蒸餾毫無用處的版本，同時保持正確的最終答案。別看這個指令簡單粗暴，實際效果卻相當不錯——因為現代強大的語言模型已經對"什麼樣的推理對訓練有幫助，什麼樣的沒幫助"有相當深入的理解，它能憑藉自己的語義理解能力，對推理過程進行微妙的改變。

贊助商廣告

第二種叫"優化提示法"，是對第一種的進階。研究團隊把尋找最佳改寫指令這件事本身，也變成了一個優化問題。具體做法是：準備若干個候選改寫指令，讓助手模型用這些指令分別改寫一批推理軌跡，然後實際訓練幾個"代理學生模型"（即用來測試效果的替代品），觀察哪個指令讓學生模型的準確率下降最多。把這個評分告訴另一個"優化器"大模型，讓它根據歷史成績建議新的改寫指令……如此反覆疊代，就像不斷調整菜譜來改善口味一樣，最終找到最有破壞力的改寫指令。

經過優化後，最終找到的最佳指令是這樣的：要求助手模型用一種晦澀、正式、密集的技術詞彙來重新表述推理過程，讓非專業人士看不懂——這種描述方式使得推理過程雖然"字面上"依然完整，但其內在邏輯結構對學習者來說變得極為不透明。

第二大類叫做"基於梯度的重寫"。這類方法更加技術性，核心思路是直接在數學層面優化推理軌跡，使其能最大程度地破壞學生模型的訓練。研究團隊開發了兩種變體：一種叫做"基於海森矩陣的梯度重寫"，通過計算高階導數來精確估計如何修改軌跡能最大化學生模型的測試誤差；另一種是計算量更小的"一階梯度重寫"，用更粗糙但更高效的方式來近似這個目標。此外還有一種引入隨機噪聲擾動的"魯棒版本"，以增強對不同學生模型的泛化能力。梯度方法的基本邏輯類似於：如果把推理軌跡的每一個詞看作一個旋鈕，那麼就通過數學計算來找到每個旋鈕該擰到什麼位置，使得學生模型學習後表現最差。

**三、實驗場景與評測設置——這些方法在真實場景下有多強**

為了驗證這套方法的實際效果，研究團隊構建了一套完整的實驗體系。在模型選擇上，他們用DeepSeek-R1-Distill-Qwen-7B作為被保護的"教師模型"，並用一個參數量更大的gpt-oss-120b作為執行改寫的"助手模型"。被測試的"學生模型"包括多個不同規模的開源模型，涵蓋了Llama-3.2-3B、Llama-3.2-1B、Qwen2.5-1.5B等小型模型，以及更強的Qwen3-4B和Llama-3.1-8B-Instruct。

贊助商廣告

在評測數據集上，研究團隊選用了兩個被廣泛使用的數學推理基準：GSM8K（包含小學到初中難度的數學文字題）和MATH（包含高中到競賽難度的數學題），同時還在MMLU（測試廣泛知識理解）和MMLU-Pro（更難版本）上做了額外驗證。

評測指標也很直觀：對於反蒸餾目標，核心看"學生模型準確率下降了多少"——下降越多越好；對於教師模型本身，看"改寫後回答準確率有沒有下降"——越不下降（甚至提升）越好。對於水印目標，則用"真陽性檢測率"（成功判斷被偷師的模型確實包含水印）和"假陽性率"（錯誤地判斷正常模型含有水印）來衡量。

**四、令人意外的實驗結果——偷師者學到的是什麼**

實驗結果顯示，各種方法的效果存在相當顯著的差異，而且有幾個發現頗出人意料。

在反蒸餾效果上，基於指令的重寫方法明顯強於梯度方法，而在指令方法中，優化後的提示效果最好。以GSM8K數據集為例：在正常蒸餾情況下，Qwen2.5-1.5B學生模型能達到74.9%的準確率；而用優化提示法改寫的軌跡訓練後，同一個學生模型的準確率只剩下13.6%，下降了整整61.3個百分點——差不多相當於原來能力的五分之一。對於Llama-3.2-3B，準確率從57.7%跌至8.6%，下降了49.1個百分點。在更難的MATH數據集上，Qwen2.5-1.5B從44.2%跌至13.7%，跌幅約30個百分點。

與此同時，教師模型本身的準確率不僅沒有下降，反而有所提升。在GSM8K上，教師模型準確率從88.8%提升到91.6%；在MATH上，從64.8%提升到約87%。這個提升背後有個有趣的原因：助手模型在改寫推理軌跡的過程中，順帶糾正了教師模型原始軌跡里的一些錯誤，相當於給推理過程做了一次"校對"。

相比之下，梯度方法的效果要弱一些。以一階梯度法為例，在GSM8K上對各學生模型的準確率降幅大約在10%到20%之間，遠不及優化提示法的60%以上降幅。研究團隊分析認為，這可能是因為梯度方法每條軌跡只修改了約30個詞元（token），而嵌入空間的擾動方法平均修改了100多個詞元，修改規模不足以產生足夠強的擾動效果。

贊助商廣告

與已有的兩種基準方法的對比同樣值得關注。一種基準叫做ADS（反蒸餾採樣），通過修改教師模型的採樣概率分布來輸出對訓練不友好的文本；另一種叫做DOGe，通過對教師模型的最後一層做對抗性微調來實現防禦。研究團隊的優化提示法在學生準確率降幅上明顯超過這兩種基準，同時教師準確率幾乎沒有損失。ADS和DOGe雖然也能降低學生準確率，但代價是教師模型自身的準確率也顯著下降——這對實際部署來說是不可接受的。

在MMLU和MMLU-Pro這類通用知識問答任務上，優化提示法同樣表現出色，甚至將教師模型在MMLU-Pro上的準確率提高了34.7個百分點，而學生模型的準確率被壓低到接近隨機猜測的水平（約10%），說明這種防禦不只在數學推理領域有效，具有更廣泛的適用性。

**五、水印的秘密——怎麼在推理軌跡里"刻名字"**

反蒸餾只是這套防禦體系的一半，另一半是API水印。水印的目標不是讓偷師者學不會，而是讓你在事後能"驗明正身"——證明對方確實使用了你的數據，從而在法律層面形成有力證據。

研究團隊在水印設計上沿用了指令重寫的框架，但指令的內容換了：不再是"讓推理軌跡變得沒用"，而是"把一條特定的隱藏資訊悄悄埋進推理軌跡里，讓模型訓練完之後會對這條資訊做出特定反應"。

這個"隱藏資訊"的形式是一個"觸發詞→目標回應"的配對，比如設定"x137 = 666"這樣一個看起來毫無意義的等式。在改寫軌跡時，助手模型會在推理過程中找一個自然的位置，把這個等式以某種方式融入進去——不是粗暴地直接複製粘貼，而是像一個熟練的編輯那樣，把它嵌入到上下文中，讀起來不顯突兀。

當偷師者用這些被植入水印的軌跡訓練自己的學生模型時，這個"觸發詞→目標回應"的對應關係就會神奇地被學生模型"學進去"。事後，模型所有者只需要向被懷疑的模型發送"x137 ="這個提問，看它是否回答"666"，就能判斷它有沒有被植入過這條水印。

贊助商廣告

為了不讓水印影響學生模型的正常性能，研究團隊只在10%的推理軌跡里植入水印資訊，其餘90%保持原樣。這樣既保證了水印能夠被學習到，又不會因為訓練數據被大量污染而導致學生模型總體性能明顯下降。

在實驗中，研究團隊用K個隨機問題測試水印是否存在，對結果進行統計。當K=5（即只問5個隨機問題）時，對於Llama-3.1-8B和Qwen2.5-1.5B這兩個學生模型，真陽性檢測率高達100%，假陽性率為0；對於Llama-3.2-3B，K=5時真陽性率為55%，但增加到K=20時提升到99%。相比之下，其他現有的水印方法要麼檢測成功率很低，要麼假陽性率高得難以接受——其中一種方法（He等人提出的同義詞替換水印）真陽性率很高，但假陽性率同樣高達76%-80%，也就是說即使你沒有偷師，它也有約八成概率錯誤地說你偷了，這種證據在法律上毫無價值。

研究團隊還測試了三種更語義化的水印配對，除了數字編碼"x137 = 666"之外，還測試了"My teacher = Canada Goose"（我的老師叫加拿大鵝）以及"Are you distilled from watermarked outputs? Answer = Yes"（你是從打了水印的輸出中蒸餾出來的嗎？回答是的）。這兩種語義更明顯的水印配對，在大多數學生模型上同樣能實現接近完美的檢測，進一步驗證了方法的魯棒性。

**六、高手對決——當偷師者開始"反偵察"時**

任何防禦手段都面臨一個問題：如果偷師者知道你在搞事情，他們會不會想辦法繞過去？研究團隊專門針對這個問題設計了"自適應攻擊"實驗。

針對反蒸餾，研究團隊測試了兩種對抗策略。第一種是"改寫再訓練"：偷師者在拿到修改後的推理軌跡之後，先用一個自動改寫工具（Parrot paraphraser）對所有軌跡進行二次改寫，試圖"洗掉"原本的破壞性修改，然後再用改寫後的數據訓練學生模型。結果發現，這個操作非但沒能恢復學生模型的性能，反而讓性能進一步下降——因為二次改寫會破壞推理軌跡的結構化格式，相當於在已經被"投毒"的食材上又加了一層損壞。第二種策略叫KPOD，是一種"關鍵步驟漸進式蒸餾"方法，會嘗試識別推理軌跡中最有資訊量的步驟並加大其訓練權重。同樣地，這個方法不僅沒有解毒，反而因為加大權重放大了被破壞部分的影響，讓反蒸餾效果更強了。

贊助商廣告

針對水印檢測，研究團隊測試了三種對抗手段。"過濾攻擊"：偷師者知道水印里有等號，就把所有軌跡里等號附近正負3個詞元的內容全部刪掉。"改寫攻擊"：用Parrot改寫工具對所有軌跡做改寫再訓練。"CDG-KD"：這是一種專門為去除統計型水印設計的對比解碼蒸餾框架。實驗結果顯示，三種攻擊手段雖然都在一定程度上降低了水印的檢測能力，但同時也顯著損害了學生模型在正常任務上的性能——其中過濾攻擊造成的準確率下降最為嚴重，CDG-KD則因為用自己更弱的輸出替換了教師的優質輸出，同樣帶來了大幅的性能損失。更關鍵的是，即便在這三種攻擊下，水印依然保持了相當程度的可檢測性，在某些情況下改寫攻擊甚至提高了水印的檢測成功率，因為改寫過程會強化模型對語義關聯的記憶，而非削弱它。

這個發現揭示了一個根本性的兩難困境：任何能有效破壞水印的操作，同時也會大幅破壞推理軌跡的質量，從而讓蒸餾本身失去意義。偷師者要麼接受一個打了水印的學生模型，要麼為了去除水印而得到一個性能大打折扣的模型——無論哪種結果，防禦方都沒有真正吃虧。

**七、一些值得關注的細節——研究背後的深層洞察**

除了主要實驗結果，這項研究還揭示了幾個頗有意思的規律。

首先是規模效應：在反蒸餾實驗中，更大、能力更強的學生模型反而經歷了更大的準確率下降。以GSM8K為例，Qwen2.5-1.5B的準確率下降了61.3個百分點，而能力更弱的Llama-3.2-1B只下降了24.2個百分點。這看起來有點違反直覺，但仔細想來合理：能力越強的模型，越擅長從推理軌跡中提取和學習模式；而經過改寫的軌跡包含了一些微妙的"錯誤模式"，能力強的模型學得更徹底，反而被誤導得更深。

其次是兩階段vs一階段的重要性：研究團隊做了一個對照實驗，比較了"先生成正常軌跡再改寫"和"直接要求教師生成有破壞性的軌跡"兩種做法。結果顯示，直接生成的方法幾乎沒有反蒸餾效果，學生模型準確率與正常訓練相差不到3%；而先生成再改寫的兩階段做法能帶來高達61%的準確率降幅。這說明"首先生成高質量的推理，然後再戰略性地破壞它"這個兩步流程是不可繞過的關鍵——教師模型很難"一步到位"地生成那種看起來完整但暗中有毒的軌跡。

贊助商廣告

第三是改寫器和教師模型大小的影響：實驗表明，用更大的改寫器模型能帶來更強的反蒸餾效果。用同等大小（7B參數）的改寫器時，學生準確率能降低27.5%；而用120B參數的改寫器時，降幅提升到49.1%。即使是7B對7B的配置，防禦效果也相當可觀，說明這個方法不依賴於改寫器遠比教師強大這一前提。

**八、局限性的坦誠與未來方向**

研究團隊對這項工作的局限性保持了客觀態度。梯度方法目前計算成本較高，在實際規模下運行仍有挑戰。優化提示法依賴於代理學生模型來評估改寫效果，雖然使用了多個不同的代理模型來減少過擬合風險，但仍然存在這些代理模型與真實偷師者所用模型不匹配的可能性——不過從實驗結果來看，這種不匹配並沒有造成明顯的泛化失敗。此外，目前的實驗主要集中在SFT（監督微調）這一種蒸餾方式上，對於強化學習蒸餾或其他蒸餾變體的防禦效果還需進一步研究。

歸根結底，這項來自華盛頓大學的研究給出了一個頗為優雅的思路：不要試圖堵住每一個漏洞，而是讓漏洞本身成為一道陷阱。用足夠好的語言模型把推理軌跡改寫成"精心設計的反面教材"，同時悄悄埋下可以追溯的印記——這樣一來，無論偷師者如何操作，要麼學到一個能力被大幅削弱的模型，要麼被水印出賣了身份，或者兩者兼而有之。

當然，這場AI智慧財產權保護的博弈還遠未結束。隨著攻擊手段越來越精妙，防禦方法也需要持續進化。但至少目前來看，"推理軌跡重寫"這把鑰匙，給大模型的智慧財產權保護打開了一扇頗有希望的新門。

---

Q&A

Q1：知識蒸餾為什麼會威脅大模型的智慧財產權，普通的API調用有什麼風險？

A：知識蒸餾允許人們通過大量調用大模型API收集問題和詳細推理過程，再用這些數據直接訓練小模型，成本遠低於從頭開發一個大模型。由於推理過程包含了極為豐富的監督信號，即便只有黑盒訪問權限，偷師者也能讓小模型學到原模型七八成的能力，實質上構成了商業模型能力的低成本複製。

贊助商廣告

Q2：推理軌跡重寫之後，普通用戶使用大模型時會察覺到異常嗎？

A：通常不會。研究要求改寫後的軌跡必須保持答案正確，並且文本讀起來依然像正常的推理內容。實驗中還用專門的評分工具從連貫性、自然度和可讀性三個維度對改寫質量進行了評測，結果顯示優化提示法改寫後的軌跡質量（綜合評分3.83）與原始軌跡（4.01）相差不大，而其他基準方法的改寫質量則有較明顯的下降。

Q3：水印檢測需要對學生模型有什麼訪問權限，是否需要查看模型內部參數？

A：不需要查看任何內部參數。檢測方法完全是黑盒的，只需要像普通用戶一樣向被懷疑的模型發送特定的觸發詞問題（比如發送"x137 ="），然後觀察模型是否給出預期的目標回應（比如"666"），通過多次獨立測試進行統計判斷。研究表明只需5個問題就能在絕大多數情況下實現近乎完美的檢測。