這項由英偉達
(NVIDIA)研究團隊主導的研究發表於2026年6月,論文編號為arXiv:2606.18216,有興趣深入了解的讀者可以通過該編號查詢完整論文。
**研究背景:小模型的困境與大模型的傲慢**
每個人口袋裡的手機、戴在臉上的AR眼鏡、甚至未來家裡的機器人,都受到一個鐵律的約束:算力有限,內存有限,不可能塞進去一個動輒擁有幾百億參數的超級大模型。然而現實是,幾乎所有令人印象深刻的AI進步,都發生在那些龐然大物級別的模型身上。這就像一家餐廳里,只有主廚能做出米其林級別的菜餚,而負責給顧客端菜的小夥計永遠只能炒個蛋炒飯——不是能力不夠,而是根本沒有那麼大的灶台。
英偉達的研究團隊發現,現有的兩種主流"培訓小夥計"的方法,都存在根本性的缺陷,而他們提出的新方法ZPPO(Zone of Proximal Policy Optimization,近端發展區策略優化),則找到了一條全新的路徑。這項研究在最小的0.8B參數模型上,讓視覺語言理解能力提升了9.3個百分點;在跨越10個純語言測試、16個視覺語言測試和5個影片理解測試共計31個基準測試的綜合評估中,全面超越了此前所有對比方法。
**一、現有方法為什麼失靈?**
要理解ZPPO的價值,先得搞清楚原有方法的問題在哪裡。現有培訓小模型的方法主要分兩大流派。
第一種叫"知識蒸餾",可以理解為讓小學生照著大學教授的筆記抄作業。具體操作是:讓大模型生成答案,然後要求小模型模仿大模型在每個詞上的概率分布——不只是抄答案,而是連"我有80%的把握選這個詞,10%的把握選那個詞"這樣的細節分布都要學。問題是,一個只有0.8億或20億參數的小模型,根本沒有足夠的"腦容量"來吸收這麼精細的資訊。就像讓一個三歲小孩背誦博士論文,他不是在理解,而是在死記硬背。最終的結果是:小模型在訓練數據的範圍內表現還湊合,但一旦遇到訓練數據之外的新題目,立刻原形畢露,甚至比什麼都不訓練還要差。研究數據顯示,知識蒸餾方法在視覺語言測試之外的純語言測試上,讓小模型的表現下滑了1.8到2.5個百分點,這意味著所謂的"學習"反而是一種退步。
第二種方法叫"強化學習",更類似於讓小學生自己做題,做對了給獎勵,做錯了讓他反思。這種方法的優勢在於不需要抄筆記,模型從自己的實際嘗試中學習。然而它也有一個致命的盲點:當小模型遇到一道太難的題,八次嘗試全部答錯時,系統發現這道題沒有任何有參考價值的對比資訊,於是直接把這道題扔掉,不納入訓練。恰恰是那些小模型最需要幫助的題目,被系統悄無聲息地拋棄了。有人想到了一個"簡單"的修補方案:把大模型的正確答案直接塞進強化學習的計算過程,當作小模型自己答對的答案來處理。這等於是作弊,因為大模型的思維方式和表達風格與小模型相差太遠,這種做法會讓小模型的行為越來越偏離自身的真實水平,產生所謂的"策略漂移"。
**二、ZPPO的核心思想:老師住在題目里,而不是答案里**
英偉達團隊從蘇聯著名心理學家維果茨基(Vygotsky)那裡借來了一個概念,叫做"近端發展區"(Zone of Proximal Development)。這個概念說的是:孩子在沒有幫助時能夠獨立完成的事,和在有人指導時能夠完成的事,兩者之間存在一個區間。真正有效的學習,發生在這個區間裡——既不是簡單到不需要幫助,也不是難到幫了也沒用。
ZPPO的解決方案非常優雅:不要把大模型的答案放進計算梯度(即影響模型參數調整)的環節,而是把它放進題目的背景資訊里。大模型依然提供指導,但這種指導是以"題目的一部分"出現的,小模型讀完題目之後,仍然用自己的能力去生成答案。計算梯度時,參與計算的永遠是小模型自己生成的回答,而不是大模型的答案。這就像是:老師在黑板上寫了兩種解題思路,但不告訴你哪個是對的,要求你自己判斷哪種更合理,然後獨立寫出自己的解答。老師的幫助確實在那裡,但答案是你自己寫的,學到的是你自己的。
**三、BCQ和NCQ:兩種精心設計的題目改造方式**
ZPPO識別出兩類特別難的題目——那些小模型用普通方法嘗試多次、正確率低於50%的題目——並對它們進行兩種不同方式的改造。
第一種改造叫做"二元候選問題"(Binary Candidate-included Question,簡稱BCQ)。操作流程是這樣的:系統先讓大模型來嘗試這道題,如果大模型答對了,就取一個大模型的正確推理過程;同時也取小模型之前答錯時的一個錯誤推理過程;然後把這兩段推理都壓縮成簡短的摘要,打亂順序,貼上匿名標籤"候選A"和"候選B",都放進題目里,附上說明:"這道題有兩個候選回答,一個正確,一個錯誤,請判斷哪個更合理,然後給出你自己的答案。"小模型讀完改造後的題目,看到兩個匿名的候選推理,必須靠自己的判斷力去辨別哪個更合理,然後獨立生成答案。關鍵在於兩點:第一,候選是匿名的,沒有任何標籤告訴小模型"這個是老師的答案";第二,參與訓練的是小模型自己寫的答案,而不是大模型的答案。
第二種改造叫做"負面候選問題"(Negative Candidate-included Question,簡稱NCQ)。這種方法不需要大模型提供正確答案,而是把小模型自己在這道題上的所有錯誤嘗試都收集起來,壓縮後全部放進題目里,然後明確告訴小模型:"下面這些推理過程和答案全都是錯的,請你分析這些錯誤,然後給出正確答案。"這有點像老師拿著學生之前的八份錯誤試卷,把它們全部擺在學生面前說:"這些你之前全答錯了,仔細看看你犯了什麼共同的毛病,然後重新做一遍。"NCQ的獨特價值在於:在正常的訓練過程中,小模型的每次嘗試都是獨立的,它根本不知道自己反覆在犯同一類錯誤。NCQ是唯一一個讓小模型能夠"看見"自己集體失敗模式的機會。
**四、提示詞回放緩衝區:反覆練習困難題目**
除了BCQ和NCQ這兩種題目改造方式,ZPPO還設計了一個"提示詞回放緩衝區"(prompt replay buffer)。這個緩衝區的運作邏輯非常直觀:把那些小模型正確率低於50%的難題存起來,在後續的訓練中反覆拿出來練習,直到小模型在這道題上的正確率達到50%(稱為"畢業"),才把它從緩衝區中移除。如果緩衝區滿了,就按照先進先出的原則,把最老的題目踢出去。每次把儲存的難題拿出來重新練習時,系統會重新生成新的BCQ和NCQ改造版本——不是固定使用上次的版本,而是根據小模型當前狀態重新構建。這意味著每次重遇同一道難題,小模型面對的都是全新的候選組合,始終保持挑戰性。
研究數據顯示,單獨使用回放緩衝區(沒有BCQ和NCQ)的效果非常有限,在0.8B模型上只帶來約1.6個百分點的提升;單獨使用BCQ和NCQ(沒有回放緩衝區)同樣效果平平;但兩者結合起來,效果卻遠超各自之和——這種超加性的組合效果,正是因為回放緩衝區讓困難題目得以被多次練習,而每次練習都有全新的BCQ/NCQ候選內容注入新鮮的學習信號。
**五、訓練配方中的兩個關鍵細節**
在這三大核心組件之外,研究團隊還發現了兩個看似不起眼、實則影響巨大的訓練細節。
第一個是"每步更新次數"。傳統的GRPO強化學習方法默認在每批數據上進行16次梯度更新,而ZPPO選擇了4次。研究團隊發現,更新次數太多會導致模型參數偏離當前狀態太遠,產生所謂的"離策略漂移";但更新次數太少則訓練效率低下。4次恰好處於最佳平衡點,在三個測試集上的表現都明顯優於1次、8次或16次的設置。
第二個是"批次優勢歸一化"。在強化學習中,每道題的每次嘗試都會被賦予一個"優勢分數",用來衡量這次嘗試比平均水平好多少或差多少。當一道題的所有嘗試全部正確或全部錯誤時,所有嘗試的優勢分數都是零,這些"零優勢組"對訓練沒有任何貢獻。ZPPO的做法是:在計算用于歸一化的統計量(均值和標準差)時,把這些零優勢組排除在外。如果把零優勢組也納入統計,它們的大量零分會把標準差拉低,導致那些有意義的非零優勢分被人為放大,反而擾亂了訓練信號。這個只需改動一行代碼的細節,對最終性能的影響卻相當顯著。
**六、實驗結果:越小的模型,提升越大**
研究團隊在Qwen3.5系列的四個規模(0.8億、20億、40億、90億參數)的學生模型上,以270億參數的Qwen3.5作為教師模型,進行了全面測試。訓練數據集是一個包含約77000道多模態題目的數據集(ZPPO-77K),測試則覆蓋了16個視覺語言基準、10個純語言基準和5個影片理解基準。
在視覺語言測試上,與基礎模型相比,ZPPO為0.8B模型帶來了9.3個百分點的提升,為2B帶來5.2個百分點,為4B帶來4.0個百分點,為9B帶來2.8個百分點。這個趨勢非常清晰:越小的模型,提升越大。這是意料之中的,因為小模型與大模型之間的能力差距最大,BCQ能提供的額外學習信號也最多。
在純語言基準和影片理解基準上,ZPPO同樣帶來了顯著提升,而知識蒸餾方法在這些測試上反而讓模型變差了。這一點尤為重要:ZPPO的訓練數據是視覺語言問題,但在完全沒有訓練過的純語言測試上,ZPPO也能帶來正向遷移。而知識蒸餾方法則相反——它在視覺語言測試上只有微弱改善,卻在純語言和影片測試上造成了明顯退步。
在困難題目的"畢業"比較上,研究數據格外說明問題。對於那些初始正確率為零(小模型八次嘗試全部答錯)的最難題目,ZPPO能讓28%的題目最終"畢業"(正確率提升到50%以上),而沒有BCQ和NCQ的對比方法只能讓4%的題目畢業。對於初始正確率為12.5%(八次中答對一次)的題目,ZPPO的畢業率是54%,對比方法僅為14%。
**七、不同組件的貢獻分析**
研究團隊還系統地測試了去掉各個組件後的影響,以確認每個設計的必要性。結果顯示,BCQ、NCQ和回放緩衝區三者缺一不可——去掉任何一個,在所有規模上的表現都會下降。
一個有意思的規律是:在較小的模型(0.8B、2B)上,BCQ的貢獻更大;而在較大的模型(4B、9B)上,NCQ的貢獻逐漸超過BCQ。原因在於,當學生模型越來越強,留下的那些"難題"往往也是大模型教師做不出來的題目——此時BCQ無法提供正確的候選推理(因為教師也答不對),只能依賴NCQ來展示集體錯誤模式。這一發現揭示了ZPPO的一個根本性限制:如果教師模型也無法解答某道題,BCQ就失去了用武之地,只剩下NCQ在獨撐局面。
研究團隊還將BCQ與兩種類似思路的方法進行了比較:一種是"提示詞提示"(Hint),即把大模型解題的關鍵思路(不含答案)以提示形式放入題目;另一種是"前綴注入"(Prefix),即把大模型解答的前40%內容直接作為前綴,強制小模型從這裡接續生成答案。測試結果表明,提示詞提示在視覺語言測試上有一定幫助,但在純語言和影片測試上幾乎沒有遷移效果;前綴注入的效果更差,因為大模型的前綴文字會引入離策略漂移問題。兩者都不如完整的ZPPO方案。
**八、教師規模的影響**
研究團隊還測試了當教師模型規模縮小時(從270億縮減到90億、再到40億)會發生什麼。結果很直觀:教師越小,ZPPO的提升越少。這是因為BCQ需要教師能夠在學生做不到的地方做對——如果教師和學生能力接近,教師提供的正確候選推理就越來越少,BCQ能帶來的學習信號也隨之枯竭。在0.8B學生模型配合40億教師的組合中,BCQ帶來的額外收益幾乎消失,ZPPO退化到接近僅有NCQ的效果。
**九、一個有趣的驗證:BCQ真的在"思考"嗎?**
有人可能會擔心:BCQ提供了正確和錯誤兩個候選,小模型是否只是簡單地"抄"了正確候選的答案,而不是真正學會了判斷?研究團隊為此進行了詳細的審計。他們分析了訓練接近尾聲時1528個BCQ推理樣本,檢查每個樣本的最終答案與哪個候選更接近。結果顯示,BCQ的整體準確率在36%到69%之間,而不是接近100%——如果小模型只是在抄答案,準確率應該接近100%。進一步分析發現,在答對的樣本中,有78%到91%與正確候選的答案匹配;在答錯的樣本中,有77%到97%與錯誤候選的答案匹配。這說明小模型確實在兩個候選之間做出了選擇,而不是盲目照抄,它答對時是因為成功識別了正確候選,答錯時是因為被錯誤候選所誤導——這正是真實的判斷學習在發生。
對於NCQ的審計同樣揭示了有趣的規律:在0.8B模型上,82.7%的NCQ推理結果仍然重複了被明確告知"全部錯誤"的答案——這個最小的學生模型根本沒有足夠的能力來對抗自己的集體錯誤認知。但隨著規模擴大,這個比例急劇下降:2B模型只有2.2%重複錯誤答案,4B和9B模型更是降到不到1%。這完美解釋了為什麼NCQ在0.8B模型上效果有限,而在更大的模型上越來越有效。
說到底,這項研究的核心貢獻在於找到了一個簡單而有效的原則:讓大模型的智慧以"題目背景"的形式存在,而不是以"正確答案"的形式出現在訓練過程中。這個區別看似微小,實則根本——前者讓小模型自己做判斷,後者讓小模型直接照抄。正如維果茨基的教育理論所揭示的,真正有效的學習發生在挑戰與幫助之間的那個微妙區間。
ZPPO還有一個明確承認的局限性:當教師和學生都無法解答某道題時,BCQ就無從發揮,只剩NCQ在維持局面。如何讓學生的學習能力超越當前教師所能覆蓋的範圍,是這項研究留給後人的重要開放問題。對於有興趣深入了解技術細節的讀者,包括完整的算法偽代碼、所有31個基準測試的詳細數據、以及各種消融實驗的完整結果,均可通過arXiv編號2606.18216查閱原始論文。
---
Q&A
Q1:ZPPO和普通知識蒸餾方法有什麼本質區別?
A:普通知識蒸餾讓小模型直接模仿大模型每個詞的概率分布,小模型必須把大模型的"思維方式"完整複製下來。ZPPO則完全不同:大模型的推理過程只是作為題目的背景參考資訊出現,小模型讀完題目後必須自己獨立生成答案,參與訓練計算的永遠是小模型自己寫的回答。知識蒸餾好比讓學生照著老師的答案抄,ZPPO則是把正確答案和錯誤答案都匿名呈現給學生,讓學生自己判斷哪個更合理然後獨立作答。
Q2:BCQ為什麼要把候選答案匿名處理?
A:匿名處理是BCQ設計的核心。如果告訴小模型"候選A是老師的正確答案",小模型只需要無腦選A就能得分,根本不需要真正理解兩個推理過程的差異。匿名處理後,小模型必須真正比較兩段推理的質量和邏輯嚴密程度,才能做出判斷。研究團隊的審計數據也證實了這一點:BCQ的準確率在36%到69%之間,如果小模型只是照抄正確候選,準確率應該接近100%才對。
Q3:ZPPO在小模型上效果更好的原因是什麼?
A:原因來自兩個方面。首先,小模型與大模型之間的能力差距更大,BCQ能提供更多"教師做對而學生做錯"的題目,學習信號更豐富。其次,小模型的"近端發展區"更寬,有更多原本完全不會、但在BCQ幫助下能夠學會的題目。隨著模型規模增大,剩餘的困難題目越來越接近教師模型也無法解答的範圍,BCQ的候選池逐漸枯竭,提升空間自然縮小。數據上的體現就是:0.8B模型提升9.3個百分點,而9B模型只提升2.8個百分點。






