宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

阿里巴巴雲計算團隊如何讓AI"邊探索邊利用",徹底告別訓練失控的煩惱?

2026年06月02日 首頁 » 熱門科技

這項由阿里巴巴雲計算集團主導的研究,發表於2026年第43屆國際機器學習大會(ICML 2026),會議地點為韓國首爾,收錄於PMLR第306卷。有興趣深入研究的讀者可通過論文編號arXiv:2605.28109查詢完整論文。

一個讓AI學會"剛好好奇"的問題

每當我們教一個孩子學數學,都會面臨一個微妙的困境:如果孩子太謹慎,總是只用同一種方法解題,碰到稍微變形的題目就束手無策;但如果孩子太散漫,東想西想、思維天馬行空,做題時反而抓不住關鍵,不知道該往哪個方向推進。這兩種極端之間,存在一個最理想的狀態,就是既保持足夠的好奇心去探索不同解法,又能聰明地判斷哪條路更有可能通向正確答案。

大型語言模型(也就是我們平時說的AI大模型,比如各種聊天機器人背後的"大腦")在通過強化學習自我提升的過程中,面臨的正是同一個困境。訓練過程中,AI需要不斷嘗試回答各種複雜問題,然後根據自己回答得對不對來調整思路。問題在於,如果訓練方法不當,AI要麼會"過度開發"某幾種固定套路,變得千篇一律、死氣沉沉;要麼會"過度探索",每次回答都亂七八糟、毫無邏輯。這兩種情況都會讓訓練走向失敗。

阿里巴巴的研究團隊為此提出了一套全新的解決方案,核心思路是借用資訊論中一個叫做"資訊瓶頸"的經典理論,為AI的訓練過程設計了一把精準的"溫度計",專門用來測量AI當前的探索與利用是否處於最佳平衡狀態。圍繞這把溫度計,他們又打造了一套叫做IB-TPO(資訊瓶頸驅動的樹形策略優化)的訓練框架,讓AI在解題時能像一棵不斷生長的思維樹一樣,每次優先向最有價值的方向延伸,而不是漫無目的地亂跑。實驗結果顯示,這套方法在多個標準數學推理測試上,比此前主流方法高出了2.9%到3.6%,超越了所有對比的同類方法。

一、AI訓練中那個隱藏已久的"鐘擺難題"

要理解這項研究解決的問題,得先弄清楚AI是怎麼通過強化學習變聰明的。

通俗來講,強化學習就像是在用打遊戲的方式訓練AI。AI每次面對一道題,就相當於玩一局遊戲;答對了得分,答錯了失分。AI通過無數局"遊戲"積累經驗,逐漸學會什麼樣的思路更容易成功。目前最流行的一種具體做法叫GRPO(組相對策略優化),它的策略是每次讓AI對同一道題同時生成好幾個不同的解答,然後比較這些解答的得分高低,用相對排名來指導AI往哪個方向調整。

這個方法聽起來很合理,但實際操作中埋著一個不小的隱患。研究團隊在實驗中發現,使用GRPO訓練的AI,在訓練剛開始的時候表現還不錯,但用不了多久就會陷入一種"僵化"狀態——AI對同一道題生成的多個解答,雖然表面上用詞略有不同,但背後的思路幾乎一模一樣,就像一個人習慣性地用同一種方法做所有數學題,換一個角度就完全不會了。這種現象在論文裡被叫做"過度利用",也就是AI過早地把所有賭注都押在了它認為最靠譜的那一套路數上,不再去嘗試其他可能性。

為了對抗這種僵化,研究者們嘗試過一些常見的補救手段。一種是調整訓練時的"剪裁閾值",讓AI更願意接受出人意料的答案;另一種是直接給AI加一個"熵正則化"的限制,強迫它保持一定程度的不確定性,也就是不允許AI對任何一個答案過於自信。然而實驗結果令人意外——這兩種方法雖然確實讓AI變得更"飄忽"了,訓練曲線上的不確定性指標確實上升了,但模型在真實題目上的表現反而沒有提升,有時甚至更差。更糟的是,強行增加不確定性有時會引發另一個極端:AI開始胡言亂語,生成大量重複、無意義的詞語,完全失去了正常推理的能力,也就是"過度探索"。

研究團隊舉了一個令人印象深刻的例子。當啟用強度為0.003的熵正則化時,讓AI解一道關於拋物線頂點坐標的數學題,AI在前幾步推導得還算有條理,但到了後半段,突然開始輸出"confirm simplest simplest core rational basic checks solving thus aligns properly minimal aligned smallest simplest rational..."這樣不斷重複的亂碼,生成滿滿兩千個詞卻一個有用的結論都沒給出來,最終因超出長度限制而截斷。這就是"過度探索"的典型症狀——AI變得太不確定,以至於無法把任何一個思路推進到底。

這揭示了一個根本性的矛盾:既不能讓AI太固執(過度利用),也不能讓AI太散漫(過度探索)。但現有的所有方法,要麼只管治一端,要麼兩端都顧不好。

二、資訊瓶頸:一把同時量兩件事的溫度計

解決這個矛盾,需要一個全新的視角。阿里巴巴團隊選擇從資訊論出發,藉助一個叫"資訊瓶頸理論"的經典框架來重新理解這個問題。

資訊瓶頸理論最初不是為了訓練AI而設計的,它是一個更普遍的理論,描述的是如何從一堆原始資訊中提煉出最有用的部分。最簡單的類比是泡咖啡:你把熱水(資訊)通過咖啡粉(瓶頸),得到的咖啡液(提煉後的資訊)既過濾掉了大量無關的雜質,又保留了讓咖啡風味得以呈現的關鍵物質。資訊瓶頸理論認為,理想的資訊提煉過程需要同時做到兩件事:儘量扔掉與目標無關的冗餘資訊(對應"探索多樣性"),同時儘量保留與目標高度相關的有效資訊(對應"利用高價值路徑")。

研究團隊把這個理論映射到AI推理訓練上。他們把AI解題的每一步思考過程看成一次資訊提煉:這一步思維跟最終正確答案有多大關係?這一步的多樣性夠不夠,能不能代表AI真的在考慮不同可能性?基於這兩個維度,他們定義了一個全新的評分指標,命名為IB-Score(資訊瓶頸分數)。

IB-Score背後的數學邏輯稍微複雜一點,但核心意思可以用一個淘金的比喻來理解。淘金的過程中,好的淘金者既需要篩入足夠多的沙土(保持探索的多樣性,不要只盯著某一塊地方),又需要能準確識別哪些閃光的顆粒是真金而不是黃鐵礦(識別哪些思路真的能通向正確答案)。IB-Score就是這樣一個雙重評分標準:它同時考察AI在當前這一步推理時的"多樣性"(類似於篩入的沙土夠不夠多樣)和"資訊增益"(類似於這一步思路實際上讓你多大程度上接近了正確答案)。

具體來說,IB-Score包含兩個相互配合的量。第一個量衡量的是"當前步驟的模型自信度",也就是AI在這一步有多大概率會走這條路。第二個量衡量的是"如果已經知道正確答案,這條路被選中的概率會有多大",換句話說,是這條路與正確答案的相關性有多強。IB-Score的高低,本質上取決於這兩個量的協同程度——如果AI把高自信度精準地分配給了那些真正有助於得出正確答案的路徑,IB-Score就會高;反之,如果AI對所有路徑的自信度差不多(過度探索),或者高自信度集中在了錯誤方向上(過度利用),IB-Score就會低。

這個設計有一個非常關鍵的特性:它不只是簡單地測量AI的"不確定性高不高",而是要求AI的不確定性必須以有意義的方式分布。高熵(不確定性高)本身不是好事,只有當這種不確定性恰好集中在那些對解題有價值的分叉點上時,才真正有價值。這就解釋了為什麼單純增加熵不能提升性能——你篩了很多沙,但如果你對哪些閃光是真金毫無判斷力,篩得再多也是白費。

三、訓練"病歷報告":IB-Score照出了什麼問題

有了IB-Score這把溫度計,研究團隊重新審視了現有訓練方法的真實狀態,結果發現了一些此前被忽視的關鍵規律。

他們用Qwen3-8B-Base這個模型做了一系列詳細的診斷實驗,追蹤訓練過程中IB-Score隨時間的變化趨勢。實驗結果呈現出一幅清晰的圖景:在訓練最開始的時候,模型本能地表現出一定的"智慧"——它的自信度分配是有傾向性的,更傾向於把高自信度給那些跟正確答案相關性高的路徑,也就是IB-Score中兩個核心量之間存在正向的協同關係。這說明模型在完全未經特殊訓練時,其實有一種自然的"直覺",能初步區分好路徑和壞路徑。

然而,隨著GRPO訓練的推進,這種協同關係迅速崩潰。大約在訓練初期就急劇惡化,兩個量之間的關聯性趨近於零,意味著模型對每條路徑的自信度開始變得均勻,失去了原本的辨別能力。訓練有效率(也就是在同一批次里,那些AI的不同嘗試結果有差別、能提供真正學習信號的比例)也隨之持續下滑。這就是一個典型的"越練越僵"的過程。

加了熵正則化的版本,確實讓整體不確定性上去了,但IB-Score的走勢卻並沒有因此改善,兩個量的協同關係依然在下滑。這說明熵正則化治標不治本——它讓AI看起來更"開放",但實際上並沒有幫助AI學會把開放性用在刀刃上。

更值得關注的是,研究團隊的分析揭示了一個深層規律:訓練過程中IB-Score保持相對穩定的模型,最終在測試中往往能達到更好的性能,而且訓練過程更平穩。這說明維持IB-Score的穩定,不是一個可有可無的錦上添花,而是指向訓練成功的一個關鍵信號。

四、IBTree:像培育一棵有策略的思維樹

意識到問題所在,研究團隊設計了一套新的訓練框架,核心組件是一種名為IBTree(資訊瓶頸引導樹搜索)的採樣策略。

在此之前,GRPO的做法是每次讓AI對一道題獨立地生成多個完整解答,就像讓多個學生各自從頭到尾獨立做一道題,然後比較誰做得好。這種方式有兩個明顯的浪費:首先,不同解答的開頭往往差不多,只是到了某個關鍵分叉點才開始走不同的路,如果每次都從頭生成,就白白重複了大量相同的推理過程;其次,這種"各自為戰"的策略無法利用已有的推理結果來指導接下來生成什麼,完全是盲目地撒網。

IBTree的設計思路完全不同,更像是精心規劃的一棵決策樹。每道題對應一棵樹,樹的根節點就是題目本身。訓練開始時,先從根節點出發生成幾條完整的解答路徑,得到樹的初始框架。然後,關鍵步驟來了:利用已有路徑中每個推理步驟的IB-Score,找出當前整棵樹中IB-Score最高的那個節點,也就是最值得進一步探索的思維分叉點,然後專門從這個節點出發再生成幾條新路徑。接著,更新所有節點的IB-Score,再次選出最值得探索的節點,繼續擴展。如此反覆疊代,直到生成足夠數量的路徑。

這個過程有一個自然的類比:當你在一個陌生城市開車找地方時,一個聰明的導航策略不是讓你同時走所有可能的路,而是先大致探索幾條主幹道,然後在那些"感覺路況最複雜、最可能藏著捷徑"的路口進行更細緻的勘察,而不是對每個路口都一視同仁。IBTree就是這樣的智能導航策略,它把有限的"探索預算"優先投入到最有價值的節點上。

這種設計帶來了一個顯著的效率提升:在相同的詞元預算(可以理解為相同的計算成本)下,IBTree能生成比獨立採樣多50%的有效路徑。具體來說,標準的獨立採樣每題生成8條完整解答,而IBTree能生成12條,但總消耗的詞元數量是一樣的。這是因為IBTree通過樹形結構實現了路徑前綴的共享——同一棵樹上不同分支的公共前綴只需要計算一次。

IBTree還有一個額外的好處:樹形結構天然地為IB-Score的計算提供了所需的資訊。計算每個節點的IB-Score,需要知道從這個節點出發繼續解題能有多大概率成功,而IBTree擴展過程中已經從每個節點生成了若干條路徑,這些路徑的成功率正好可以用來估算所需的概率,形成一個計算上的良性循環。

五、讓IB-Score變成訓練信號:局部優勢與全局優勢的協作

有了IBTree提供的豐富資訊,研究團隊進一步把IB-Score直接嵌入到訓練目標中,讓AI不只是被動地被測量,而是主動地被引導去提升自己的IB-Score。

原有的GRPO方法只使用了一種"全局優勢"作為訓練信號:某條完整解答路徑答對了就是好的,答錯了就是壞的,用這個來告訴AI哪些做法值得加強、哪些值得削弱。這種信號是粗粒度的——它只評價整體結果,無法告訴AI在哪一個具體推理步驟上走對了、哪一步走錯了。

IB-TPO在此基礎上增加了一種"局部優勢",直接基於IB-Score來衡量每一步推理對整體推進的貢獻。具體來說,從某個父節點分出來的不同子節點(也就是下一步推理的不同選擇),可以通過比較它們各自後續解題成功率來判斷哪個子節點更值得走。如果從某個子節點出發,後續成功率明顯高於從父節點出發的平均成功率,那這個子節點就有正的局部優勢,應該被鼓勵;反之則應該被抑制。

這個局部優勢與全局優勢相結合,形成了一個層次分明的訓練信號體系:全局優勢告訴AI大方向有沒有走對,局部優勢則在此基礎上精確指出具體哪個推理步驟功不可沒、哪個步驟是彎路。兩者配合,遠比單獨使用任何一個更有效。通過一系列消融實驗(也就是系統地把各個組件逐一拆除,看缺了哪個部分性能下降最多的測試),研究團隊驗證了這個組合效果:單獨使用IBTree有一定提升,單獨使用IB-based局部優勢也有一定提升,而兩者結合才能達到最佳效果,而且IBTree不能被隨機樹或其他策略簡單替代。

六、實驗結果:數字背後的實際意義

研究團隊在多個不同規模的模型和多個不同類型的測試集上驗證了IB-TPO的效果。

訓練所用的基礎模型是阿里巴巴自研的Qwen3系列,分別使用了1.7億參數規模的Qwen3-1.7B-Base和80億參數規模的Qwen3-8B-Base。訓練數據是一個包含約1.7萬道具有挑戰性數學題的數據集DAPO-Math-17K。評測則覆蓋了多個標準測試集,包括MATH-500(一個包含500道競賽級數學題的綜合測試)、AIME 24/25(美國數學邀請賽題目)、AMC 23/24(美國數學競賽題目)以及兩個跨領域測試:考察科學推理能力的GPQA Diamond和考察指令遵循能力的IFEval。

在1.7B規模上,普通GRPO的整體得分為26.3%,而IB-TPO達到了29.2%,提升了2.9個百分點。在8B規模上,GRPO得分40.7%,IB-TPO達到44.3%,提升了3.6個百分點。這個提升不只體現在數學題上,在跨領域的科學推理和指令遵循上也有明顯進步,說明IB-TPO學到的能力有一定的泛化性,不只是針對數學題的專項優化。

與其他同類方法相比,IB-TPO同樣占據優勢。在8B規模上,GRPO加上裁剪閾值調整是41.0%,加上熵正則化是41.4%,IBRO(另一個把資訊瓶頸用於序列級正則化的方法)是41.6%,TreeRL(基於熵引導樹搜索的方法)是42.0%,TreePO(限制樹寬度的樹搜索方法)是41.6%,而IB-TPO是44.3%,超過了所有對比方法。

研究團隊還專門比較了通過pass@K(在K次嘗試中至少答對一次的概率)來衡量的探索能力,這個指標能直接反映AI的搜索空間是否被充分保持。結果顯示,IB-TPO在各個K值下都明顯領先,說明它不只是在單次回答準確率上做得更好,而是真正保持了更豐富的探索能力。

在採樣效率的詳細對比中,研究團隊測試了多種不同的樹採樣策略。隨機分支策略的有效率只有48.4%,固定寬度樹是59.4%,熵引導分支是57.8%,而IB-Score引導的IBTree在β=5時達到了60.2%,同時整體解題準確率也最高。這說明IBTree不只是在數量上勝出,在質量上也同樣領先。

研究團隊還測試了IB-TPO在更長上下文設置(4K和8K詞元限制)下的表現,以及在更大參數規模(140億參數的Qwen3-14B-Base)和不同任務領域(代碼生成任務、使用Llama 3.1-8B-Instruct模型)的表現,結果一致顯示IB-TPO的優勢能夠穩定保持,不因模型大小、上下文長度或任務類型而消失。

七、細節經得起推敲:各項設計都有據可查

任何新方法都需要證明自己的設計選擇不是隨意為之,研究團隊通過一系列嚴謹的消融實驗回答了幾個關鍵問題。

關於IB-Score中的權衡係數β,研究團隊測試了三個值:1.0、5.0和10.0。β=5時採樣有效率最高(60.2%)、整體準確率最高(23.2%),且詞元消耗最少(7592個),是三者中最優的組合,而β=10時性能有所下滑,說明這個參數並非越大越好,存在一個最優區間。

關於局部優勢權重λ,測試了0、0.05、0.1、0.5四個值。完全不使用局部優勢(λ=0)時性能最差,λ=0.1時達到最優,λ=0.5時性能明顯下滑。這說明局部優勢是一個有用但需要適度使用的補充信號,而不是越強越好。

研究團隊還專門測試了IB-TPO對步驟邊界噪聲的魯棒性。他們使用雙換行符來分隔思維步驟(這是一種簡單、無需額外訓練的自然分界方式),然後人工擾動10%的分界位置,把它們隨機移動到不該有分界的地方,模擬邊界劃分不準確的情況。結果顯示性能幾乎沒有變化,說明IB-TPO對步驟邊界的定義不敏感,實用性較強。

在運行效率方面,研究團隊也進行了透明的測量和討論。由於IBTree需要多輪疊代式擴展,並行度比直接生成多條獨立解答要低一些,單棵樹的運行時間會稍長。但當並行處理多棵樹(也就是同時處理多道題目)時,這個差距會隨並行度提高而迅速縮小。團隊還發現,通過讓不同樹的擴展過程異步進行,可以進一步減少等待時間,實現約15%的額外加速。在等效詞元預算下,IBTree(生成12條路徑)的運行時間只比獨立採樣(生成8條路徑)多約31%,但多出了50%的路徑數量,綜合效率是正向的。

歸根結底,這項研究做了一件聽起來簡單但實際上相當精妙的事情:它用一個同時衡量"多樣性"和"方向感"的評分指標,取代了原來只看"多樣性"本身的粗糙方法,並圍繞這個評分指標構建了一套完整的採樣與訓練體系。結果是,AI不再在"太死板"和"太散漫"之間來回搖擺,而是找到了一條兩者兼顧的穩定道路。

這個思路或許對所有需要在"保留可能性"和"聚焦最優解"之間做權衡的系統都有啟示意義——無論是AI訓練,還是現實中的決策過程。對希望深入了解技術細節的讀者,論文原文可通過arXiv編號2605.28109獲取。

Q&A

Q1:IB-Score和普通熵值有什麼區別,為什麼不直接用熵來衡量AI的探索狀態?

A:普通熵只衡量AI對各條推理路徑的自信度是否均勻,也就是"是不是夠不確定"。但均勻的不確定性並不等於有效的探索,AI可以對每條路徑同樣迷茫,但對哪條路更接近正確答案毫無感知。IB-Score在熵的基礎上引入了"資訊增益"維度,要求AI的高自信度必須精準集中在那些真正有助於解題的路徑上。實驗也印證了這一點:強行增加熵不能提升性能,有時反而導致AI生成大量無意義重複詞語,即"過度探索"。

Q2:IBTree採樣比普通獨立採樣更複雜,實際訓練速度會慢多少?

A:IBTree通過共享路徑前綴,能在相同詞元預算下多生成50%的路徑(從8條增加到12條)。單棵樹的單次運行時間確實略長,但當並行處理多棵樹時差距會快速縮小。研究團隊還發現,通過讓不同樹的擴展過程異步進行,可以減少約15%的等待時間。在等效詞元預算下,IBTree總體運行時間僅比獨立採樣多約31%,但路徑數量多了50%,綜合來看效率是正向的。

Q3:IB-TPO只適用於數學推理任務,還是可以用在其他類型的AI任務上?

A:研究團隊已在多個方向驗證了IB-TPO的泛化能力。除數學推理外,他們還在代碼生成任務(使用Llama 3.1-8B-Instruct模型,訓練數據來自可驗證的編程問題集)和指令遵循任務(IFEval測試集)上進行了測試,結果同樣顯示出明顯優勢。此外,在更大的140億參數模型和4K、8K更長上下文設置下,IB-TPO的提升效果同樣穩定保持,說明這套方法具備較強的通用性。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新