阿里巴巴雲計算團隊如何讓AI"邊探索邊利用"，徹底告別訓練失控的煩惱？

這項由阿里巴巴雲計算集團主導的研究，發表於2026年第43屆國際機器學習大會（ICML 2026），會議地點為韓國首爾，收錄於PMLR第306卷。有興趣深入研究的讀者可通過論文編號arXiv:2605.28109查詢完整論文。

贊助商廣告

一個讓AI學會"剛好好奇"的問題

每當我們教一個孩子學數學，都會面臨一個微妙的困境：如果孩子太謹慎，總是只用同一種方法解題，碰到稍微變形的題目就束手無策；但如果孩子太散漫，東想西想、思維天馬行空，做題時反而抓不住關鍵，不知道該往哪個方向推進。這兩種極端之間，存在一個最理想的狀態，就是既保持足夠的好奇心去探索不同解法，又能聰明地判斷哪條路更有可能通向正確答案。

大型語言模型（也就是我們平時說的AI大模型，比如各種聊天機器人背後的"大腦"）在通過強化學習自我提升的過程中，面臨的正是同一個困境。訓練過程中，AI需要不斷嘗試回答各種複雜問題，然後根據自己回答得對不對來調整思路。問題在於，如果訓練方法不當，AI要麼會"過度開發"某幾種固定套路，變得千篇一律、死氣沉沉；要麼會"過度探索"，每次回答都亂七八糟、毫無邏輯。這兩種情況都會讓訓練走向失敗。

阿里巴巴的研究團隊為此提出了一套全新的解決方案，核心思路是借用資訊論中一個叫做"資訊瓶頸"的經典理論，為AI的訓練過程設計了一把精準的"溫度計"，專門用來測量AI當前的探索與利用是否處於最佳平衡狀態。圍繞這把溫度計，他們又打造了一套叫做IB-TPO（資訊瓶頸驅動的樹形策略優化）的訓練框架，讓AI在解題時能像一棵不斷生長的思維樹一樣，每次優先向最有價值的方向延伸，而不是漫無目的地亂跑。實驗結果顯示，這套方法在多個標準數學推理測試上，比此前主流方法高出了2.9%到3.6%，超越了所有對比的同類方法。

一、AI訓練中那個隱藏已久的"鐘擺難題"

要理解這項研究解決的問題，得先弄清楚AI是怎麼通過強化學習變聰明的。

贊助商廣告

通俗來講，強化學習就像是在用打遊戲的方式訓練AI。AI每次面對一道題，就相當於玩一局遊戲；答對了得分，答錯了失分。AI通過無數局"遊戲"積累經驗，逐漸學會什麼樣的思路更容易成功。目前最流行的一種具體做法叫GRPO（組相對策略優化），它的策略是每次讓AI對同一道題同時生成好幾個不同的解答，然後比較這些解答的得分高低，用相對排名來指導AI往哪個方向調整。

這個方法聽起來很合理，但實際操作中埋著一個不小的隱患。研究團隊在實驗中發現，使用GRPO訓練的AI，在訓練剛開始的時候表現還不錯，但用不了多久就會陷入一種"僵化"狀態——AI對同一道題生成的多個解答，雖然表面上用詞略有不同，但背後的思路幾乎一模一樣，就像一個人習慣性地用同一種方法做所有數學題，換一個角度就完全不會了。這種現象在論文裡被叫做"過度利用"，也就是AI過早地把所有賭注都押在了它認為最靠譜的那一套路數上，不再去嘗試其他可能性。

為了對抗這種僵化，研究者們嘗試過一些常見的補救手段。一種是調整訓練時的"剪裁閾值"，讓AI更願意接受出人意料的答案；另一種是直接給AI加一個"熵正則化"的限制，強迫它保持一定程度的不確定性，也就是不允許AI對任何一個答案過於自信。然而實驗結果令人意外——這兩種方法雖然確實讓AI變得更"飄忽"了，訓練曲線上的不確定性指標確實上升了，但模型在真實題目上的表現反而沒有提升，有時甚至更差。更糟的是，強行增加不確定性有時會引發另一個極端：AI開始胡言亂語，生成大量重複、無意義的詞語，完全失去了正常推理的能力，也就是"過度探索"。

研究團隊舉了一個令人印象深刻的例子。當啟用強度為0.003的熵正則化時，讓AI解一道關於拋物線頂點坐標的數學題，AI在前幾步推導得還算有條理，但到了後半段，突然開始輸出"confirm simplest simplest core rational basic checks solving thus aligns properly minimal aligned smallest simplest rational..."這樣不斷重複的亂碼，生成滿滿兩千個詞卻一個有用的結論都沒給出來，最終因超出長度限制而截斷。這就是"過度探索"的典型症狀——AI變得太不確定，以至於無法把任何一個思路推進到底。

贊助商廣告

這揭示了一個根本性的矛盾：既不能讓AI太固執（過度利用），也不能讓AI太散漫（過度探索）。但現有的所有方法，要麼只管治一端，要麼兩端都顧不好。

二、資訊瓶頸：一把同時量兩件事的溫度計

解決這個矛盾，需要一個全新的視角。阿里巴巴團隊選擇從資訊論出發，藉助一個叫"資訊瓶頸理論"的經典框架來重新理解這個問題。

資訊瓶頸理論最初不是為了訓練AI而設計的，它是一個更普遍的理論，描述的是如何從一堆原始資訊中提煉出最有用的部分。最簡單的類比是泡咖啡：你把熱水（資訊）通過咖啡粉（瓶頸），得到的咖啡液（提煉後的資訊）既過濾掉了大量無關的雜質，又保留了讓咖啡風味得以呈現的關鍵物質。資訊瓶頸理論認為，理想的資訊提煉過程需要同時做到兩件事：儘量扔掉與目標無關的冗餘資訊（對應"探索多樣性"），同時儘量保留與目標高度相關的有效資訊（對應"利用高價值路徑"）。

研究團隊把這個理論映射到AI推理訓練上。他們把AI解題的每一步思考過程看成一次資訊提煉：這一步思維跟最終正確答案有多大關係？這一步的多樣性夠不夠，能不能代表AI真的在考慮不同可能性？基於這兩個維度，他們定義了一個全新的評分指標，命名為IB-Score（資訊瓶頸分數）。

IB-Score背後的數學邏輯稍微複雜一點，但核心意思可以用一個淘金的比喻來理解。淘金的過程中，好的淘金者既需要篩入足夠多的沙土（保持探索的多樣性，不要只盯著某一塊地方），又需要能準確識別哪些閃光的顆粒是真金而不是黃鐵礦（識別哪些思路真的能通向正確答案）。IB-Score就是這樣一個雙重評分標準：它同時考察AI在當前這一步推理時的"多樣性"（類似於篩入的沙土夠不夠多樣）和"資訊增益"（類似於這一步思路實際上讓你多大程度上接近了正確答案）。

具體來說，IB-Score包含兩個相互配合的量。第一個量衡量的是"當前步驟的模型自信度"，也就是AI在這一步有多大概率會走這條路。第二個量衡量的是"如果已經知道正確答案，這條路被選中的概率會有多大"，換句話說，是這條路與正確答案的相關性有多強。IB-Score的高低，本質上取決於這兩個量的協同程度——如果AI把高自信度精準地分配給了那些真正有助於得出正確答案的路徑，IB-Score就會高；反之，如果AI對所有路徑的自信度差不多（過度探索），或者高自信度集中在了錯誤方向上（過度利用），IB-Score就會低。

贊助商廣告

這個設計有一個非常關鍵的特性：它不只是簡單地測量AI的"不確定性高不高"，而是要求AI的不確定性必須以有意義的方式分布。高熵（不確定性高）本身不是好事，只有當這種不確定性恰好集中在那些對解題有價值的分叉點上時，才真正有價值。這就解釋了為什麼單純增加熵不能提升性能——你篩了很多沙，但如果你對哪些閃光是真金毫無判斷力，篩得再多也是白費。

三、訓練"病歷報告"：IB-Score照出了什麼問題

有了IB-Score這把溫度計，研究團隊重新審視了現有訓練方法的真實狀態，結果發現了一些此前被忽視的關鍵規律。

他們用Qwen3-8B-Base這個模型做了一系列詳細的診斷實驗，追蹤訓練過程中IB-Score隨時間的變化趨勢。實驗結果呈現出一幅清晰的圖景：在訓練最開始的時候，模型本能地表現出一定的"智慧"——它的自信度分配是有傾向性的，更傾向於把高自信度給那些跟正確答案相關性高的路徑，也就是IB-Score中兩個核心量之間存在正向的協同關係。這說明模型在完全未經特殊訓練時，其實有一種自然的"直覺"，能初步區分好路徑和壞路徑。

然而，隨著GRPO訓練的推進，這種協同關係迅速崩潰。大約在訓練初期就急劇惡化，兩個量之間的關聯性趨近於零，意味著模型對每條路徑的自信度開始變得均勻，失去了原本的辨別能力。訓練有效率（也就是在同一批次里，那些AI的不同嘗試結果有差別、能提供真正學習信號的比例）也隨之持續下滑。這就是一個典型的"越練越僵"的過程。

加了熵正則化的版本，確實讓整體不確定性上去了，但IB-Score的走勢卻並沒有因此改善，兩個量的協同關係依然在下滑。這說明熵正則化治標不治本——它讓AI看起來更"開放"，但實際上並沒有幫助AI學會把開放性用在刀刃上。

更值得關注的是，研究團隊的分析揭示了一個深層規律：訓練過程中IB-Score保持相對穩定的模型，最終在測試中往往能達到更好的性能，而且訓練過程更平穩。這說明維持IB-Score的穩定，不是一個可有可無的錦上添花，而是指向訓練成功的一個關鍵信號。

贊助商廣告

四、IBTree：像培育一棵有策略的思維樹

意識到問題所在，研究團隊設計了一套新的訓練框架，核心組件是一種名為IBTree（資訊瓶頸引導樹搜索）的採樣策略。

在此之前，GRPO的做法是每次讓AI對一道題獨立地生成多個完整解答，就像讓多個學生各自從頭到尾獨立做一道題，然後比較誰做得好。這種方式有兩個明顯的浪費：首先，不同解答的開頭往往差不多，只是到了某個關鍵分叉點才開始走不同的路，如果每次都從頭生成，就白白重複了大量相同的推理過程；其次，這種"各自為戰"的策略無法利用已有的推理結果來指導接下來生成什麼，完全是盲目地撒網。

IBTree的設計思路完全不同，更像是精心規劃的一棵決策樹。每道題對應一棵樹，樹的根節點就是題目本身。訓練開始時，先從根節點出發生成幾條完整的解答路徑，得到樹的初始框架。然後，關鍵步驟來了：利用已有路徑中每個推理步驟的IB-Score，找出當前整棵樹中IB-Score最高的那個節點，也就是最值得進一步探索的思維分叉點，然後專門從這個節點出發再生成幾條新路徑。接著，更新所有節點的IB-Score，再次選出最值得探索的節點，繼續擴展。如此反覆疊代，直到生成足夠數量的路徑。

這個過程有一個自然的類比：當你在一個陌生城市開車找地方時，一個聰明的導航策略不是讓你同時走所有可能的路，而是先大致探索幾條主幹道，然後在那些"感覺路況最複雜、最可能藏著捷徑"的路口進行更細緻的勘察，而不是對每個路口都一視同仁。IBTree就是這樣的智能導航策略，它把有限的"探索預算"優先投入到最有價值的節點上。

這種設計帶來了一個顯著的效率提升：在相同的詞元預算（可以理解為相同的計算成本）下，IBTree能生成比獨立採樣多50%的有效路徑。具體來說，標準的獨立採樣每題生成8條完整解答，而IBTree能生成12條，但總消耗的詞元數量是一樣的。這是因為IBTree通過樹形結構實現了路徑前綴的共享——同一棵樹上不同分支的公共前綴只需要計算一次。

贊助商廣告

IBTree還有一個額外的好處：樹形結構天然地為IB-Score的計算提供了所需的資訊。計算每個節點的IB-Score，需要知道從這個節點出發繼續解題能有多大概率成功，而IBTree擴展過程中已經從每個節點生成了若干條路徑，這些路徑的成功率正好可以用來估算所需的概率，形成一個計算上的良性循環。

五、讓IB-Score變成訓練信號：局部優勢與全局優勢的協作

有了IBTree提供的豐富資訊，研究團隊進一步把IB-Score直接嵌入到訓練目標中，讓AI不只是被動地被測量，而是主動地被引導去提升自己的IB-Score。

原有的GRPO方法只使用了一種"全局優勢"作為訓練信號：某條完整解答路徑答對了就是好的，答錯了就是壞的，用這個來告訴AI哪些做法值得加強、哪些值得削弱。這種信號是粗粒度的——它只評價整體結果，無法告訴AI在哪一個具體推理步驟上走對了、哪一步走錯了。

IB-TPO在此基礎上增加了一種"局部優勢"，直接基於IB-Score來衡量每一步推理對整體推進的貢獻。具體來說，從某個父節點分出來的不同子節點（也就是下一步推理的不同選擇），可以通過比較它們各自後續解題成功率來判斷哪個子節點更值得走。如果從某個子節點出發，後續成功率明顯高於從父節點出發的平均成功率，那這個子節點就有正的局部優勢，應該被鼓勵；反之則應該被抑制。

這個局部優勢與全局優勢相結合，形成了一個層次分明的訓練信號體系：全局優勢告訴AI大方向有沒有走對，局部優勢則在此基礎上精確指出具體哪個推理步驟功不可沒、哪個步驟是彎路。兩者配合，遠比單獨使用任何一個更有效。通過一系列消融實驗（也就是系統地把各個組件逐一拆除，看缺了哪個部分性能下降最多的測試），研究團隊驗證了這個組合效果：單獨使用IBTree有一定提升，單獨使用IB-based局部優勢也有一定提升，而兩者結合才能達到最佳效果，而且IBTree不能被隨機樹或其他策略簡單替代。

贊助商廣告

六、實驗結果：數字背後的實際意義

研究團隊在多個不同規模的模型和多個不同類型的測試集上驗證了IB-TPO的效果。

訓練所用的基礎模型是阿里巴巴自研的Qwen3系列，分別使用了1.7億參數規模的Qwen3-1.7B-Base和80億參數規模的Qwen3-8B-Base。訓練數據是一個包含約1.7萬道具有挑戰性數學題的數據集DAPO-Math-17K。評測則覆蓋了多個標準測試集，包括MATH-500（一個包含500道競賽級數學題的綜合測試）、AIME 24/25（美國數學邀請賽題目）、AMC 23/24（美國數學競賽題目）以及兩個跨領域測試：考察科學推理能力的GPQA Diamond和考察指令遵循能力的IFEval。

在1.7B規模上，普通GRPO的整體得分為26.3%，而IB-TPO達到了29.2%，提升了2.9個百分點。在8B規模上，GRPO得分40.7%，IB-TPO達到44.3%，提升了3.6個百分點。這個提升不只體現在數學題上，在跨領域的科學推理和指令遵循上也有明顯進步，說明IB-TPO學到的能力有一定的泛化性，不只是針對數學題的專項優化。

與其他同類方法相比，IB-TPO同樣占據優勢。在8B規模上，GRPO加上裁剪閾值調整是41.0%，加上熵正則化是41.4%，IBRO（另一個把資訊瓶頸用於序列級正則化的方法）是41.6%，TreeRL（基於熵引導樹搜索的方法）是42.0%，TreePO（限制樹寬度的樹搜索方法）是41.6%，而IB-TPO是44.3%，超過了所有對比方法。

研究團隊還專門比較了通過pass@K（在K次嘗試中至少答對一次的概率）來衡量的探索能力，這個指標能直接反映AI的搜索空間是否被充分保持。結果顯示，IB-TPO在各個K值下都明顯領先，說明它不只是在單次回答準確率上做得更好，而是真正保持了更豐富的探索能力。

在採樣效率的詳細對比中，研究團隊測試了多種不同的樹採樣策略。隨機分支策略的有效率只有48.4%，固定寬度樹是59.4%，熵引導分支是57.8%，而IB-Score引導的IBTree在β=5時達到了60.2%，同時整體解題準確率也最高。這說明IBTree不只是在數量上勝出，在質量上也同樣領先。

贊助商廣告

研究團隊還測試了IB-TPO在更長上下文設置（4K和8K詞元限制）下的表現，以及在更大參數規模（140億參數的Qwen3-14B-Base）和不同任務領域（代碼生成任務、使用Llama 3.1-8B-Instruct模型）的表現，結果一致顯示IB-TPO的優勢能夠穩定保持，不因模型大小、上下文長度或任務類型而消失。

七、細節經得起推敲：各項設計都有據可查

任何新方法都需要證明自己的設計選擇不是隨意為之，研究團隊通過一系列嚴謹的消融實驗回答了幾個關鍵問題。

關於IB-Score中的權衡係數β，研究團隊測試了三個值：1.0、5.0和10.0。β=5時採樣有效率最高（60.2%）、整體準確率最高（23.2%），且詞元消耗最少（7592個），是三者中最優的組合，而β=10時性能有所下滑，說明這個參數並非越大越好，存在一個最優區間。

關於局部優勢權重λ，測試了0、0.05、0.1、0.5四個值。完全不使用局部優勢（λ=0）時性能最差，λ=0.1時達到最優，λ=0.5時性能明顯下滑。這說明局部優勢是一個有用但需要適度使用的補充信號，而不是越強越好。

研究團隊還專門測試了IB-TPO對步驟邊界噪聲的魯棒性。他們使用雙換行符來分隔思維步驟（這是一種簡單、無需額外訓練的自然分界方式），然後人工擾動10%的分界位置，把它們隨機移動到不該有分界的地方，模擬邊界劃分不準確的情況。結果顯示性能幾乎沒有變化，說明IB-TPO對步驟邊界的定義不敏感，實用性較強。

在運行效率方面，研究團隊也進行了透明的測量和討論。由於IBTree需要多輪疊代式擴展，並行度比直接生成多條獨立解答要低一些，單棵樹的運行時間會稍長。但當並行處理多棵樹（也就是同時處理多道題目）時，這個差距會隨並行度提高而迅速縮小。團隊還發現，通過讓不同樹的擴展過程異步進行，可以進一步減少等待時間，實現約15%的額外加速。在等效詞元預算下，IBTree（生成12條路徑）的運行時間只比獨立採樣（生成8條路徑）多約31%，但多出了50%的路徑數量，綜合效率是正向的。

贊助商廣告

歸根結底，這項研究做了一件聽起來簡單但實際上相當精妙的事情：它用一個同時衡量"多樣性"和"方向感"的評分指標，取代了原來只看"多樣性"本身的粗糙方法，並圍繞這個評分指標構建了一套完整的採樣與訓練體系。結果是，AI不再在"太死板"和"太散漫"之間來回搖擺，而是找到了一條兩者兼顧的穩定道路。

這個思路或許對所有需要在"保留可能性"和"聚焦最優解"之間做權衡的系統都有啟示意義——無論是AI訓練，還是現實中的決策過程。對希望深入了解技術細節的讀者，論文原文可通過arXiv編號2605.28109獲取。

Q&A

Q1：IB-Score和普通熵值有什麼區別，為什麼不直接用熵來衡量AI的探索狀態？

A：普通熵只衡量AI對各條推理路徑的自信度是否均勻，也就是"是不是夠不確定"。但均勻的不確定性並不等於有效的探索，AI可以對每條路徑同樣迷茫，但對哪條路更接近正確答案毫無感知。IB-Score在熵的基礎上引入了"資訊增益"維度，要求AI的高自信度必須精準集中在那些真正有助於解題的路徑上。實驗也印證了這一點：強行增加熵不能提升性能，有時反而導致AI生成大量無意義重複詞語，即"過度探索"。

Q2：IBTree採樣比普通獨立採樣更複雜，實際訓練速度會慢多少？

A：IBTree通過共享路徑前綴，能在相同詞元預算下多生成50%的路徑（從8條增加到12條）。單棵樹的單次運行時間確實略長，但當並行處理多棵樹時差距會快速縮小。研究團隊還發現，通過讓不同樹的擴展過程異步進行，可以減少約15%的等待時間。在等效詞元預算下，IBTree總體運行時間僅比獨立採樣多約31%，但路徑數量多了50%，綜合來看效率是正向的。

Q3：IB-TPO只適用於數學推理任務，還是可以用在其他類型的AI任務上？

A：研究團隊已在多個方向驗證了IB-TPO的泛化能力。除數學推理外，他們還在代碼生成任務（使用Llama 3.1-8B-Instruct模型，訓練數據來自可驗證的編程問題集）和指令遵循任務（IFEval測試集）上進行了測試，結果同樣顯示出明顯優勢。此外，在更大的140億參數模型和4K、8K更長上下文設置下，IB-TPO的提升效果同樣穩定保持，說明這套方法具備較強的通用性。

贊助商廣告