宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

強化學習存在推理效率問題,阿里千問團隊發明推理二八法則,解決AI選擇困難症

2025年06月05日 首頁 » 熱門科技

還記得電影《潘神的迷宮》中,在殘酷現實與奇詭幻境間穿梭的奧菲利婭嗎?

她必須在一座神秘的迷宮中完成潘神交付的三個艱難考驗,每一個選擇都像是在幽暗森林中辨認正確的岔路,稍有不慎便可能迷失方向,甚至付出沉重的代價。

奧菲利婭的旅程,充滿了未知、抉擇與對關鍵路徑的依賴。

強化學習存在推理效率問題,阿里千問團隊發明推理二八法則,解決AI選擇困難症

AI在解決複雜問題,比如解開一道棘手的數學題時,模型內部的思考過程,在某種程度上也像是在探索一座布滿岔路的潘神迷宮。

AI的思考過程並非簡單地沿著一條預設的直線奔向答案,而是在無數可能的思維路徑中不斷做出選擇。那麼,它是如何在這座錯綜複雜的迷宮中找到正確出口的呢?它是依賴於對每一條小徑都進行地毯式搜索,還是也像奧菲利婭一樣,能夠敏銳地識別出那些決定成敗的關鍵岔路口?

強化學習存在推理效率問題,阿里千問團隊發明推理二八法則,解決AI選擇困難症

2025年6月2日,阿里巴巴Qwen團隊揭示了AI在這座思維迷宮中導航的秘密,並發布論文《超越二八法則:高熵少數詞元驅動大語言模型推理的有效強化學習》。

這項研究發現,AI在它的思考旅程中,大部分時候可能只是沿著較為平坦、明確的道路前進,也就是低不確定性的思考步驟。然而,在某些至關重要的岔路口,或者說高不確定性的決策點,AI會展現出非凡的判斷力。

這些少數的岔路口,正是研究者們關注的焦點,他們將其稱為高熵詞元(high-entropy tokens),也就是那些讓AI感到選擇困難,但又必須做出關鍵抉擇的詞語或符號。意外的是,如果訓練AI時,我們引導它重點關注這些大約占思考過程20%的岔路口詞元,AI的推理能力不僅不會受損,反而可能比全面關注所有步驟時表現得更加出色,尤其是在那些更大型、更複雜的AI模型上!這仿佛是說,AI在自己的潘神迷宮中,學會了通過聚焦少數關鍵路徑點,更高效地找到通往智慧的出口。

AI思考的岔路口在哪裡?解密詞元熵的秘密

首先,讓我們聊聊AI在思考時,是如何一步步吐出答案的。這個過程,在學術上被稱為思維鏈(CoT)。就像我們解數學題時,會在草稿紙上列出詳細的步驟一樣,AI也會生成一步步的推理過程。研究者們發現,在AI生成的這些思維鏈中,並不是每個詞元(token)都具有相同的重要性。

他們引入了一個叫做詞元熵(token entropy)的概念。你可以把熵理解為不確定性或資訊量。當AI對於下一個要生成的詞元非常確定時,比如在寫一句很常見的話,或者一個數學公式的固定部分,這時生成的詞元就是低熵的,就像是沿著一條筆直的大路前進,毫不費力。

但當AI面臨一個關鍵的決策點,比如需要選擇下一步的推理方向,或者引入一個新的條件時,它對下一個詞元的選擇就會有很多可能性,這時生成的詞元就是高熵的。這就像走到了一個複雜的岔路口,需要停下來思考往哪裡走。

通過對大量AI生成的推理文本進行分析,研究者們發現了一個有意思的現象:在AI的思考過程中,絕大多數詞元都是低熵的,它們主要負責完成句子結構、補充細節,就像是鋪路石,讓整個推理過程顯得流暢自然。而只有一小部分詞元是高熵的,這些高熵詞元往往扮演著導航員的角色,它們是邏輯轉折點,是決定推理方向的關鍵岔路口(研究者們稱之為分叉詞元,forking tokens)。比如,在數學推導中,「假設」、「因為」、「所以」、「然而」這類詞,或者在選擇解題策略的開端,往往就是這些高熵的分叉詞元。

為了驗證這個想法,研究團隊做了一個巧妙的實驗。他們人為地調整了AI在生成這些分叉詞元時的不確定性(通過調整溫度參數)。結果發現,如果適度增加這些關鍵岔路口詞元的不確定性,讓AI在這些點上更有探索欲,AI的解題表現反而會提升。相反,如果強行降低這些詞元的不確定性,讓AI在關鍵路口不敢嘗試,那麼它的表現就會變差。這進一步證明了這些少數的高熵分叉詞元對於AI推理的重要性,它們就像是推理路徑上的燈塔,指引著AI走向正確的答案。

AI如何學習走好這些岔路口?強化學習的奧秘

了解了岔路口詞元的重要性後,下一個問題是,AI是如何學會更好地在這些關鍵點上做決策的呢?這裡就要提到叫「帶可驗證獎勵的強化學習」(Reinforcement Learning with Verifiable Rewards, RLVR)的訓練方法。簡單來說,這種方法就像是給AI請了一位嚴格的考官。AI每解完一道題,考官就會根據答案是否正確來給出獎勵或懲罰。通過不斷地試錯和獲取反饋,AI就能逐漸學會如何做出更優的推理。

研究者們進一步觀察了在使用RLVR方法訓練AI的過程中,詞元熵是如何變化的。他們發現,即使用了強化學習,AI大腦中固有的哪些詞元是岔路口,哪些詞元是尋常路的模式,並不會發生翻天覆地的改變。也就是說,AI在學習過程中,很大程度上還是會遵循它最初對路況的判斷。強化學習的主要作用,更像是對那些本身就很重要的岔路口詞元進行重點打磨,讓AI在這些關鍵點上的決策更加精準和有效。而對於那些普通的低熵詞元,它們的變化則相對較小,就像是路面被稍稍修繕了一下,但基本走向不變。這就好比一位經驗豐富的嚮導在學習新路線時,他會重點關注那些容易迷路的複雜岔路,而不是在平坦大道上花費過多精力。

驚人的發現:少即是多的AI訓練法

基於以上發現,研究團隊提出了一個大膽的想法:既然這些少數的高熵分叉詞元如此重要,那麼在訓練AI時,我們能不能只關注它們,而忽略掉大部分低熵的跟隨詞元呢?就像教學生解題,不是讓他把每個字都背下來,而是讓他重點掌握解題思路和關鍵步驟。

強化學習存在推理效率問題,阿里千問團隊發明推理二八法則,解決AI選擇困難症

於是,他們設計了一種新的訓練策略:在強化學習過程中,只對那些被識別為高熵的20%岔路詞元的決策進行調整和優化,而對其餘80%的尋常路詞元則放任不管。

強化學習存在推理效率問題,阿里千問團隊發明推理二八法則,解決AI選擇困難症

實驗結果很好,以Qwen3-8B這個模型為例,採用這種只關注20%的訓練方法,其推理表現與訓練所有詞元的傳統方法相當。而在更強大的Qwen3-14B和Qwen3-32B模型上,這種少即是多的方法甚至取得了顯著的超越!例如,在Qwen3-32B模型上,針對AIME'25(一項數學競賽測試)的準確率提升了高達11.04個百分點,AIME'24的準確率也提升了7.71個百分點。這充分說明,AI推理能力的提升,主要來自於對那些決定推理方向的關鍵岔路口詞元的優化。

相反,如果只訓練那80%的低熵尋常路詞元,AI的推理能力則會大幅下降。這就像只讓學生練習寫字,而不教他們思考方法,成績自然不會好。這些結果有力地證明了,高效率的AI強化學習,關鍵在於抓住那些少數但至關重要的高熵分叉詞元。這種發現甚至超越了我們常說的二八法則,因為在這裡,僅僅20%的努力(只訓練20%的詞元)就帶來了100%甚至超過100%的回報!

研究者還發現,這種只挑重點訓練的方法,其優勢會隨著AI模型規模的增大而更加明顯。也就是說,對於那些腦容量更大的AI,讓它們專注於岔路口的思考,效果會更好。這可能是因為大模型有更強的能力去理解和利用這些關鍵決策點帶來的靈活性和探索空間。

為什麼抓住少數反而更有效?探索與穩定的平衡

為什麼只訓練少數高熵詞元就能取得如此好的效果呢?研究者們認為,這可能與強化學習中的探索(exploration)和利用(exploitation)之間的平衡有關。

想像一下AI在解題,它既需要利用已有的知識(利用),也需要嘗試新的思路(探索)。高熵的岔路口詞元天然就代表著探索的可能性,因為它們對應著模型不太確定的多種選擇。當我們只關注這些高熵詞元進行訓練時,實際上是在鼓勵模型在這些關鍵的決策點上進行更有效的探索。

研究團隊通過實驗觀察到,保留大約20%最高熵的詞元進行訓練,似乎能在探索和訓練穩定性之間達到一個最佳的平衡點。如果保留的比例太少(比如10%),可能會漏掉一些有用的岔路口,導致探索不足。如果保留的比例太多(比如50%或100%,即包含了許多低熵詞元),則可能會因為過多地關注那些尋常路,反而限制了在真正關鍵點上的探索效率,使得整體的探索信號被稀釋了。就好比尋寶,我們應該把精力集中在那些最有可能藏有寶藏的地點,而不是在每一寸土地上都平均用力。

有趣的是,當只訓練那80%的低熵詞元時,模型的整體熵值(不確定性)顯著降低,這表明模型幾乎放棄了探索,這也是其性能大幅下降的原因。因此,通過精確地聚焦於高熵的少數派詞元,AI似乎能更有效地進行探索,從而找到通往正確答案的更優路徑。

這對我們意味著什麼?AI訓練的新啟示

這項研究不僅僅是推理訓練技術上的突破,它還為我們理解和訓練AI提供了新的視角。

首先,它或許能解釋為什麼強化學習訓練出的模型往往比監督學習(SFT,即直接餵給模型標準答案讓它模仿)訓練出的模型具有更好的泛化能力(即在新問題上的表現更好)。研究者推測,強化學習通過關注和調整這些高熵的岔路口詞元,保留了AI在推理路徑上的靈活性和探索性。而監督學習則傾向於讓模型死記硬背標準答案,可能會壓低這些關鍵岔路口的熵,使得推理路徑變得僵化,難以適應新的、未見過的問題。

其次,這項研究也揭示了語言模型思考與傳統強化學習任務(比如下棋、玩遊戲)的一個重要區別。傳統的強化學習任務中,每一步行動的不確定性可能都差不多。但語言模型在生成思考鏈時,由於它預先學習了大量的語言知識,並且需要生成流暢易懂的文本,所以大部分詞元都是低熵的、高度確定的,只有少數詞元是高熵的、需要探索的。這也解釋了為什麼AI的熵模式在訓練後依然能保持相對穩定。

此外,研究還對AI訓練中一種常用的技巧——熵獎勵(entropy bonus)提出了新的看法。熵獎勵通常被用來鼓勵AI進行更多的探索。但如果對所有詞元都施加熵獎勵,可能會無差別地提升那些本應保持低熵的尋常路詞元的熵,反而可能干擾正常的語言生成,導致性能下降。論文中提到的clip-higher機制,則能更精準地作用於那些高熵的岔路口詞元,鼓勵它們進行探索,同時不過多影響低熵詞元,這或許是一種更適合語言模型推理任務的探索增強方法。

研究團隊還測試了這種只關注少數高熵詞元的訓練方法在不同類型任務上的表現。他們發現,即使訓練數據主要是數學題,用這種方法訓練出來的模型,在代碼生成這類跨界任務上,依然能比傳統方法表現更好。這暗示著高熵詞元可能與AI的通用推理和泛化能力緊密相關。甚至,通過延長模型允許生成的思考步驟長度,這種方法的潛力還能得到進一步的釋放,取得更好的成績。

當然,研究者們也坦誠地指出了當前工作的一些局限性,比如實驗主要集中在Qwen系列模型上,未來需要在更多不同類型的模型和更廣泛的任務領域(如編程、更複雜的邏輯推理)上進行驗證。觀察到的最佳少數派比例(如20%)也可能因具體的模型和任務而異,需要靈活調整。

結論:AI學會抓重點,未來可期

說到底,這項研究就像是為我們揭示了AI在解決複雜問題時的一個小竅門:它們並非對每一個細節都平均用力,而是懂得在關鍵的岔路口集中智慧。通過識別並重點關注那些充滿不確定性但又至關重要的高熵少數詞元,我們不僅能更深入地理解AI的思考機制,還能找到更高效的訓練方法。

這不僅僅意味著我們可以用更少的計算資源訓練出更聰明的AI,更重要的是,它為我們打開了一扇新的大門,去探索如何讓AI學會更靈活、更具創造性地思考。未來,這些發現可能會啟發更多針對性的AI算法,不僅用於強化學習,還可能影響監督學習、知識蒸餾、甚至是多模態AI的訓練方式。

想像一下,如果AI能夠像經驗豐富的偵探一樣,迅速鎖定案件的關鍵線索(高熵詞元),而不是在無關緊要的細節上浪費時間,那麼它們解決問題的能力將會提升到怎樣的高度呢?

如果你對這項工作的技術細節或者更深入的討論感興趣,不妨去閱讀他們的原始論文或者訪問他們的項目主頁。

項目主頁:https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr

論文地址:https://arxiv.org/abs/2506.01939

END

本文來自至頂AI實驗室,一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。

Q:AI推理的關鍵點到底是什麼?

A:AI推理的關鍵點在于思維鏈中的"高熵詞元"(high-entropy tokens),即那些讓AI感到選擇困難的決策點。這些詞元類似思維迷宮中的岔路口,決定了推理方向,占整個思考過程的約20%。

Q:為什麼只訓練20%的高熵詞元反而效果更好?

A:研究發現,高熵詞元是AI推理的關鍵岔路口,專注於這些詞元的強化學習能更高效優化決策質量。實驗顯示,僅訓練Qwen3-32B模型的20%高熵詞元,其數學競賽準確率提升11.04%,遠超傳統全詞元訓練方法。

Q:AI二八法則對實際應用有什麼幫助?

A:該技術可提升AI在複雜任務(如數學題、代碼生成)中的推理效率和泛化能力。例如,通過精準優化關鍵決策點,AI能更快適應新問題,減少無效計算,未來或應用於多模態模型訓練及自動化推理系統優化。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新