宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

上交大&阿里巴巴:AI大模型「想清楚」靠什麼?科學家找到了推理過程中的「資訊高速公路」

2026年06月17日 首頁 » 熱門科技

這項由上海交通大學、阿里巴巴集團和上海人工智慧實驗室聯合開展的研究,於2026年6月發表,論文編號為arXiv:2606.10646,有興趣深入了解的讀者可以通過該編號查詢完整論文。

**當AI答題時,它的"大腦"里在發生什麼?**

每當你向一個AI助手提出一道數學題,或者請它分析一段邏輯推理,它都會生成一長串文字作為答案。這串文字里,有的句子是真正的關鍵推理,有的則只是"嗯,我們來看看……"這樣的過渡話語。從外表看,這兩類文字毫無區別,AI系統在訓練時也往往把它們一視同仁——每個字、每個詞得到的"獎勵"或"懲罰"完全一樣。

這種"無差別待遇"帶來的問題就好比,你在培訓一個學生解數學題,無論他寫下的是關鍵的推導步驟,還是"已知條件如下"這樣的廢話開場白,你給出的分數比例是完全相同的。結果自然是學生不知道哪些步驟真正重要,訓練效率大打折扣。

研究團隊把這個問題稱為"token級別的信用分配難題"(token是AI處理文字的基本單位,可以理解為每一個字詞或標點)。他們提出的解決方案叫做**FlowTracer**——一個通過追蹤AI內部"資訊流動路徑"來判斷哪些詞彙真正關鍵的框架。簡單說,FlowTracer要做的事情,是在AI的推理過程中找到那條貫穿始終的"資訊高速公路",然後只對走在這條高速公路上的"關鍵站點"加大訓練力度。

**一、為什麼AI訓練會陷入"一視同仁"的困境**

要理解這個問題,先得了解現代AI是如何通過強化學習來提升推理能力的。

強化學習的邏輯其實很直白:讓AI做一道題,如果最終答案對了,就給整個回答過程中的所有詞語都加一點"正分";如果答錯了,就全部扣分。這就像老師批改作文,不管哪句話寫得好不好,只要整篇文章及格了,就給每個字都打同等分數。

問題在於,一篇幾百詞的推理回答里,真正決定成敗的關鍵步驟可能只有寥寥幾處,大量的文字是引導性語言、格式性描述或者是"因此我們知道……"這樣連接性的過渡詞。當AI系統對全部詞語一視同仁地獎懲時,真正的關鍵步驟被"稀釋"了,訓練信號變得模糊。

已有一些研究者嘗試用啟發式方法來區分重要詞語和普通詞語,比如看某個詞的預測"不確定程度"(熵值)是否高,或者看它的注意力分數是否顯眼。但這些方法本質上都是在看單個詞的孤立特徵,就像你判斷一個人在討論中有沒有發言權,只看他說話時的音量,而完全不考慮他說的話有沒有被後續討論所引用和延伸。

研究團隊的核心洞察是:真正重要的詞語,不僅自身要在"對的位置",還要作為資訊的**中轉樞紐**,把上文的關鍵資訊傳遞給下文,最終影響到答案。這是一種全局性的、多跳式的影響,而非單點的顯著性。

**二、把AI的推理過程想像成一張"水管網路"**

FlowTracer的核心思路,可以用一個水管網路的比喻來理解。

每當AI生成一段推理文字,每個詞語就像一根水管上的節點。AI在生成每個詞語時,會"注意"到前面哪些詞語(這就是著名的"注意力機制",Attention),注意力越高,說明兩個詞語之間的"水管管徑"越粗,資訊流動越通暢。研究團隊把這個注意力關係整理成了一張有向圖:圖里每個節點是一個詞語,每條有向邊從被"注意"的詞語指向"注意它"的詞語,邊的粗細代表注意力的強弱。

但有一個麻煩:原始的注意力數據存在兩個致命缺陷。

第一個缺陷是"流量守恆"被破壞。在真實水管網路里,一條管道流入多少水,流出的水量總和也應該是多少——這叫流量守恆。但在注意力圖裡,一個詞語"被注意"的總量是固定的(因為注意力權重歸一化為1),但它"主動注意別人"的總量卻不一定等於1。如果一個詞語被很多人注意,它的"出口流量"就會被放大;如果被忽視,則會萎縮。這導致單純用注意力傳播資訊時,位置靠後的詞語會因為"積累了太多上游流量"而顯得異常重要,早期的關鍵詞則可能因路徑太長而被稀釋。

第二個缺陷是"無關支路太多"。在AI的推理文字里,有大量詞語根本不對最終答案有貢獻,但它們之間仍然存在注意力連接。如果把所有注意力關係都納入計算,大量的"資訊流"會流向這些死胡同,就像水管網路里有很多通向廢棄管道的支路,白白耗散了流量。

**三、"答案導向"的水流淨化:Doob變換的妙用**

為了解決這兩個問題,研究團隊引入了一種叫做"Doob-h變換"的數學工具。這個名字聽起來很學術,但背後的邏輯其實相當直觀。

研究團隊先定義了一個"答案區域",也就是AI回答中最終給出答案的那幾個詞語(比如數學題答案、選擇題選項等)。然後他們為每一個詞語計算一個"可達性"分數,衡量的是:如果資訊從這個詞語出發,按照注意力關係向前傳播,最終有多少比例能夠抵達答案區域?這個分數被記為h(i)。

直覺上,一個詞語如果位於"通往答案"的主幹道上,它的h值就高;如果它處於一條無關的支路,注意力流動最終無法到達答案,它的h值就接近零。

接著,研究團隊對所有注意力邊進行了"重新標定":把原來的邊權重乘以下游詞語的h值,再除以當前詞語的h值。這個操作有一個精妙的後果——數學上可以嚴格證明,經過這個變換之後,每個詞語的"出口流量總和"恰好等於1。也就是說,流量守恆自動恢復了,同時所有通向死胡同的支路(h值接近零的路徑)也被自動壓制到接近零。一張嘈雜的注意力圖,就這樣被淨化成了一張乾淨的、專門為答案服務的資訊流網路。

研究團隊在論文中給出了這一性質的嚴格數學證明(定理3.1),核心推導其實只需要一步代入,簡潔而有力。

**四、從"問題"注入水流,找出關鍵樞紐**

經過上述淨化之後,下一步就是找出哪些詞語是資訊傳遞的關鍵樞紐。

研究團隊設置了一個虛擬的"超級源頭",把等量的資訊流注入問題區域的每一個詞語(即AI輸入的題目或問題)。然後讓這些資訊流順著淨化後的網路向前傳播,每到達一個中間詞語就記錄下經過該詞語的流量。最後,還設置了一個"超級匯點",連接在答案區域,收集所有流量。

每個詞語的"吞吐量"——也就是流經它的資訊總量——就是它的重要性得分。吞吐量高的詞語,意味著大量來自問題的資訊通過它匯聚、中轉,然後繼續向答案傳遞。這些詞語就是研究團隊所說的"推理骨幹"上的關鍵節點。

值得注意的是,吞吐量的計算方式考慮了一個詞語的"流入量"加上它向後續詞語傳出的"邊流量"之和,確保資訊在每一步的傳遞都被完整記錄,不遺漏任何中轉角色。

**五、用實驗驗證:關鍵節點真的關鍵嗎?**

有了這套理論,研究團隊在實際數據上進行了驗證。他們使用阿里巴巴開源的Qwen3-4B基礎模型,在GSM8K(一個小學數學應用題數據集)上分析了資訊流的分布特徵。

觀察結果相當有意思。高吞吐量的詞語,在詞雲分析中主要呈現為兩類:一類是結構性的分隔符,比如標點符號、換行符;另一類是數學推理中的"符號錨點",比如反覆出現的變量名、運算符。這些詞語周期性地出現在推理文字的關鍵節點處,每隔一段就"匯聚"一次前面的資訊,然後向後"廣播"。反觀低吞吐量的詞語,則主要是名詞、動詞這類語義豐富但功能性較弱的詞彙,它們讓句子讀起來通順,但對資訊傳遞的貢獻有限。

這個發現揭示了一個有趣的規律:AI的推理過程在某種意義上自發地把"生成邏輯"(高流量詞語)和"維持流暢"(低流量詞語)分離開來了。

為了驗證這些高流量詞語確實是"因果性的"關鍵節點,而不僅僅是統計上的顯著,研究團隊做了一個干預實驗:在GSM8K的500個樣本上,選取20%的詞語,分別對高流量、低流量和隨機選取的詞語進行"隱藏"——即在重新生成時,阻斷這些詞語位置上的資訊傳遞,然後重新生成答案,看看答案會有多大變化。

結果非常清晰。隱藏高流量詞語時,答案變化率高達45.9%,正確率逆轉率(原來對變成錯)達到14.9%;隱藏低流量詞語時,答案變化率僅14.9%,正確率逆轉率只有0.5%;隨機隱藏介於兩者之間。這組數據有力地說明,高流量詞語不是表面上顯眼,而是真正承擔著推理過程中的資訊中轉職責。

**六、把"流量地圖"用於AI強化訓練**

有了每個詞語的吞吐量得分,研究團隊接下來把它用於強化學習訓練。

當前主流的AI強化訓練方法叫做GRPO(組相對策略優化),它的基本邏輯是:讓AI生成多個回答,對比哪些回答更好,然後對好的回答里的每個詞語給正向激勵,差的回答里的詞語給負向抑制。標準GRPO對每個詞語給予相同的"權重",即每個詞語的激勵力度完全一致。

FlowTracer的改動非常簡單但有效:在GRPO的損失函數中,對高流量詞語(選取吞吐量排名前40%的詞語)的激勵係數乘以1.5,其餘詞語保持係數為1。也就是說,高流量詞語得到更強的"鼓勵或懲罰",促使模型更努力地優化這些真正關鍵的推理步驟,而不是把精力均攤到那些無關緊要的填充詞上。

實現上,這個操作只需要在AI採樣生成回答之後、正式更新參數之前,額外做一次前向傳播,提取中間層(約模型總層數的三分之一到三分之二處)的注意力圖,計算流量,標記高流量詞語,然後在訓練時調整相應權重。這個額外的計算開銷極小,在1K上下文長度下只增加約2.2%的時間,8K上下文下約增加4.5%,完全可以接受。

**七、實驗結果:在多個任務上全面勝出**

研究團隊在多個任務和多種模型上進行了系統驗證,結果顯示FlowTracer相比基線方法有穩定提升。

在數學推理任務上,以Qwen3-8B為骨幹模型,FlowTracer在1K上下文長度下的平均準確率達到43.4%,而標準GRPO只有39.4%,提升了4.0個百分點。在最難的競賽級數學題(AIME2024)上,FlowTracer達到13.0%,GRPO只有9.3%。與此同時,FlowTracer也超越了其他五種基線方法:隨機選詞、高熵值選詞、梯度大小選詞、相關性選詞,以及原始注意力分數選詞,且優勢較為穩定。

更值得關注的是長上下文場景。當回答長度從1K擴展到8K時,標準GRPO受益於更長的推理鏈,但FlowTracer的提升幅度更大。以Qwen3-4B為例,在1K下FlowTracer比GRPO平均高2.2個百分點,在8K下擴大到3.8個百分點。在AIME2025這道題上,8K設置下FlowTracer相對GRPO的增益達到驚人的5.8個百分點。這說明隨著推理鏈變長,精準的信用分配變得愈發關鍵,而FlowTracer的優勢也更加凸顯。

在數學之外的任務上,FlowTracer同樣表現出色。在"Countdown"任務(給定4個數字,用四則運算湊出目標數)上,FlowTracer比GRPO高出10.6個百分點,比注意力方法高出2.8個百分點,顯示出在組合規劃類任務中,結構化的資訊追蹤尤為重要。在"CrossThinkQA"(跨領域多選題)上,FlowTracer也穩定高於其他方法2.2個百分點。

研究團隊還在不同的模型架構上進行了測試,包括Llama-3.1-8B和Llama-3.2-3B,結果顯示FlowTracer的優勢在這兩種架構上同樣存在,排除了結果依賴特定模型設計的可能性。

**八、細節打磨:為什麼是"前40%"而不是連續分值?**

研究團隊在論文中詳細分析了一些設計選擇的合理性,這些細節值得單獨介紹。

首先是為什麼用"離散的Top-40%硬門檻",而不是把每個詞語的流量值直接當作連續權重。原因在於,AI推理中的流量分布高度偏斜:極少數詞語承擔了絕大多數的流量,大量詞語的流量值接近零。如果直接用原始流量值作為權重,少數極端高流量詞語會得到壓倒性的權重,導致訓練不穩定;即使經過Sigmoid、Log變換等歸一化處理,性能也不如硬門檻好。研究團隊嘗試了多種連續權重方案,均劣於Top-40%的硬門檻策略。這個規律說明:流量分數作為**排名信號**是可靠的,但作為**校準過的連續權重**則噪聲太大。

其次是選多少比例的詞語。實驗顯示,Top-20%覆蓋的骨幹節點太少,增益有限;Top-60%引入了過多噪聲詞語,反而稀釋了信號。Top-40%在信號密度和覆蓋範圍之間取得了最佳平衡。

再次是權重係數γ的選擇。係數為1.5時效果最佳,過小(如0.5)則區分度不夠,過大(如2.0、3.0)則訓練崩潰,說明適度強調關鍵詞語有益,但過度放大則有害。

最後是提取哪些層的注意力。實驗發現,使用Transformer中間層(約從總層數的三分之一到三分之二)的注意力效果最佳,早期層(偏向句法處理)和晚期層(偏向輸出生成)的注意力反而會引入噪聲。只使用中間層的注意力,推理骨幹的信號最為清晰。

**九、一些值得思考的局限性**

研究團隊在論文中坦誠地指出了FlowTracer的幾個局限,這體現了科學研究應有的嚴謹態度。

FlowTracer目前需要預先定義一個明確的"答案區域"——即推理文字中哪一段是最終答案。對於數學題這類結構清晰的任務,oxed{}這樣的格式標記可以精準定位答案區域。但對於開放式對話、工具調用軌跡等場景,答案區域的邊界模糊,需要更靈活的定義方式。

此外,FlowTracer依賴"答案是否正確"這一結果信號來區分好壞推理路徑。但有時候,某條推理路徑局部看起來合理,卻導向了錯誤答案;另一條路徑整體邏輯有瑕疵,卻碰巧得到正確答案。在這些情況下,FlowTracer無法完全替代"過程監督"類方法(即對每一步推理的對錯單獨評分)。兩者是互補而非互斥的關係。

最後,對於超長上下文(16K、24K甚至更長),注意力圖的噪聲會更大,FlowTracer的效果有待進一步研究和優化。

說到底,FlowTracer解決的是一個看似簡單實則微妙的問題:在AI生成的一長串推理文字中,哪些詞語真正在"思考",哪些只是在"說話"?通過把AI的注意力關係轉化為一張可計算的資訊流網路,並用答案導向的方式淨化這張網路,研究團隊找到了一種比以往方法更全局、更結構化的信用分配方式。實驗證明,這種方式能讓AI的強化訓練更有針對性,在多種任務上帶來穩定的性能提升,尤其在長鏈推理場景下優勢更為突出。

這項研究的另一層意義在於,它表明AI模型的內部注意力結構不僅僅是一種可解釋性工具,還可以作為改善訓練過程的實用信號。AI的"內部幾何"蘊含著比我們通常假設的更多有價值的資訊。有興趣深入了解技術細節的讀者,可以通過論文編號arXiv:2606.10646查閱完整論文。

---

Q&A

Q1:FlowTracer是如何判斷哪些詞語在AI推理中更重要的?

A:FlowTracer將AI生成文字時的注意力權重構建成一張有向圖,然後通過一種叫"Doob-h變換"的數學工具對這張圖進行淨化,只保留能影響最終答案的資訊路徑,同時修複流量不守恆的問題。淨化後,從問題區域注入資訊流,流經某個詞語的資訊量越大,說明該詞語是資訊傳遞的關鍵樞紐,重要性越高。

Q2:FlowTracer訓練AI時具體改了什麼?

A:FlowTracer在標準GRPO強化訓練流程中,對流量排名前40%的高吞吐量詞語,將其訓練激勵係數從1提升到1.5,其餘詞語保持不變。這意味著那些真正關鍵的推理步驟在訓練時會得到更強的正向或負向反饋,而無關緊要的填充詞得到的訓練信號則相對較弱,讓模型更專注於優化真正重要的推理步驟。

Q3:FlowTracer在計算上的額外開銷有多大?

A:FlowTracer在AI採樣生成回答後,額外做一次批量前向傳播來提取中間層注意力圖,計算流量分數。實測在1K上下文長度下額外時間開銷約為2.2%,8K上下文下約為4.5%,相比整個訓練步驟的時間可以忽略不計。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新