當AI只能看到「最終成績」卻看不到「過程分」，還能學會做決策嗎？——威斯康星大學麥迪遜分校最新研究揭示軌跡級監督信號的統計極限

這項由威斯康星大學麥迪遜分校領導的研究於2026年6月發表，論文編號為arXiv:2606.18531v1，歸類於統計機器學習領域（stat.ML）。有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。

贊助商廣告

想像一下這樣一個場景：你是一位圍棋教練，手邊有大量歷史棋局的錄像，但每盤棋只有"最終勝負"這一條記錄，沒有任何"第幾手走得好、第幾手犯了錯"的逐步點評。你能從這些數據中教出一個優秀的AI棋手嗎？這個看似簡單的問題，實際上觸及了人工智慧訓練中一個極其基礎卻長期被忽視的核心難題。威斯康星大學麥迪遜分校的研究團隊正是圍繞這個問題展開了深入的理論探索，他們想弄清楚：當我們只能看到"最終結果"而看不到"每一步的得分"時，機器學習算法到底要付出多大的代價，又在哪些情況下會徹底無能為力。

研究團隊選擇了"離線強化學習"這個框架作為研究舞台。離線強化學習可以理解為：機器不能自己去和環境互動探索，只能靠一堆別人留下來的"歷史記錄"學習如何做決策。這就好比一個廚師學徒沒有機會親自下廚練習，只能翻看前輩留下的菜譜和顧客評價單子，然後靠這些資料學會烹飪。在傳統設定里，這份"歷史記錄"非常詳盡，每一道菜的每一個步驟都有評分——這塊肉切得幾分、火候控制幾分、調料比例幾分。然而現實中的數據往往沒那麼好心，很多時候記錄里只有一句話："顧客滿意"或"顧客不滿意"，其他什麼都沒有。研究團隊把這種只有最終結果的反饋稱為"軌跡級監督信號"，並圍繞它建立起了一套完整的統計理論。

一、從"每步評分"到"只看結果"——損失了多少資訊？

先從最基本的問題入手：當我們把每一步的獎勵信號壓縮成一個軌跡末尾的總分時，究竟損失了多少學習所需的資訊？研究團隊為此提出了一個名為OPAC的算法——"基於結果的悲觀式行動者-評判者算法"。這個名字聽起來有點繞，但核心思想可以用廚師的比喻來理解。

贊助商廣告

OPAC的工作方式像是一位擁有"反向工程"天賦的廚師學徒。他拿到的只是顧客對整道菜的總體評分，但他會在腦子裡構建一個模型，猜測每個步驟可能貢獻了多少分——這叫"潛在獎勵模型"。同時，他會用一種非常謹慎的態度評估自己還沒嘗試過的做法，對那些歷史記錄里很少出現的烹飪方式保持懷疑和保守——這就是"悲觀主義"原則，專門用來應對離線學習中"數據覆蓋不全"的問題。

理論上，研究團隊證明了OPAC算法能夠保證：學到的策略與最優策略之間的差距，以數學符號表示大約是H?乘以覆蓋係數Csa(π*)除以樣本量n的平方根，其中H是決策的步驟數，覆蓋係數反映了歷史數據對目標策略的覆蓋程度。用大白話翻譯：如果你想讓誤差縮小到ε以內，大約需要收集H?乘以覆蓋係數再除以ε?條軌跡數據。

這個結論的關鍵之處在於與"每步都有獎勵"的情形相比較。麻省理工等機構之前的研究表明，如果每走一步都能收到反饋，學到ε精度的策略只需要H?/ε?條軌跡。而在只有最終結果的情況下，這個數字變成了H?/ε?。多了整整一個H的因子。研究團隊不僅給出了這個上界，還證明了這個H?/ε?是不可避免的下界——他們構造了一個非常"硬"的反例：只有兩種行動選擇、完全確定性的狀態轉移（也就是沒有任何隨機性）、數據覆蓋也很充分，但任何算法都無法繞開這個代價。這意味著那多出來的一個H完全是由"把H步獎勵壓縮成一個數字"這件事本身造成的，和探索難度、狀態轉移的隨機性、數據覆蓋都沒有關係。

二、更弱的信號——人類的"偏好比較"同樣可行

現實中，數據往往比"總分"還要更不精確。以人工智慧對齊領域最常見的場景為例：人類評估者不會給出具體分數，而只會比較兩條對話或兩段文本，告訴你"這個比那個好"。這種"偏好比較"是比數值標籤更粗糙、更難利用的資訊。

研究團隊把OPAC的框架擴展到了這種偏好反饋的設定。他們假設偏好的產生遵循一種標準模型——Bradley-Terry-Luce模型，簡單來說就是：兩條軌跡的相對好壞概率，由它們累積獎勵之差按照一條S形曲線決定，就像體育比賽中用積分差預測勝負概率一樣。

贊助商廣告

在這個設定下，算法只需要把原來的"對總分做回歸"換成"對偏好標籤做邏輯回歸"，其餘流程保持不變。理論結果令人驚喜：保證的誤差界雖然多了幾個與偏好模型本身相關的常數，但H?乘以覆蓋係數除以n的平方根這一核心結構完全保留下來。換句話說，對於"優化累積獎勵"這個目標而言，經過精心校準的偏好比較信號並不比精確的數值標籤更難用——只要偏好信號足夠可靠，同樣的悲觀式行動者-評判者機制就能把工作做好。這對很多依賴人類反饋訓練大模型的場景來說是一個相當有力的理論支撐。

三、當"最終結果"本身就是目標——非線性軌跡標準的統計陷阱

前兩部分探討的都是同一個目標：優化累積獎勵，只是觀測手段不同。但研究團隊還研究了一個更深層的問題：如果優化目標本身就是某種非線性的軌跡函數，而不是簡單的步步相加，會發生什麼？

這個問題來自很多真實場景。以醫療決策為例，醫生關心的可能不是"每天的病情改善分數之和"，而是"最終患者是否康復"——一個非線性的成功/失敗標準。以數學解題機器人為例，目標可能是"每一步推導都正確"的全程正確率，而不是每步得分的累積。以圍棋為例，勝負本身就是一個非線性的結果，和每步棋的"質量之和"未必成正比。

研究團隊把這類問題統一建模為"廣義目標離線強化學習"。形式上，他們引入了一個已知的聚合函數σ，把每步的潛在獎勵r?, r?, ..., rH通過σ組合成軌跡的總價值R(τ; r) = σ(r?, r?, ..., rH)，並以這個量為優化目標和觀測信號。當σ是求和時，就回到了經典問題；當σ是連乘（全程成功率）時，就進入了全新的困難地帶。

這部分的核心發現是一個令人震驚的不可能性結果：對於"全程成功"這一目標（每步必須全部成功才得1分，否則得0分），即使狀態轉移完全確定、數據覆蓋充分，任何算法要想獲得不平凡的性能，都可能需要指數級——也就是2^H條——軌跡數據。

贊助商廣告

用更直白的方式來理解這個結論：假設一個任務有100個步驟，每步都有兩種選擇（對的和錯的），那麼在最壞情況下，你需要檢查2???種不同的情形才能找到正確策略。宇宙中的原子數也就大約10??個，所以這在實際中根本不可能完成。

原因在於這種"全程成功"的聚合方式會把資訊藏得極深：絕大多數軌跡的最終結果都是0（因為只要有一步錯了就全盤皆輸），只有極少數軌跡（正確策略執行的軌跡）的結果是1。在隨機收集數據的情況下，這些"有價值的1"出現的概率只有2^(-H)，比找到一根針還難。

四、打破指數壁壘——兩個結構係數決定能否高效學習

面對這個指數級的障礙，研究團隊並沒有止步於"這個問題無法解決"的悲觀結論。他們進一步挖掘：在什麼條件下，廣義目標離線強化學習是可以高效完成的？他們的答案落在了兩個精心設計的結構係數上，可以把它們理解為衡量"資訊損失"程度的兩把尺子。

第一把尺子叫做"獎勵過程係數"κ_μ(σ)。它回答的問題是：當我們觀察到軌跡的總分R(τ; r)時，能有多好地推斷出每一步的潛在獎勵r?, r?, ..., rH？係數越大，意味著不同的每步獎勵組合被σ"捏合"成了幾乎一樣的軌跡總分，從標量結果反推每步信號的難度就越高。對於求和聚合，這個係數就是常數級別的，非常好；對於全程成功聚合，這個係數可以高達H乘以2^H，極度糟糕。

第二把尺子叫做"貝爾曼逆係數"χ_μ(σ)。它回答的是另一個層面的問題：在用動態規劃（貝爾曼方程）逐步推導最優策略時，每步的目標函數值差異能多好地保留每步獎勵的差異資訊？如果這個係數很大，意味著動態規划過程中獎勵差異會被"壓扁"，學到的價值函數就無法有效區分好壞策略。

這兩個係數的意義在於：它們分別捕捉了兩個相互獨立的資訊瓶頸——一個發生在"數據觀測端"（從軌跡結果推斷每步獎勵），另一個發生在"算法優化端"（用貝爾曼更新傳播獎勵差異）。它們無法合併成一個係數，因為在不同場景下各有主次。比如，有了逐步獎勵反饋後，數據端的瓶頸消失，只剩優化端的問題；而對於累積獎勵目標，優化端完全沒有壓縮，χ_μ(σ)恆等於1。

贊助商廣告

在這兩個係數都有限的條件下，研究團隊設計了"廣義OPAC算法"，並證明了其誤差界大約由兩項主導：一項是V?_max乘以L乘以κ_μ(σ)乘以H?乘以Csa(π*)除以n的平方根，另一項是V?_max乘以L乘以χ_μ(σ)乘以H?除以n的平方根。其中V_max是最大價值、L是聚合函數的Lipschitz常數。這個結果表明，只要這兩個係數是多項式級別的，就能保證算法的樣本複雜度是多項式級別的，從而避免了指數級的詛咒。

從實用角度看，這兩個係數為實踐者提供了一個"可行性檢查清單"：在應用廣義目標離線強化學習之前，先估計κ_μ(σ)和χ_μ(σ)，如果兩者都是合理的有限值，就可以放心使用算法；如果其中一個趨近於無窮大，就需要重新設計觀測方式或目標函數。

五、理論的現實意義——從數學到應用場景的映射

這項研究的價值不僅在於給出了精確的數學界，更在於它為一系列實際應用提供了清晰的理論視角。

以大語言模型的強化學習微調為例，這正是當前最熱門的AI對齊技術之一。當我們用人類對整段對話的評分或偏好來訓練模型時，實際上就處於"軌跡級監督"的設定中。研究結果表明，這種訓練方式相比有逐步反饋的情形會額外花費約H倍的數據——其中H可以理解為對話的輪次數或推理步驟數。這為"過程獎勵模型"（每步評分）vs "結果獎勵模型"（只看最終輸出）的長期爭論提供了理論上的定量刻畫，也解釋了為什麼在數學推理任務上逐步驗證（如DeepSeek-R1的訓練方式）往往比只看最終答案對不對更有效——這不是工程經驗，而是統計上的必然代價。

再以醫療AI為例，當數據集只記錄"患者最終是否康復"而不記錄每次治療決策後的病情變化時，根據本研究的理論，關鍵問題是這個"康復/未康復"的標籤能否有效區分不同的治療策略（由κ_μ(σ)刻畫），以及貝爾曼動態規劃能否有效傳播這種區分能力（由χ_μ(σ)刻畫）。如果兩者都合理，就可以從歷史病歷中學到好的治療策略；如果不合理，就需要收集更細粒度的數據。

贊助商廣告

法律領域的AI助手、圍棋等複雜博弈遊戲、軟體代碼的自動生成——凡是"只知道最終結果卻不知道中間每步好壞"的場景，都可以在本研究的框架下找到對應的理論保障或警示。

歸根結底，這項研究做的事情可以用一個簡單的比喻來概括：它就像是給各種各樣的"只看成敗"學習場景做了一張精確的地圖，標註出哪裡是坦途（可以高效學習）、哪裡是沼澤（需要付出多項式代價但仍可達）、哪裡是懸崖（指數級複雜度，實際上無法攀越）。知道自己處於地圖的哪個位置，本身就是一種極有價值的知識。

這份地圖告訴我們：從"每步評分"退化為"只看總分"，代價是確定的，剛好多一個H的因子，不多也不少；從"總分"再退化為"偏好比較"，代價幾乎不增加；而一旦優化目標本身變成非線性的，是否仍然高效就完全取決於兩個結構係數，這兩個係數是區分"可行"與"不可行"的關鍵分水嶺。對於任何希望從有限數據中訓練序貫決策系統的研究者或工程師來說，這份地圖都值得掛在牆上常常參看。有興趣深入了解數學細節的讀者，可以通過arXiv:2606.18531查閱完整論文，其中包含了所有定理的嚴格證明和詳盡的輔助引理。

Q&A

Q1：離線強化學習中"軌跡級監督"和"逐步獎勵"到底差在哪裡？

A：逐步獎勵是每走一步都告訴算法得了多少分，而軌跡級監督只在整條軌跡結束後給出一個總分。研究證明這個差異會讓學習算法額外需要約H倍的數據，其中H是決策步驟數。這個代價不是因為數據覆蓋不好或轉移概率複雜，而是純粹由"壓縮資訊"本身造成的，任何算法都無法繞開。

Q2：OPAC算法的"悲觀主義"是什麼意思？

A："悲觀主義"指的是算法對歷史數據中沒有充分覆蓋的行為策略保持保守態度，寧可低估它們的價值也不冒險高估。這是離線學習的核心原則，因為算法無法通過實際試錯來驗證未被充分覆蓋的策略，悲觀估計可以防止算法把數據不足當作"這個策略很好"的證據。

贊助商廣告

Q3：κ_μ(σ)和χ_μ(σ)這兩個係數大了會有什麼後果？

A：κ_μ(σ)大意味著不同的每步獎勵組合會產生幾乎一樣的軌跡總分，從結果推斷每步獎勵變得極難；χ_μ(σ)大意味著動態規划過程中獎勵差異被嚴重壓縮，策略優化變得困難。兩個係數任何一個趨向無窮大，理論上都會導致需要指數級數據，全程成功聚合就是這種極端情形的典型例子。