AI每天都在丟掉讓自己變聰明的數據？

來自普林斯頓大學的研究團隊於2026年3月發布論文《OpenClaw-RL: Train Any Agent Simply by Talking》，提出了一個名為OpenClaw-RL的強化學習框架。論文上線一周，GitHub收穫超過3000 star，引發了AI工程圈不小的討論。

贊助商廣告

這篇論文的出發點聽起來幾乎像是在批評整個行業的浪費：每一個部署中的AI智能體，每時每刻都在收集讓自己變得更好的數據，然後把它丟掉。用戶說"你應該先檢查文件再編輯"，終端報了一個錯誤，測試跑通了——這些反饋信號本質上都是對剛才那個動作的評估，甚至包含了"應該怎麼做"的具體指向，但現有的AI系統清一色地把它們當作下一輪對話的上下文，然後繼續前進，不留痕跡。

這不是小問題。當前主流的大模型強化學習體系——無論是RLHF、GRPO還是DeepSeek-R1的路線——都依賴預先收集好的數據集進行批量離線訓練，部署和訓練是兩個分開的階段。OpenClaw-RL想做的是徹底打破這條線：讓模型一邊在用，一邊在學。

被扔掉的兩種信號

論文把AI智能體在使用過程中產生的反饋信號分為兩類，並把它們統稱為"下一狀態信號"（next-state signal）——也就是智能體做出某個動作之後，環境返回的那條資訊。

第一類是評估信號。用戶重新問了一遍同樣的問題，說明上一次沒答好；測試通過了，說明代碼改對了；終端返回了報錯，說明命令走偏了。這些信號天然地給前一個動作打了分，不需要任何額外標註，卻被現有系統普遍忽略。

第二類是指令信號，這才是論文真正有意思的部分。用戶說"你應該先檢查文件再編輯"——這句話不只是告訴模型"你錯了"，它指明了錯在哪裡、正確的順序應該是什麼。詳細的SWE錯誤報告（軟體工程任務中的diff和編譯診斷資訊）也一樣，往往隱含著具體的修改方向。

現有的強化學習方法處理不了第二類信號。RLVR體系用標量獎勵值——一個數字——來壓縮所有反饋資訊，把"應該先檢查文件"這樣的方向性指導壓縮成+1或-1，方向丟了，內容丟了，只剩一個好壞判斷。

贊助商廣告

OpenClaw-RL針對這兩類信號，分別設計了兩套機制。

四個獨立轉的輪子

在介紹學習方法之前，需要先理解OpenClaw-RL的架構設計，因為它是後續一切的前提。

整個系統由四個完全解耦的異步模組組成：

策略伺服器（SGLang）：負責回答用戶的實時請求環境伺服器：負責對接用戶設備或雲端Agent運行環境 PRM評判伺服器：負責對每一個動作評分訓練引擎（Megatron）：負責用收集到的數據更新模型權重

這四個模組互不等待。模型在回答當前問題的時候，PRM在評判上一個問題的回答，訓練引擎在消化更早之前的批次——三件事同時進行，誰也不卡誰。

這個設計的關鍵價值在於：它讓"從實時交互中持續學習"在工程上變得可行。對個人智能體來說，用戶的手機或電腦通過加密API連接到RL伺服器，訓練在後台靜默進行，不影響正常使用。對通用智能體來說，數百個雲端環境並行跑各自的任務，產生的數據源源不斷地流入同一個訓練循環。

兩類用途，同一套基礎設施。

"好不好"：二值強化學習

處理評估信號的方案叫Binary RL，邏輯相對直接。

系統讓一個PRM（過程獎勵模型）讀取智能體的動作和隨後的下一狀態，判斷這個動作表現如何，輸出+1（好）、-1（壞）或0（中性）。為了降低單次判斷的隨機性，系統並行運行多次獨立查詢，取多數投票的結果。

訓練目標採用PPO風格的截斷代理損失，加上KL散度約束防止策略走偏太遠。這部分技術上沒有太多新意，但關鍵在於它能處理所有類型的下一狀態信號——無論是用戶簡短的回覆、終端的退出碼，還是測試套件的通過率，只要有下一狀態，就能評分，就能訓練。

覆蓋面廣是它的核心優勢，代價是粗糙：對用戶的每一個動作只給一個標量數字。

"怎麼改"：事後引導的在線蒸餾

處理指令信號的方案叫Hindsight-Guided On-Policy Distillation，簡稱OPD，是這篇論文技術上最有新意的部分。

它的核心洞察是：如果把用戶的糾正意見提前放進提示詞，同一個模型會生成截然不同的答案。這個"提前知道糾正意見的模型"實際上比"不知道的模型"更接近正確答案，它可以充當教師，而學生（原來的模型）只需要向它看齊。

贊助商廣告

整個流程分四步：

第一步，提取事後提示（Hindsight Hint）。判斷模型讀取動作和下一狀態，決定用戶的反饋是否包含可操作的改進方向，如果是，提煉成1-3句具體的指令，放入[HINT_START]...[HINT_END]標記中。這裡有一個重要設計選擇：不直接用原始的用戶回復做提示，因為用戶說的話往往混雜著噪音（既糾正了上一個回答，又順手提了新問題），判斷模型的作用就是提煉出純淨的指令方向。

第二步，質量過濾。從多次平行判斷中選擇最長、最具體的那個提示（超過10個字符），沒有有效提示則丟棄這條樣本。OPD主動犧牲覆蓋率換取信號質量。

第三步，構建增強教師上下文。把提取出的提示拼接到原始用戶消息後面，生成s_enhanced——一個"如果用戶一開始就告訴我該怎麼做"的假設提示詞。

第四步，計算逐詞優勢。讓模型在s_enhanced條件下對原始回答的每個詞重新評分，再與原始條件下的評分相減，得到每個詞的優勢值。某個詞在教師條件下概率更高，說明該詞應該強化；反之應該抑制。這個逐詞的方向性信號，資訊量遠超整條回答只對應一個+1或-1的標量。

這套機制有幾個特別的地方：它不需要更強的外部教師模型，模型用自己當教師；它不需要預先準備配對的偏好數據，信號來自實時交互；它與RLHF、DPO從根本上不同，因為它給的是詞級別的方向，而不是序列級別的好壞判斷。

兩套方法加起來比任何一套都強

論文設計了一個精巧的仿真實驗來對比這兩套方法：用大模型模擬兩類真實用戶——一個不想被發現在用AI寫作業的學生，和一個希望批改意見具體友好的老師。

基準分數是0.17（滿分1.0）。經過8步訓練後：

單獨用Binary RL：0.25

單獨用OPD：0.25（數值相同，但原因不同——OPD樣本稀疏，需要更多步才能發力）

兩者聯合：直接跳到0.76

經過16步訓練後：

Binary RL單獨：0.23（略有波動）

OPD單獨：0.72（追上來了）

聯合方法：0.81

兩種方法的組合不是簡單相加，而是互補：Binary RL給所有輪次提供寬覆蓋的梯度信號，OPD在能提取到方向性指令的那些輪次提供高精度的逐詞修正。它們加權相加，共用同一個PPO損失函數，只是優勢值的計算來源不同。

贊助商廣告

具體效果怎麼看？學生場景里，訓練前的回答滿是粗體標記和模板化的分步格式，訓練後變成了更自然的口語風格；老師場景里，批改意見從冷冰冰的"正確答案30"變成了帶鼓勵、帶具體解釋的幾段話。僅憑36次學生互動、24次老師互動，效果就已經清晰可見。

過程獎勵在長任務中不可或缺

對通用智能體（終端、GUI、SWE、工具調用）的實驗則驗證了另一個問題：過程獎勵（Process Reward）和結果獎勵（Outcome Reward）哪個更重要？

答案是兩個都要，但過程獎勵的作用在長任務中尤為突出。

原因不難理解：一個軟體工程任務可能需要二十步操作，如果只有最後一步的測試結果才算獎勵，那前十九步幾乎沒有訓練信號。PRM在每一步動作之後立即根據下一狀態評分，讓整條軌跡都有梯度，而不是只有終點有燈。

數據上，工具調用任務中整合獎勵vs只用結果獎勵的對比是0.30對0.17，差距超過75%。GUI任務的對比是0.33對0.31，差距較小但依然穩定正向。代價是需要額外的算力來託管PRM伺服器。

論文同時報告了框架在終端、GUI、SWE、工具調用四個場景下的學習曲線（分別使用128、64、64、32個並行環境），均呈現明顯上升趨勢，驗證了同一套基礎設施跨場景的通用性。

這件事的潛台詞

這篇論文的意義，不只是提出了兩個新的學習方法。

它真正挑戰的是一個隱含假設：訓練和部署必須分開。過去十年的大模型發展路線默認"先收集數據，再訓練模型，再部署服務"——這條流水線在實驗室里清晰，但在實際使用中意味著每次更新都需要暫停、回收、重訓、重部署，成本高、周期長、個性化程度低。

OpenClaw-RL想做的是打通這條流水線，讓使用本身成為訓練。個人智能體在私人設備上運行，用戶的每一次回復都在悄悄改善它對這個特定用戶的理解，不需要把私人數據上傳到任何地方，不需要任何手動標註。

這個方向還有很多未解決的問題——訓練穩定性如何保障？不同領域的提示在分布偏移下如何表現？獎勵黑客（reward hacking）的風險怎麼控制？——但它至少清楚地指出了一件事：每一次對話都是一次被浪費的學習機會，現在有人開始認真把它撿回來了。

贊助商廣告

論文地址：

https://arxiv.org/pdf/2603.10165 AI每天都在丟掉讓自己變聰明的數據

END

本文來自至頂AI實驗室，一個專注於對AI電腦、工作站及各類AI相關硬體設備，開展基於真實使用場景評測的研究機構。

Q&A

Q1：OpenClaw-RL和現有的RLHF、GRPO等方法有什麼本質區別？

現有方法（RLHF、GRPO、DeepSeek-R1等）都依賴預先收集好的數據集進行離線批量訓練，部署之後模型不再更新。OpenClaw-RL的核心區別在於它是在線的、實時的：模型在對用戶提供服務的同時，就在從這些交互中學習，四個異步模組同步運行，互不阻塞，不需要停機重訓。此外，OPD方法引入了詞級別的方向性優勢信號，這是現有標量獎勵體系根本處理不了的。

Q2：Hindsight-Guided OPD的教師模型從哪裡來，為什麼不需要外部更強的模型？

OPD的教師和學生是同一個模型，區別只在輸入不同。將從用戶回覆中提取的糾正提示拼接到原始提示詞之後，模型在這個"事後知道答案"的增強上下文下重新對原始回答評分，這個評分就是教師信號。其背後的假設是：如果用戶一開始就說清楚了"你應該先檢查文件"，同一個模型會在文件檢查相關的詞上分配更高的概率，這個概率差就是訓練方向。這套機制不依賴外部教師，也不需要配對偏好數據，但代價是只在用戶回復確實包含可提取的方向性指令時才有效，因此OPD的樣本覆蓋率低於Binary RL。

Q3：過程獎勵和結果獎勵為什麼要結合使用，各自的局限性是什麼？

結果獎勵（只看最終任務是否完成）的問題是稀疏：對於需要二十步操作的長任務，前十九步沒有訓練信號，信用分配（credit assignment）極為困難。過程獎勵（PRM對每步動作評分）解決了稀疏性，但引入了新的問題：PRM本身可能出錯，尤其在中間步驟的判斷上。論文的解決方案是將兩者加權相加，既保留了結果獎勵的客觀性，又獲得了過程獎勵的密度。工具調用任務的實驗顯示，聯合使用比單獨使用結果獎勵提升超過75%，代價是需要額外算力維護PRM服務。