來自普林斯頓大學的研究團隊於2026年3月發布論文《OpenClaw-RL: Train Any Agent Simply by Talking》,提出了一個名為OpenClaw-RL的強化學習框架。論文上線一周,GitHub收穫超過3000 star,引發了AI工程圈不小的討論。

這篇論文的出發點聽起來幾乎像是在批評整個行業的浪費:每一個部署中的AI智能體,每時每刻都在收集讓自己變得更好的數據,然後把它丟掉。用戶說"你應該先檢查文件再編輯",終端報了一個錯誤,測試跑通了——這些反饋信號本質上都是對剛才那個動作的評估,甚至包含了"應該怎麼做"的具體指向,但現有的AI系統清一色地把它們當作下一輪對話的上下文,然後繼續前進,不留痕跡。
這不是小問題。當前主流的大模型強化學習體系——無論是RLHF、GRPO還是DeepSeek-R1的路線——都依賴預先收集好的數據集進行批量離線訓練,部署和訓練是兩個分開的階段。OpenClaw-RL想做的是徹底打破這條線:讓模型一邊在用,一邊在學。
被扔掉的兩種信號論文把AI智能體在使用過程中產生的反饋信號分為兩類,並把它們統稱為"下一狀態信號"(next-state signal)——也就是智能體做出某個動作之後,環境返回的那條資訊。
第一類是評估信號。用戶重新問了一遍同樣的問題,說明上一次沒答好;測試通過了,說明代碼改對了;終端返回了報錯,說明命令走偏了。這些信號天然地給前一個動作打了分,不需要任何額外標註,卻被現有系統普遍忽略。
第二類是指令信號,這才是論文真正有意思的部分。用戶說"你應該先檢查文件再編輯"——這句話不只是告訴模型"你錯了",它指明了錯在哪裡、正確的順序應該是什麼。詳細的SWE錯誤報告(軟體工程任務中的diff和編譯診斷資訊)也一樣,往往隱含著具體的修改方向。
現有的強化學習方法處理不了第二類信號。RLVR體系用標量獎勵值——一個數字——來壓縮所有反饋資訊,把"應該先檢查文件"這樣的方向性指導壓縮成+1或-1,方向丟了,內容丟了,只剩一個好壞判斷。
OpenClaw-RL針對這兩類信號,分別設計了兩套機制。
四個獨立轉的輪子在介紹學習方法之前,需要先理解OpenClaw-RL的架構設計,因為它是後續一切的前提。
整個系統由四個完全解耦的異步模塊組成:
這四個模塊互不等待。模型在回答當前問題的時候,PRM在評判上一個問題的回答,訓練引擎在消化更早之前的批次——三件事同時進行,誰也不卡誰。
這個設計的關鍵價值在於:它讓"從實時交互中持續學習"在工程上變得可行。對個人智能體來說,用戶的手機或電腦通過加密API連接到RL伺服器,訓練在後台靜默進行,不影響正常使用。對通用智能體來說,數百個雲端環境並行跑各自的任務,產生的數據源源不斷地流入同一個訓練循環。
兩類用途,同一套基礎設施。
"好不好":二值強化學習處理評估信號的方案叫Binary RL,邏輯相對直接。

系統讓一個PRM(過程獎勵模型)讀取智能體的動作和隨後的下一狀態,判斷這個動作表現如何,輸出+1(好)、-1(壞)或0(中性)。為了降低單次判斷的隨機性,系統並行運行多次獨立查詢,取多數投票的結果。
訓練目標採用PPO風格的截斷代理損失,加上KL散度約束防止策略走偏太遠。這部分技術上沒有太多新意,但關鍵在於它能處理所有類型的下一狀態信號——無論是用戶簡短的回覆、終端的退出碼,還是測試套件的通過率,只要有下一狀態,就能打分,就能訓練。
覆蓋面廣是它的核心優勢,代價是粗糙:對用戶的每一個動作只給一個標量數字。
"怎麼改":事後引導的在線蒸餾處理指令信號的方案叫Hindsight-Guided On-Policy Distillation,簡稱OPD,是這篇論文技術上最有新意的部分。
它的核心洞察是:如果把用戶的糾正意見提前放進提示詞,同一個模型會生成截然不同的答案。這個"提前知道糾正意見的模型"實際上比"不知道的模型"更接近正確答案,它可以充當教師,而學生(原來的模型)只需要向它看齊。
整個流程分四步:
第一步,提取事後提示(Hindsight Hint)。 判斷模型讀取動作和下一狀態,決定用戶的反饋是否包含可操作的改進方向,如果是,提煉成1-3句具體的指令,放入[HINT_START]...[HINT_END]標記中。這裡有一個重要設計選擇:不直接用原始的用戶回復做提示,因為用戶說的話往往混雜著噪音(既糾正了上一個回答,又順手提了新問題),判斷模型的作用就是提煉出純淨的指令方向。
第二步,質量過濾。 從多次平行判斷中選擇最長、最具體的那個提示(超過10個字符),沒有有效提示則丟棄這條樣本。OPD主動犧牲覆蓋率換取信號質量。
第三步,構建增強教師上下文。 把提取出的提示拼接到原始用戶消息後面,生成s_enhanced——一個"如果用戶一開始就告訴我該怎麼做"的假設提示詞。
第四步,計算逐詞優勢。 讓模型在s_enhanced條件下對原始回答的每個詞重新打分,再與原始條件下的打分相減,得到每個詞的優勢值。某個詞在教師條件下概率更高,說明該詞應該強化;反之應該抑制。這個逐詞的方向性信號,資訊量遠超整條回答只對應一個+1或-1的標量。
這套機制有幾個特別的地方:它不需要更強的外部教師模型,模型用自己當教師;它不需要預先準備配對的偏好數據,信號來自實時交互;它與RLHF、DPO從根本上不同,因為它給的是詞級別的方向,而不是序列級別的好壞判斷。
兩套方法加起來比任何一套都強論文設計了一個精巧的仿真實驗來對比這兩套方法:用大模型模擬兩類真實用戶——一個不想被發現在用AI寫作業的學生,和一個希望批改意見具體友好的老師。
基準分數是0.17(滿分1.0)。經過8步訓練後:
經過16步訓練後:
兩種方法的組合不是簡單相加,而是互補:Binary RL給所有輪次提供寬覆蓋的梯度信號,OPD在能提取到方向性指令的那些輪次提供高精度的逐詞修正。它們加權相加,共用同一個PPO損失函數,只是優勢值的計算來源不同。
具體效果怎麼看?學生場景里,訓練前的回答滿是粗體標記和模板化的分步格式,訓練後變成了更自然的口語風格;老師場景里,批改意見從冷冰冰的"正確答案30"變成了帶鼓勵、帶具體解釋的幾段話。僅憑36次學生互動、24次老師互動,效果就已經清晰可見。
過程獎勵在長任務中不可或缺對通用智能體(終端、GUI、SWE、工具調用)的實驗則驗證了另一個問題:過程獎勵(Process Reward)和結果獎勵(Outcome Reward)哪個更重要?
答案是兩個都要,但過程獎勵的作用在長任務中尤為突出。
原因不難理解:一個軟體工程任務可能需要二十步操作,如果只有最後一步的測試結果才算獎勵,那前十九步幾乎沒有訓練信號。PRM在每一步動作之後立即根據下一狀態打分,讓整條軌跡都有梯度,而不是只有終點有燈。
數據上,工具調用任務中整合獎勵vs只用結果獎勵的對比是0.30對0.17,差距超過75%。GUI任務的對比是0.33對0.31,差距較小但依然穩定正向。代價是需要額外的算力來託管PRM伺服器。

論文同時報告了框架在終端、GUI、SWE、工具調用四個場景下的學習曲線(分別使用128、64、64、32個並行環境),均呈現明顯上升趨勢,驗證了同一套基礎設施跨場景的通用性。
這件事的潛台詞這篇論文的意義,不只是提出了兩個新的學習方法。
它真正挑戰的是一個隱含假設:訓練和部署必須分開。過去十年的大模型發展路線默認"先收集數據,再訓練模型,再部署服務"——這條流水線在實驗室里清晰,但在實際使用中意味著每次更新都需要暫停、回收、重訓、重部署,成本高、周期長、個性化程度低。
OpenClaw-RL想做的是打通這條流水線,讓使用本身成為訓練。個人智能體在私人設備上運行,用戶的每一次回復都在悄悄改善它對這個特定用戶的理解,不需要把私人數據上傳到任何地方,不需要任何手動標註。
這個方向還有很多未解決的問題——訓練穩定性如何保障?不同領域的提示在分布偏移下如何表現?獎勵黑客(reward hacking)的風險怎麼控制?——但它至少清楚地指出了一件事:每一次對話都是一次被浪費的學習機會,現在有人開始認真把它撿回來了。
https://arxiv.org/pdf/2603.10165
Q&A
Q1:OpenClaw-RL和現有的RLHF、GRPO等方法有什麼本質區別?
現有方法(RLHF、GRPO、DeepSeek-R1等)都依賴預先收集好的數據集進行離線批量訓練,部署之後模型不再更新。OpenClaw-RL的核心區別在於它是在線的、實時的:模型在對用戶提供服務的同時,就在從這些交互中學習,四個異步模塊同步運行,互不阻塞,不需要停機重訓。此外,OPD方法引入了詞級別的方向性優勢信號,這是現有標量獎勵體系根本處理不了的。
Q2:Hindsight-Guided OPD的教師模型從哪裡來,為什麼不需要外部更強的模型?
OPD的教師和學生是同一個模型,區別只在輸入不同。將從用戶回覆中提取的糾正提示拼接到原始提示詞之後,模型在這個"事後知道答案"的增強上下文下重新對原始回答打分,這個打分就是教師信號。其背後的假設是:如果用戶一開始就說清楚了"你應該先檢查文件",同一個模型會在文件檢查相關的詞上分配更高的概率,這個概率差就是訓練方向。這套機制不依賴外部教師,也不需要配對偏好數據,但代價是只在用戶回復確實包含可提取的方向性指令時才有效,因此OPD的樣本覆蓋率低於Binary RL。
Q3:過程獎勵和結果獎勵為什麼要結合使用,各自的局限性是什麼?
結果獎勵(只看最終任務是否完成)的問題是稀疏:對於需要二十步操作的長任務,前十九步沒有訓練信號,信用分配(credit assignment)極為困難。過程獎勵(PRM對每步動作打分)解決了稀疏性,但引入了新的問題:PRM本身可能出錯,尤其在中間步驟的判斷上。論文的解決方案是將兩者加權相加,既保留了結果獎勵的客觀性,又獲得了過程獎勵的密度。工具調用任務的實驗顯示,聯合使用比單獨使用結果獎勵提升超過75%,代價是需要額外算力維護PRM服務。






