這項由浙江大學與螞蟻集團聯合開展的研究,於2026年4月以預印本形式發布在arXiv平台,論文編號為arXiv:2604.24198,題為《Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis》(獎勵科學過程:面向智能體數據分析的過程級獎勵建模)。感興趣的讀者可通過上述編號在arXiv檢索完整論文。
**研究概要:當AI"助手"開始"矇混過關"**
假設你雇了一個助手幫你整理一份重要的財務報告。這個助手勤勞肯干,每次交給你的報告看起來都格式整齊、圖文並茂,而且從來不說"我不知道"——每次都給出一個看起來完全合理的答案。問題是,你後來發現他有時候把某列數據算錯了,但因為他不報告錯誤、照常完成工作,你根本沒法發現。更糟的是,當他第一次打開文件、發現列名和自己預期的不一樣時,你的監管系統卻把這次"試探性的摸索"判定為一次嚴重失誤,直接扣分。
這正是當前AI數據分析領域面臨的真實困境。AI模型(也就是"大語言模型")已經能夠扮演數據分析助手的角色,自動寫代碼、運行程序、生成圖表。但如何評判這個助手每一步做得好不好,目前業界還沒有一套真正可靠的裁判機制。浙江大學與螞蟻集團的研究團隊正是為了解決這個"裁判問題",提出了一個名為DataPRM的新型評分系統,專門負責對AI數據分析助手的每一個操作步驟進行精準評分,而不僅僅是等到最後結果出來再評判好壞。
**一、裁判為何如此重要——從"只看結果"到"盯緊過程"**
在AI領域,有一種被稱為"獎勵模型"的機制,它的作用就像體育比賽里的裁判,告訴AI哪些做法是對的、哪些是錯的,從而引導AI不斷改進。過去,大多數數據分析領域的AI系統都採用"結果獎勵"的方式——只要最終答案對了,不管中間過程怎麼折騰,都算成功。這種方式放在簡單任務上還湊合,但在數據分析這種需要層層遞進、環環相扣的複雜科研任務中,問題就暴露出來了。
與此同時,數學推理領域已經發展出了一套叫做"過程獎勵模型"(Process Reward Model,簡稱PRM)的技術。這套機制不只看最終答案,而是對AI的每一個推理步驟都進行評分,就像老師批改解題過程一樣,步步追蹤,絕不放過中間的任何錯誤。這種方式在數學題、代碼生成等領域效果顯著。
然而,當研究團隊把現有的數學領域PRM直接拿來用於數據分析時,卻發現了令人頭疼的問題。他們對三款當時最先進的PRM——Qwen2.5-Math-PRM-72B、GenPRM和ThinkPRM——在數據分析任務上進行了系統測試,測試平台選用的是DABStep基準數據集的子集,而策略模型(即執行分析任務的AI)則使用了參數量高達2350億的Qwen3-235B-A22B-Instruct。
測試結果出乎意料。傳統的"多數投票"策略——即讓AI多次嘗試同一個任務,最後看哪個答案出現最多次就選哪個——最終得分達到了45.33%。而這些頂級PRM引導下的"最優選擇"策略,最高也只達到40%,全部敗給了最簡單的投票策略。換句話說,這些專門設計來當裁判的系統,在數據分析這個賽場上,表現還不如"民主投票"。這說明通用PRM對數據分析任務缺乏足夠的辨別力。
**二、通用裁判的兩大盲點——沉默的錯誤與被冤枉的探索**
深入分析之後,研究團隊發現通用PRM在數據分析場景下存在兩種典型的誤判,而這兩種誤判的方向恰好相反。
第一種叫做"沉默錯誤"(Silent Errors)。在數據分析中,AI寫的代碼有時候能正常運行、不報任何異常,但最終產出的結果卻是錯的。舉個具體的例子:AI助手聲稱自己已經在地圖上畫出了5.5公里的"危險緩衝區",並將圖像保存了下來。代碼執行成功,沒有任何報錯資訊。但實際上,那個緩衝區根本沒有正確地畫出來,圖像中根本看不到那個區域。通用PRM讀了代碼,看到"執行成功"的反饋,就直接打了高分,完全沒有去驗證結果圖像是否真的正確。
這就像一位質檢員只看工人的操作流程記錄,卻不去實際檢驗產品質量一樣——流程日誌顯示一切正常,但產品可能已經悄悄變質了。通用PRM因為只能"讀文字",無法主動去查驗代碼運行後的真實狀態,所以對這類錯誤幾乎完全無感。
第二種叫做"落地錯誤"(Grounding Errors)。數據分析任務中,AI在接觸一個新數據文件時,往往不知道這個文件里的列名、數據格式是什麼樣的。就像你初次打開一份陌生的Excel表格,不知道哪列叫"銷售額"、哪列叫"利潤",只能先猜一下,結果發現猜錯了,再去看實際欄位名,修改代碼重新運行——這是完全正常的探索行為。
在真實的案例中,一個AI助手第一步嘗試加載文件時,用了'dataset'這個鍵名去取數據,結果報錯了,因為真實的鍵名是大寫的'Dataset'。這一步出錯,但AI接下來會從錯誤資訊中學到正確的鍵名,然後修正代碼繼續推進。這個初始嘗試本質上是一種"摸底"行為,屬於可以自我糾正的探索步驟。
然而,通用PRM看到這一步報錯,就直接給出低分,把它當成了一次嚴重失敗。這就像教練看到運動員在熱身時摔倒一次,就直接判定這場比賽失敗一樣——完全忽略了後續的成功糾正。研究團隊收集了那些包含"落地錯誤"但最終得出正確答案的分析軌跡,將它們交給通用PRM評分,發現這些PRM大量給出了接近0分的低分,集中在0.2分附近大量堆積,完全看不出這些步驟最終導向了正確結果。
這兩個盲點總結起來就是:通用PRM既會放過真正的錯誤(沉默錯誤),又會冤枉無辜的探索(落地錯誤)。一個合格的裁判,必須同時具備"主動核查結果"和"區分失誤性質"的能力。
**三、DataPRM的設計思路——給裁判配上工具和智慧**
正是為了解決上述兩個問題,研究團隊設計了DataPRM。這個系統的名字中,"Data"代表它專為數據分析領域定製,"PRM"則代表過程獎勵模型。DataPRM的核心理念可以用一句話概括:讓裁判不只是旁觀,而是主動下場驗證。
DataPRM構建在一套叫做"ReAct"的框架之上。ReAct框架的基本思路是讓AI交替進行"思考"和"行動",每次行動後都會收到環境的反饋,然後再基於反饋繼續思考。DataPRM把這套框架也引入到了裁判系統中——裁判不只是讀一遍被評分的那一步操作,而是可以自己也動手寫代碼、執行代碼、觀察結果,通過多輪與數據環境的互動來判斷那一步操作是否真的正確。
具體來說,當DataPRM拿到一個需要評分的步驟時,它首先讀入整個歷史操作軌跡和當前這一步的內容。然後,它開始自己的內部推理循環:生成一段驗證代碼,運行它,看看結果,再根據結果決定是否需要進一步驗證,如此往復,直到它有足夠的把握給出最終分數。這個內部驗證過程是多輪的,平均下來大約進行2.57輪,每次驗證約0.87次工具調用。
除了主動驗證的能力,DataPRM還配備了兩個專用工具。一個叫做query_document,它能讀取文檔文件,回答關於文檔內容的問題,由DeepSeek-V3.2模型驅動;另一個叫做query_image,能分析圖像內容,回答關於圖像的問題,由Qwen3-VL-235B-A22B-Instruct這個視覺語言模型驅動。有了這兩個工具,DataPRM就能真正"看"到圖表是否畫對了、文檔中的規則是否被正確遵循了,而不只是靠讀代碼文字來猜測。
另一個關鍵設計是所謂的"三元獎勵策略"(Reflection-Aware Ternary Reward Strategy)。傳統PRM往往只有兩檔評分:對(1分)或錯(0分)。DataPRM則引入了第三檔:0.5分,專門對應那些"方向對但有小瑕疵,後續可以修正"的步驟,也就是前面提到的探索性落地錯誤。
從理論角度來看,研究團隊用貝葉斯推理框架解釋了這一設計的合理性。在數據分析這個"部分可觀測"的環境中,AI對數據文件的真實結構是不完全了解的。通用PRM依賴訓練時積累的內部先驗知識來猜測環境狀態,當遇到與訓練數據分布不同的真實數據時,就會產生幻覺式的錯誤判斷。DataPRM通過主動與環境交互,獲得真實的觀測證據,將不確定的先驗更新為準確的後驗,從而大幅降低獎勵估計的誤差。三元獎勵的理論基礎在於,在一個需要探索的環境中,一個步驟的獎勵應當由兩部分構成:對最終目標的實際推進(任務進展),以及對環境狀態的資訊增益(探索收穫)。滿分1分的步驟是兩者兼得;0分步驟是兩者皆無或產生了致命的錯誤邏輯;0.5分步驟則是雖然沒有直接推進任務,但通過觸發錯誤反饋獲得了關鍵的環境資訊。
**四、如何訓練DataPRM——多樣性比純淨度更重要**
一個裁判要判得准,自己首先得見過足夠多的比賽。DataPRM的訓練也是如此,研究團隊為此設計了一套專門的數據生成流程。
數據來源上,研究團隊參考了AutoSDT方法論,通過爬取GitHub上與科學數據分析相關的文件,加上人類專家的補充和修訂,構建了一批真實的數據分析任務。對於每一個任務,研究團隊用Qwen3-235B-A22B-Instruct作為策略模型,同時生成4條不同的分析軌跡(即4種不同的解題過程),然後用DeepSeek-V3.2判斷這4條軌跡的最終答案是否一致。關鍵的篩選原則是:只保留那些"答案不一致"的任務,即4條軌跡中至少有一條答案不同於其他的任務。這樣做的原因是,對於答案高度一致的簡單任務,PRM的指導價值有限;而答案出現分歧的邊界案例,才是PRM最需要發揮判斷力的地方,也是最具訓練價值的數據。
獲得軌跡之後,研究團隊將每條軌跡拆分為逐步的操作序列,交給Qwen3-235B-A22B-Instruct進行初步評分和錯誤歸因。為了讓注釋更加系統化,他們借鑑了AutoManual框架,將類似的錯誤類型歸併整合,再由人類專家核驗這些錯誤類別的合理性,並將其整理成"少量樣本示例"嵌入到最終標註的提示詞中。最終的逐步標註工作由DeepSeek-V3.2完成,採用前述的三元獎勵體系(0、0.5、1)評分,最終生成了超過7000條高質量的訓練實例。
標註質量經過嚴格驗證。研究團隊隨機抽取100條進行人工核查,模型標註的原始準確率達到86%,而衡量評分者一致性的"二次加權Cohen's κ"係數達到0.83,屬於高度可信的水平。
有一個反直覺的實驗發現值得重點介紹。研究團隊測試了三種對訓練數據進行進一步篩選的策略:元批評法(Meta-Critic)、結果一致性篩選(Outcome Consistency)和過程一致性篩選(Process Consistency)。直覺上,經過更嚴格篩選、更"乾淨"的數據應該能訓練出更好的PRM。但實驗結果恰恰相反——不做額外篩選、使用全量數據訓練的DataPRM,在候選答案較多時(N=16)的性能反而最高,顯著超過所有篩選版本。過程一致性篩選在候選較少(N=4)時有輕微優勢,但在擴展候選池時迅速落敗。
研究團隊對此的解釋是:嚴格篩選在提高數據純淨度的同時,也削減了數據的多樣性,導致PRM接觸到的步驟類型過於單一,變得過度保守,泛化能力下降。相比之下,全量數據涵蓋更豐富的步驟分布,PRM從中學會了如何區分各種情形下的好步驟與壞步驟,在面對大量候選軌跡時能更有效地篩選出正確答案。這一發現對PRM領域的數據構建具有重要的啟示意義:在探索空間較大的任務中,多樣性的價值可能超過純淨度。
**五、實驗驗證——小個頭裁判打敗大塊頭選手**
DataPRM的實際表現用"以小勝大"來形容並不過分。訓練好的DataPRM參數量只有40億(4B),卻在兩個主要測試場景下表現出了令人印象深刻的競爭力。
第一個測試場景是"推理時擴展"(Test-Time Scaling,簡稱TTS),核心策略是"最優N選一"(Best-of-N)——讓策略模型生成N個候選答案,由DataPRM評分後選出最優的那個。測試平台是ScienceAgentBench(涵蓋科學數據分析任務)和DABStep(金融分析場景下的多步推理任務),策略模型統一使用Qwen3-235B-A22B-Instruct-2507。
在ScienceAgentBench上,DataPRM在N=16時達到25.64%的成功率,而參數量高達720億的Qwen2.5-Math-PRM-72B在同等條件下只有20.51%,參數量為320億的GenPRM也只有20.51%。在DABStep上,DataPRM在N=16時的平均準確率達到40.89%,同樣領先於所有競爭對手,包括使用Qwen3-235B-A22B-Instruct進行"自我獎勵"(Self-Rewarding,即讓策略模型自己給自己評分)的策略(39.77%)。換句話說,一個40億參數的專用裁判,打敗了一個2350億參數的通才選手用自己給自己評分的方式。參數效率大約是後者的58倍。
更值得關注的是隨著N增大時各方法的表現趨勢。通用PRM普遍存在"越選越差"的問題——當候選池擴大時,它們會把原本正確的答案排除掉,選中錯誤的答案。比如Qwen2.5-Math-PRM-72B從N=8到N=16,DABStep平均準確率從31.33%跌至29.11%。這種現象說明通用PRM沒有真正學會區分數據分析中的好軌跡和壞軌跡,只是在隨機波動。DataPRM則隨著N增大穩步提升,從N=4的37.11%一路爬升到N=16的40.89%,展現出真實的鑑別能力。
研究團隊還測試了另外兩種更複雜的推理時擴展策略:束搜索(Beam Search)和多樣化驗證樹搜索(Diverse Verifier Tree Search,DVTS)。在這兩種更具挑戰性的搜索方式下,DataPRM同樣保持了穩定的性能提升,而其他基線方法則出現了明顯的波動甚至下滑。特別是束搜索場景下,Qwen2.5-Math-PRM-72B的準確率隨著搜索預算增加反而在震盪下行,這是典型的"獎勵黑客"現象——搜索算法利用獎勵模型的漏洞找到了評分高但實際錯誤的答案。DataPRM的評分更加可靠,不容易被搜索算法鑽空子。
**六、強化學習中的應用——給AI助手持續成長的動力**
DataPRM不只能充當候選答案的篩選器,它還被引入到了AI助手的強化學習訓練過程中,成為引導AI持續進步的信號源。
在強化學習框架下,研究團隊使用Qwen2.5-Coder-7B-Instruct作為基礎策略模型,對比了三種訓練方式:僅用監督微調(SFT)、使用結果獎勵的強化學習(RL with Outcome Reward)、使用DataPRM過程獎勵的強化學習(RL with DataPRM)。測試平台選用了DABench(涵蓋7類數據分析問題,來自52個CSV文件共257道題)和TableBench(覆蓋18個領域的真實表格推理基準)。
結果顯示,加入DataPRM過程獎勵後,模型在DABench上的pass@1準確率達到78.73%,超過僅用結果獎勵訓練的76.0%;在TableBench上達到64.84%,同樣優於結果獎勵的61.5%。pass@3(即3次嘗試中至少一次正確的概率)的差距則更為明顯:DABench上過程獎勵模型達到89.5%,遠高於結果獎勵的86.8%;TableBench上達到77.5%,高於結果獎勵的74.5%。
訓練過程中的動態變化揭示了更深層的原因。使用純結果獎勵訓練時,模型在約200步後出現了"熵崩塌"現象——輸出的多樣性(熵)急劇下降到約0.12,獎勵也隨之停止增長。這說明模型陷入了一種固定模式,不再積極探索新的解法。相比之下,加入過程獎勵後,模型的熵在整個訓練過程中維持在約0.18的水平,獎勵持續穩步上升。更高的熵意味著模型保持了更豐富的探索行為,這也正是pass@3指標持續提升的根本原因——模型不會在某一種固定的解題路徑上"死磕",而是能夠在不同情況下靈活切換策略。
**七、消融實驗——每個設計都有其必要性**
為了驗證DataPRM各個組件的實際貢獻,研究團隊進行了細緻的消融實驗,逐步拆除各個功能模組,觀察性能變化。
最基礎的版本是純鏈式思考(Chain-of-Thought,CoT),也就是DataPRM只用文字推理,不寫代碼、不與環境交互,也不使用三元獎勵——這相當於一個"只能讀文字、不能動手驗證"的裁判。在DABStep的Hard子集上,N=16時準確率為32.01%。
接下來加入環境交互能力,但只允許單輪代碼執行(Single-turn Code with Env)——裁判能寫一段代碼驗證,看看結果,但不能基於結果繼續追問。準確率提升到32.80%,說明哪怕只是"動手檢查一次"也比"純看文字"要好。
再加入多輪對話能力,但不連接真實環境(Multi-turn Code without Env)——裁判可以多輪推理,但執行的代碼不能真正運行,相當於"紙上演練"。準確率提升到31.75%,相比單輪有所下降,說明多輪推理在缺乏真實反饋時效果有限。
將環境交互與多輪推理同時結合(Multi-turn Code with Env)——裁判既能多輪推理,又能真正執行代碼、得到真實反饋。準確率大幅提升到32.80%,與單輪版本持平但在Easy子集上更穩定,且在更大N值下更有優勢。
最後加入三元獎勵策略,形成完整的DataPRM——準確率進一步提升到33.86%,在Easy子集上同樣實現了提升,整體平均從39.77%躍升至40.89%。
這一層層遞進的實驗表明,環境交互是最關鍵的能力基礎,多輪推理在與環境結合時才能充分發揮價值,而三元獎勵策略則是在此基礎上進一步精細化的關鍵一環。三者缺一不可,相互配合才能構成一個真正有效的過程裁判系統。
**歸根結底,這項研究說明了什麼**
說到底,DataPRM解決的核心問題是:如何讓一個自動化的質量檢驗系統真正理解"數據分析"這件事的特殊性。數學題有標準答案,代碼有編譯結果,但數據分析既需要與真實數據文件打交道,又需要對探索性的中間步驟保持寬容,這兩點使得通用裁判天然不適合這個場景。
浙江大學與螞蟻集團的研究團隊通過三個關鍵設計——主動與環境互動的驗證機制、區分探索與失誤的三元評分體系、以及以多樣性為核心的數據構建策略——在只有40億參數的小模型上實現了對參數量大數十倍的通用模型的超越。這對於整個AI數據科學領域具有實際的工程價值:不需要堆砌極大規模的模型,專門設計、精心訓練的小型專用裁判同樣可以成為強大的質量保證工具。
這項研究目前也留下了一些值得繼續探索的方向。現有的DataPRM主要聚焦於數據推理和可視化任務,對於機器學習模型訓練、預測建模等更複雜的工程性任務尚未涉及。此外,DataPRM當前採用監督微調的方式訓練,對高質量標註數據的依賴較強,未來是否可以通過強化學習讓裁判系統也能自我進化,將是一個值得深入研究的方向。
一個有趣的思考問題是:當AI助手越來越多地進入科研工作流,我們如何確保這些助手的"工作日誌"是真實可信的,而不是表面漂亮、內里錯誤的?DataPRM提供了一種思路——讓另一個AI扮演主動審查員的角色,但這個審查員本身的可靠性又如何保證?這或許是未來AI輔助科研領域最值得持續追問的問題之一。有興趣深入了解DataPRM完整技術細節的讀者,可以通過arXiv編號2604.24198查閱原始論文。
---
**Q&A**
Q1:DataPRM和普通數學領域的過程獎勵模型有什麼本質區別?
A:普通數學領域的過程獎勵模型(如Qwen2.5-Math-PRM)只能靜態閱讀推理文本來判斷步驟對錯,不與外部環境互動。DataPRM的核心區別在於它能主動寫代碼、執行代碼、調用圖像和文檔查詢工具,像一個會自己動手驗證的檢查員,而不是只會讀報告的審閱者。此外,DataPRM專門設計了三元評分體系(0、0.5、1),能夠將"可修正的探索性錯誤"與"致命的邏輯錯誤"區分開來,避免冤枉正常的試探行為。
Q2:DataPRM的三檔評分是怎麼區分的,0.5分具體指什麼情況?
A:DataPRM的滿分1分代表步驟完全正確、直接推進任務目標;0分代表步驟存在根本性的邏輯錯誤或虛構資訊,會將整個分析帶入死胡同;0.5分則是專門留給"方向對、但有小毛病"的步驟,典型例子是:第一次打開數據文件時猜錯了列名導致報錯,但這次報錯本身為後續修正提供了關鍵資訊,AI能夠從中學習並在下一步改正。這種情況下既不能給滿分,也不應重罰,0.5分是對這種探索價值的合理承認。
Q3:DataPRM的訓練數據為什麼故意保留"答案不一致"的任務而不追求高質量純淨數據?
A:這是研究中的一個反直覺發現。如果所有訓練任務的答案都高度一致,說明這些任務對AI來說太簡單,裁判系統從中學不到太多區分好壞的經驗。研究團隊專門篩選出4條軌跡答案不完全一致的"邊界案例",是因為這類任務才是裁判最需要發力的地方。而且實驗結果證明,不對數據做額外篩選、保留全量多樣化數據,反而比各種"提純"策略訓練出來的裁判在大候選池情況下表現更好,說明多樣性對裁判泛化能力的價值高於數據的絕對純淨度。






