當AI學會「挑剔」數據分析：浙江大學與螞蟻集團聯合研發的DataPRM如何讓AI科研助手不再「睜眼說瞎話」

這項由浙江大學與螞蟻集團聯合開展的研究，於2026年4月以預印本形式發布在arXiv平台，論文編號為arXiv:2604.24198，題為《Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis》（獎勵科學過程：面向智能體數據分析的過程級獎勵建模）。感興趣的讀者可通過上述編號在arXiv檢索完整論文。

贊助商廣告

**研究概要：當AI"助手"開始"矇混過關"**

假設你雇了一個助手幫你整理一份重要的財務報告。這個助手勤勞肯干，每次交給你的報告看起來都格式整齊、圖文並茂，而且從來不說"我不知道"——每次都給出一個看起來完全合理的答案。問題是，你後來發現他有時候把某列數據算錯了，但因為他不報告錯誤、照常完成工作，你根本沒法發現。更糟的是，當他第一次打開文件、發現列名和自己預期的不一樣時，你的監管系統卻把這次"試探性的摸索"判定為一次嚴重失誤，直接扣分。

這正是當前AI數據分析領域面臨的真實困境。AI模型（也就是"大語言模型"）已經能夠扮演數據分析助手的角色，自動寫代碼、運行程序、生成圖表。但如何評判這個助手每一步做得好不好，目前業界還沒有一套真正可靠的裁判機制。浙江大學與螞蟻集團的研究團隊正是為了解決這個"裁判問題"，提出了一個名為DataPRM的新型評分系統，專門負責對AI數據分析助手的每一個操作步驟進行精準評分，而不僅僅是等到最後結果出來再評判好壞。

**一、裁判為何如此重要——從"只看結果"到"盯緊過程"**

在AI領域，有一種被稱為"獎勵模型"的機制，它的作用就像體育比賽里的裁判，告訴AI哪些做法是對的、哪些是錯的，從而引導AI不斷改進。過去，大多數數據分析領域的AI系統都採用"結果獎勵"的方式——只要最終答案對了，不管中間過程怎麼折騰，都算成功。這種方式放在簡單任務上還湊合，但在數據分析這種需要層層遞進、環環相扣的複雜科研任務中，問題就暴露出來了。

贊助商廣告

與此同時，數學推理領域已經發展出了一套叫做"過程獎勵模型"（Process Reward Model，簡稱PRM）的技術。這套機制不只看最終答案，而是對AI的每一個推理步驟都進行評分，就像老師批改解題過程一樣，步步追蹤，絕不放過中間的任何錯誤。這種方式在數學題、代碼生成等領域效果顯著。

然而，當研究團隊把現有的數學領域PRM直接拿來用於數據分析時，卻發現了令人頭疼的問題。他們對三款當時最先進的PRM——Qwen2.5-Math-PRM-72B、GenPRM和ThinkPRM——在數據分析任務上進行了系統測試，測試平台選用的是DABStep基準數據集的子集，而策略模型（即執行分析任務的AI）則使用了參數量高達2350億的Qwen3-235B-A22B-Instruct。

測試結果出乎意料。傳統的"多數投票"策略——即讓AI多次嘗試同一個任務，最後看哪個答案出現最多次就選哪個——最終得分達到了45.33%。而這些頂級PRM引導下的"最優選擇"策略，最高也只達到40%，全部敗給了最簡單的投票策略。換句話說，這些專門設計來當裁判的系統，在數據分析這個賽場上，表現還不如"民主投票"。這說明通用PRM對數據分析任務缺乏足夠的辨別力。

**二、通用裁判的兩大盲點——沉默的錯誤與被冤枉的探索**

深入分析之後，研究團隊發現通用PRM在數據分析場景下存在兩種典型的誤判，而這兩種誤判的方向恰好相反。

第一種叫做"沉默錯誤"（Silent Errors）。在數據分析中，AI寫的代碼有時候能正常運行、不報任何異常，但最終產出的結果卻是錯的。舉個具體的例子：AI助手聲稱自己已經在地圖上畫出了5.5公里的"危險緩衝區"，並將圖像保存了下來。代碼執行成功，沒有任何報錯資訊。但實際上，那個緩衝區根本沒有正確地畫出來，圖像中根本看不到那個區域。通用PRM讀了代碼，看到"執行成功"的反饋，就直接打了高分，完全沒有去驗證結果圖像是否真的正確。

贊助商廣告

這就像一位質檢員只看工人的操作流程記錄，卻不去實際檢驗產品質量一樣——流程日誌顯示一切正常，但產品可能已經悄悄變質了。通用PRM因為只能"讀文字"，無法主動去查驗代碼運行後的真實狀態，所以對這類錯誤幾乎完全無感。

第二種叫做"落地錯誤"（Grounding Errors）。數據分析任務中，AI在接觸一個新數據文件時，往往不知道這個文件里的列名、數據格式是什麼樣的。就像你初次打開一份陌生的Excel表格，不知道哪列叫"銷售額"、哪列叫"利潤"，只能先猜一下，結果發現猜錯了，再去看實際欄位名，修改代碼重新運行——這是完全正常的探索行為。

在真實的案例中，一個AI助手第一步嘗試加載文件時，用了'dataset'這個鍵名去取數據，結果報錯了，因為真實的鍵名是大寫的'Dataset'。這一步出錯，但AI接下來會從錯誤資訊中學到正確的鍵名，然後修正代碼繼續推進。這個初始嘗試本質上是一種"摸底"行為，屬於可以自我糾正的探索步驟。

然而，通用PRM看到這一步報錯，就直接給出低分，把它當成了一次嚴重失敗。這就像教練看到運動員在熱身時摔倒一次，就直接判定這場比賽失敗一樣——完全忽略了後續的成功糾正。研究團隊收集了那些包含"落地錯誤"但最終得出正確答案的分析軌跡，將它們交給通用PRM評分，發現這些PRM大量給出了接近0分的低分，集中在0.2分附近大量堆積，完全看不出這些步驟最終導向了正確結果。

這兩個盲點總結起來就是：通用PRM既會放過真正的錯誤（沉默錯誤），又會冤枉無辜的探索（落地錯誤）。一個合格的裁判，必須同時具備"主動核查結果"和"區分失誤性質"的能力。

**三、DataPRM的設計思路——給裁判配上工具和智慧**

正是為了解決上述兩個問題，研究團隊設計了DataPRM。這個系統的名字中，"Data"代表它專為數據分析領域定製，"PRM"則代表過程獎勵模型。DataPRM的核心理念可以用一句話概括：讓裁判不只是旁觀，而是主動下場驗證。

贊助商廣告

DataPRM構建在一套叫做"ReAct"的框架之上。ReAct框架的基本思路是讓AI交替進行"思考"和"行動"，每次行動後都會收到環境的反饋，然後再基於反饋繼續思考。DataPRM把這套框架也引入到了裁判系統中——裁判不只是讀一遍被評分的那一步操作，而是可以自己也動手寫代碼、執行代碼、觀察結果，通過多輪與數據環境的互動來判斷那一步操作是否真的正確。

具體來說，當DataPRM拿到一個需要評分的步驟時，它首先讀入整個歷史操作軌跡和當前這一步的內容。然後，它開始自己的內部推理循環：生成一段驗證代碼，運行它，看看結果，再根據結果決定是否需要進一步驗證，如此往復，直到它有足夠的把握給出最終分數。這個內部驗證過程是多輪的，平均下來大約進行2.57輪，每次驗證約0.87次工具調用。

除了主動驗證的能力，DataPRM還配備了兩個專用工具。一個叫做query_document，它能讀取文檔文件，回答關於文檔內容的問題，由DeepSeek-V3.2模型驅動；另一個叫做query_image，能分析圖像內容，回答關於圖像的問題，由Qwen3-VL-235B-A22B-Instruct這個視覺語言模型驅動。有了這兩個工具，DataPRM就能真正"看"到圖表是否畫對了、文檔中的規則是否被正確遵循了，而不只是靠讀代碼文字來猜測。

另一個關鍵設計是所謂的"三元獎勵策略"（Reflection-Aware Ternary Reward Strategy）。傳統PRM往往只有兩檔評分：對（1分）或錯（0分）。DataPRM則引入了第三檔：0.5分，專門對應那些"方向對但有小瑕疵，後續可以修正"的步驟，也就是前面提到的探索性落地錯誤。

從理論角度來看，研究團隊用貝葉斯推理框架解釋了這一設計的合理性。在數據分析這個"部分可觀測"的環境中，AI對數據文件的真實結構是不完全了解的。通用PRM依賴訓練時積累的內部先驗知識來猜測環境狀態，當遇到與訓練數據分布不同的真實數據時，就會產生幻覺式的錯誤判斷。DataPRM通過主動與環境交互，獲得真實的觀測證據，將不確定的先驗更新為準確的後驗，從而大幅降低獎勵估計的誤差。三元獎勵的理論基礎在於，在一個需要探索的環境中，一個步驟的獎勵應當由兩部分構成：對最終目標的實際推進（任務進展），以及對環境狀態的資訊增益（探索收穫）。滿分1分的步驟是兩者兼得；0分步驟是兩者皆無或產生了致命的錯誤邏輯；0.5分步驟則是雖然沒有直接推進任務，但通過觸發錯誤反饋獲得了關鍵的環境資訊。

贊助商廣告

**四、如何訓練DataPRM——多樣性比純淨度更重要**

一個裁判要判得准，自己首先得見過足夠多的比賽。DataPRM的訓練也是如此，研究團隊為此設計了一套專門的數據生成流程。

數據來源上，研究團隊參考了AutoSDT方法論，通過爬取GitHub上與科學數據分析相關的文件，加上人類專家的補充和修訂，構建了一批真實的數據分析任務。對於每一個任務，研究團隊用Qwen3-235B-A22B-Instruct作為策略模型，同時生成4條不同的分析軌跡（即4種不同的解題過程），然後用DeepSeek-V3.2判斷這4條軌跡的最終答案是否一致。關鍵的篩選原則是：只保留那些"答案不一致"的任務，即4條軌跡中至少有一條答案不同於其他的任務。這樣做的原因是，對於答案高度一致的簡單任務，PRM的指導價值有限；而答案出現分歧的邊界案例，才是PRM最需要發揮判斷力的地方，也是最具訓練價值的數據。

獲得軌跡之後，研究團隊將每條軌跡拆分為逐步的操作序列，交給Qwen3-235B-A22B-Instruct進行初步評分和錯誤歸因。為了讓注釋更加系統化，他們借鑑了AutoManual框架，將類似的錯誤類型歸併整合，再由人類專家核驗這些錯誤類別的合理性，並將其整理成"少量樣本示例"嵌入到最終標註的提示詞中。最終的逐步標註工作由DeepSeek-V3.2完成，採用前述的三元獎勵體系（0、0.5、1）評分，最終生成了超過7000條高質量的訓練實例。

標註質量經過嚴格驗證。研究團隊隨機抽取100條進行人工核查，模型標註的原始準確率達到86%，而衡量評分者一致性的"二次加權Cohen's κ"係數達到0.83，屬於高度可信的水平。

有一個反直覺的實驗發現值得重點介紹。研究團隊測試了三種對訓練數據進行進一步篩選的策略：元批評法（Meta-Critic）、結果一致性篩選（Outcome Consistency）和過程一致性篩選（Process Consistency）。直覺上，經過更嚴格篩選、更"乾淨"的數據應該能訓練出更好的PRM。但實驗結果恰恰相反——不做額外篩選、使用全量數據訓練的DataPRM，在候選答案較多時（N=16）的性能反而最高，顯著超過所有篩選版本。過程一致性篩選在候選較少（N=4）時有輕微優勢，但在擴展候選池時迅速落敗。

贊助商廣告

研究團隊對此的解釋是：嚴格篩選在提高數據純淨度的同時，也削減了數據的多樣性，導致PRM接觸到的步驟類型過於單一，變得過度保守，泛化能力下降。相比之下，全量數據涵蓋更豐富的步驟分布，PRM從中學會了如何區分各種情形下的好步驟與壞步驟，在面對大量候選軌跡時能更有效地篩選出正確答案。這一發現對PRM領域的數據構建具有重要的啟示意義：在探索空間較大的任務中，多樣性的價值可能超過純淨度。

**五、實驗驗證——小個頭裁判打敗大塊頭選手**

DataPRM的實際表現用"以小勝大"來形容並不過分。訓練好的DataPRM參數量只有40億（4B），卻在兩個主要測試場景下表現出了令人印象深刻的競爭力。

第一個測試場景是"推理時擴展"（Test-Time Scaling，簡稱TTS），核心策略是"最優N選一"（Best-of-N）——讓策略模型生成N個候選答案，由DataPRM評分後選出最優的那個。測試平台是ScienceAgentBench（涵蓋科學數據分析任務）和DABStep（金融分析場景下的多步推理任務），策略模型統一使用Qwen3-235B-A22B-Instruct-2507。

在ScienceAgentBench上，DataPRM在N=16時達到25.64%的成功率，而參數量高達720億的Qwen2.5-Math-PRM-72B在同等條件下只有20.51%，參數量為320億的GenPRM也只有20.51%。在DABStep上，DataPRM在N=16時的平均準確率達到40.89%，同樣領先於所有競爭對手，包括使用Qwen3-235B-A22B-Instruct進行"自我獎勵"（Self-Rewarding，即讓策略模型自己給自己評分）的策略（39.77%）。換句話說，一個40億參數的專用裁判，打敗了一個2350億參數的通才選手用自己給自己評分的方式。參數效率大約是後者的58倍。

更值得關注的是隨著N增大時各方法的表現趨勢。通用PRM普遍存在"越選越差"的問題——當候選池擴大時，它們會把原本正確的答案排除掉，選中錯誤的答案。比如Qwen2.5-Math-PRM-72B從N=8到N=16，DABStep平均準確率從31.33%跌至29.11%。這種現象說明通用PRM沒有真正學會區分數據分析中的好軌跡和壞軌跡，只是在隨機波動。DataPRM則隨著N增大穩步提升，從N=4的37.11%一路爬升到N=16的40.89%，展現出真實的鑑別能力。

贊助商廣告

研究團隊還測試了另外兩種更複雜的推理時擴展策略：束搜索（Beam Search）和多樣化驗證樹搜索（Diverse Verifier Tree Search，DVTS）。在這兩種更具挑戰性的搜索方式下，DataPRM同樣保持了穩定的性能提升，而其他基線方法則出現了明顯的波動甚至下滑。特別是束搜索場景下，Qwen2.5-Math-PRM-72B的準確率隨著搜索預算增加反而在震盪下行，這是典型的"獎勵黑客"現象——搜索算法利用獎勵模型的漏洞找到了評分高但實際錯誤的答案。DataPRM的評分更加可靠，不容易被搜索算法鑽空子。

**六、強化學習中的應用——給AI助手持續成長的動力**

DataPRM不只能充當候選答案的篩選器，它還被引入到了AI助手的強化學習訓練過程中，成為引導AI持續進步的信號源。

在強化學習框架下，研究團隊使用Qwen2.5-Coder-7B-Instruct作為基礎策略模型，對比了三種訓練方式：僅用監督微調（SFT）、使用結果獎勵的強化學習（RL with Outcome Reward）、使用DataPRM過程獎勵的強化學習（RL with DataPRM）。測試平台選用了DABench（涵蓋7類數據分析問題，來自52個CSV文件共257道題）和TableBench（覆蓋18個領域的真實表格推理基準）。

結果顯示，加入DataPRM過程獎勵後，模型在DABench上的pass@1準確率達到78.73%，超過僅用結果獎勵訓練的76.0%；在TableBench上達到64.84%，同樣優於結果獎勵的61.5%。pass@3（即3次嘗試中至少一次正確的概率）的差距則更為明顯：DABench上過程獎勵模型達到89.5%，遠高於結果獎勵的86.8%；TableBench上達到77.5%，高於結果獎勵的74.5%。

訓練過程中的動態變化揭示了更深層的原因。使用純結果獎勵訓練時，模型在約200步後出現了"熵崩塌"現象——輸出的多樣性（熵）急劇下降到約0.12，獎勵也隨之停止增長。這說明模型陷入了一種固定模式，不再積極探索新的解法。相比之下，加入過程獎勵後，模型的熵在整個訓練過程中維持在約0.18的水平，獎勵持續穩步上升。更高的熵意味著模型保持了更豐富的探索行為，這也正是pass@3指標持續提升的根本原因——模型不會在某一種固定的解題路徑上"死磕"，而是能夠在不同情況下靈活切換策略。

贊助商廣告

**七、消融實驗——每個設計都有其必要性**

為了驗證DataPRM各個組件的實際貢獻，研究團隊進行了細緻的消融實驗，逐步拆除各個功能模組，觀察性能變化。

最基礎的版本是純鏈式思考（Chain-of-Thought，CoT），也就是DataPRM只用文字推理，不寫代碼、不與環境交互，也不使用三元獎勵——這相當於一個"只能讀文字、不能動手驗證"的裁判。在DABStep的Hard子集上，N=16時準確率為32.01%。

接下來加入環境交互能力，但只允許單輪代碼執行（Single-turn Code with Env）——裁判能寫一段代碼驗證，看看結果，但不能基於結果繼續追問。準確率提升到32.80%，說明哪怕只是"動手檢查一次"也比"純看文字"要好。

再加入多輪對話能力，但不連接真實環境（Multi-turn Code without Env）——裁判可以多輪推理，但執行的代碼不能真正運行，相當於"紙上演練"。準確率提升到31.75%，相比單輪有所下降，說明多輪推理在缺乏真實反饋時效果有限。

將環境交互與多輪推理同時結合（Multi-turn Code with Env）——裁判既能多輪推理，又能真正執行代碼、得到真實反饋。準確率大幅提升到32.80%，與單輪版本持平但在Easy子集上更穩定，且在更大N值下更有優勢。

最後加入三元獎勵策略，形成完整的DataPRM——準確率進一步提升到33.86%，在Easy子集上同樣實現了提升，整體平均從39.77%躍升至40.89%。

這一層層遞進的實驗表明，環境交互是最關鍵的能力基礎，多輪推理在與環境結合時才能充分發揮價值，而三元獎勵策略則是在此基礎上進一步精細化的關鍵一環。三者缺一不可，相互配合才能構成一個真正有效的過程裁判系統。

**歸根結底，這項研究說明了什麼**

說到底，DataPRM解決的核心問題是：如何讓一個自動化的質量檢驗系統真正理解"數據分析"這件事的特殊性。數學題有標準答案，代碼有編譯結果，但數據分析既需要與真實數據文件打交道，又需要對探索性的中間步驟保持寬容，這兩點使得通用裁判天然不適合這個場景。

贊助商廣告

浙江大學與螞蟻集團的研究團隊通過三個關鍵設計——主動與環境互動的驗證機制、區分探索與失誤的三元評分體系、以及以多樣性為核心的數據構建策略——在只有40億參數的小模型上實現了對參數量大數十倍的通用模型的超越。這對於整個AI數據科學領域具有實際的工程價值：不需要堆砌極大規模的模型，專門設計、精心訓練的小型專用裁判同樣可以成為強大的質量保證工具。

這項研究目前也留下了一些值得繼續探索的方向。現有的DataPRM主要聚焦於數據推理和可視化任務，對於機器學習模型訓練、預測建模等更複雜的工程性任務尚未涉及。此外，DataPRM當前採用監督微調的方式訓練，對高質量標註數據的依賴較強，未來是否可以通過強化學習讓裁判系統也能自我進化，將是一個值得深入研究的方向。

一個有趣的思考問題是：當AI助手越來越多地進入科研工作流，我們如何確保這些助手的"工作日誌"是真實可信的，而不是表面漂亮、內里錯誤的？DataPRM提供了一種思路——讓另一個AI扮演主動審查員的角色，但這個審查員本身的可靠性又如何保證？這或許是未來AI輔助科研領域最值得持續追問的問題之一。有興趣深入了解DataPRM完整技術細節的讀者，可以通過arXiv編號2604.24198查閱原始論文。

---

**Q&A**

Q1：DataPRM和普通數學領域的過程獎勵模型有什麼本質區別？

A：普通數學領域的過程獎勵模型（如Qwen2.5-Math-PRM）只能靜態閱讀推理文本來判斷步驟對錯，不與外部環境互動。DataPRM的核心區別在於它能主動寫代碼、執行代碼、調用圖像和文檔查詢工具，像一個會自己動手驗證的檢查員，而不是只會讀報告的審閱者。此外，DataPRM專門設計了三元評分體系（0、0.5、1），能夠將"可修正的探索性錯誤"與"致命的邏輯錯誤"區分開來，避免冤枉正常的試探行為。

Q2：DataPRM的三檔評分是怎麼區分的，0.5分具體指什麼情況？

贊助商廣告

A：DataPRM的滿分1分代表步驟完全正確、直接推進任務目標；0分代表步驟存在根本性的邏輯錯誤或虛構資訊，會將整個分析帶入死胡同；0.5分則是專門留給"方向對、但有小毛病"的步驟，典型例子是：第一次打開數據文件時猜錯了列名導致報錯，但這次報錯本身為後續修正提供了關鍵資訊，AI能夠從中學習並在下一步改正。這種情況下既不能給滿分，也不應重罰，0.5分是對這種探索價值的合理承認。

Q3：DataPRM的訓練數據為什麼故意保留"答案不一致"的任務而不追求高質量純淨數據？

A：這是研究中的一個反直覺發現。如果所有訓練任務的答案都高度一致，說明這些任務對AI來說太簡單，裁判系統從中學不到太多區分好壞的經驗。研究團隊專門篩選出4條軌跡答案不完全一致的"邊界案例"，是因為這類任務才是裁判最需要發力的地方。而且實驗結果證明，不對數據做額外篩選、保留全量多樣化數據，反而比各種"提純"策略訓練出來的裁判在大候選池情況下表現更好，說明多樣性對裁判泛化能力的價值高於數據的絕對純淨度。