阿里巴巴最新研究：讓AI「裁判」變得更公平——一套統一評分標準的全新方法

這項研究由阿里巴巴Qwen大模型應用團隊聯合中山大學、香港中文大學、北京大學、蘇黎世聯邦理工學院及蘇黎世大學共同完成，以預印本形式於2026年6月2日發布在arXiv平台，論文編號為arXiv:2606.03980。有興趣深入了解的讀者可通過該編號查閱完整論文。

贊助商廣告

**當AI給AI評分，這件事比想像中複雜得多**

假設你開了一家餐廳，需要招聘一位評分員來評判廚師做出的每道菜。有些菜需要對照標準食譜來判斷是否做對了，有些菜需要品嘗味道，有些菜需要檢查擺盤規範，還有些菜需要看顧客反饋。如果你的評分員只會用一種方式——比如只會嘗味道——那他對需要核對食譜或檢查擺盤的菜餚就會束手無策。更麻煩的是，如果你把所有的評判標準一次性塞給他，他也會被資訊淹沒，不知道從哪裡下手。

大語言模型（也就是我們常說的AI）的訓練過程，面臨著完全相同的困境。訓練AI的關鍵一步，是告訴AI它的回答"好不好"。負責做出這個判斷的，就是所謂的"獎勵模型"，它扮演的正是那位餐廳評分員的角色。然而，隨著AI的能力越來越強，它需要處理的任務也越來越多樣：寫代碼、做數學題、分析文章、遵守安全規範……每種任務的評判標準天差地別，有時候需要運行代碼來看結果，有時候需要對照正確答案，有時候需要檢查格式是否規範，有時候需要綜合考量好幾個維度。現有的評分工具要麼太死板（只給出一個分數，不解釋原因），要麼太混亂（把所有標準一股腦塞進同一個提示詞裡，把評分員搞暈）。

阿里巴巴等機構的研究團隊為此提出了一套全新方案，名為**Skill-RM**（技能獎勵模型）。它的核心思路，是把"評分"這件事變成一項可以被系統化執行的"技能"，讓評分員能夠根據每道菜的具體情況，主動調取最合適的評判工具，而不是面對一堆雜亂的材料不知所措。

---

**一、現有的評分員為何總是力不從心**

贊助商廣告

回到餐廳的比喻。傳統的評分方式大概分兩類。第一類是"老派評分員"——他把所有吃過的菜的印象壓縮成一種內在感覺，給出一個分數，但他說不清楚為什麼這道菜打了7分而不是8分，更換一批菜之後他的標準可能也悄悄變了。這對應的是傳統的"標量獎勵模型"，它們把複雜的評判標準壓縮進模型參數裡，輸出一個不透明的數字，既難以解釋，也難以靈活調整。

第二類是"現代評分員"——他會寫一段話解釋原因，但他的工具箱是混亂的。他把食譜、擺盤規範、顧客反饋表全都攤在桌上，一古腦兒翻閱，容易遺漏重要資訊，也容易被無關內容分散注意力。這對應的是當前流行的"大模型擔任裁判"（LLM-as-a-Judge）方式，它依賴把所有評判標準一次性寫入提示詞，缺乏對資源的系統管理。

當然也有一些研究嘗試引入"評分細則"（Rubric）或"工具輔助"（Tool-augmented）的方式，但這些嘗試往往只解決一個方面，評分細則有了但執行工具沒有，或者工具有了但綜合判斷的邏輯不清晰。研究團隊觀察到，當前領域缺少的是一種能把所有評判資源統一管理起來的框架——一種真正的"全能評分員培訓方案"。

---

**二、Skill-RM的核心設計：把評分變成一項可執行的"技能"**

Skill-RM的靈感來自一個近年來在AI智能體研究中興起的概念——"智能體技能"（Agent Skill）。簡單來說，一個"技能"就像一本操作手冊加上一個工具箱的組合。手冊里寫著：遇到什麼情況，應該先做什麼，再做什麼，調用哪個工具，最後如何匯總結論。工具箱裡放著各種輔助材料：參考答案、檢查清單、代碼執行器、評分細則等等。重要的是，工具箱默認是關閉的，只有當你翻到手冊里某個對應的步驟時，才會打開對應的抽屜取出相應工具。這樣既避免了資訊過載，又保證了需要的時候能找到對的工具。

Skill-RM把這個思路直接用於獎勵模型的設計。整套系統由三個核心部件構成。

贊助商廣告

第一個部件是"獎勵評估技能"本身，用形式化語言來說，它是一個包含"操作規程說明書（SKILL.md）"和"資源庫"的組合包。操作規程定義了整個評判過程的邏輯：該評估哪些方面，什麼情況下調用什麼資源，需要收集哪些證據，最終如何輸出結論。資源庫則存放著各類評判材料。在Skill-RM的設計中，這些資源被歸納為五大類：評分細則與評估標準（定義判斷維度和優先級）、參考資料（用於核對事實準確性的答案或文章）、檢查清單與約束條件（把格式規範等要求拆解成可逐項核對的條件）、驗證器與工具（比如Python代碼沙箱，能真正運行代碼來檢驗結果）、以及校準與聚合規則（用於在多個評估維度出現矛盾時做出綜合判斷）。

第二個部件是"技能驅動的判斷過程"。當評分員（也就是大模型裁判）拿到一道待評分的題目和幾個候選答案時，它會先瀏覽一下任務說明，判斷這道題屬於哪種類型。如果它發現這道題涉及代碼格式規範，它就打開檢查清單抽屜；如果涉及數學計算，它可能需要調用代碼沙箱來驗證；如果涉及事實核查，它就去查參考資料。整個過程是一系列"行動-觀察"的循環：採取一個動作（比如查看某個資源），獲得一個觀察結果（資源里的內容），再決定下一步怎麼做，直到所有必要的證據都收集完畢。

第三個部件是"獎勵讀取函數"。評分員走完整個評判流程後，會輸出一個結構化的判斷結果，其中包含每個評估維度的證據和結論。最終的獎勵分數是從這個結構化結果中確定性地提取出來的，不是模糊的印象，而是有據可查的推斷。更靈活的是，這套機制既可以用於"這個回答打幾分"的絕對評分場景（點式獎勵），也可以用於"這兩個回答哪個更好"的比較場景（成對偏好），統一在同一套框架下。

---

**三、資源庫的構建：不是隨手拼湊，而是精心整理**

工具箱裡的工具質量直接決定了評分員的水平，因此研究團隊在資源庫的構建上下了很大功夫。他們通過一套"大模型輔助策劃流程"來整理資源：廣泛收集來自獎勵模型研究文獻、標準評判協議、基準測試文檔和可驗證評估實踐中的素材，然後為每項資源定義明確的適用範圍，合併重複內容，去除過於特化的啟發式規則，最終生成通用化的模組。整個資源庫在評估開始前就被凍結，確保實驗結果可復現。

贊助商廣告

研究團隊特別強調，這套資源不是"把所有材料都塞進提示詞"的做法。資源庫在默認狀態下是隱藏的，只有當操作規程中對應的步驟被觸發時，相關資源才會被加載進入評分員的視野。這種"漸進式披露"的設計，是Skill-RM與傳統方法的關鍵區別之一。

---

**四、實驗驗證：Skill-RM的實際表現如何**

研究團隊在多個標準測試場景中對Skill-RM進行了全面評估，試圖回答五個核心問題。

第一個問題是：在標準評分基準測試上，Skill-RM是否優於傳統的"大模型裁判"方案？測試使用了三個公認的評估基準：RewardBench2（測試多維度獎勵能力）、RM-Bench（測試對內容細節和風格偏見的魯棒性）以及JudgeBench（聚焦正確性評估）。結果顯示，以Qwen3.5-27B為基礎模型，Skill-RM將平均分從83.9提升到了86.2，三個基準全部有所改善。以更大的Qwen3.5-122B-A10B為基礎時，Skill-RM在JudgeBench上達到了85.2的最高分。與此同時，Skill-RM的表現也超過了許多專門設計的獎勵模型，比如各類基於細則的評分系統和基於智能體的驗證評分方案。

第二個問題是：如果給Skill-RM提供針對具體樣本的額外資源（比如參考答案、約束條件、驗證器輸出），表現是否會進一步提升？答案是肯定的。加載樣本特定資源後，平均分從86.2進一步提升到89.1，在RewardBench2上達到86.0，超過了使用相同骨幹模型的OpenRS系統（OpenRS在JudgeBench上較強，這與其專門優化的評估設置有關）。這說明Skill-RM不僅能在通用場景下表現良好，在資源更豐富的場景下也能充分利用額外資訊。

第三個問題，也是最關鍵的機制驗證問題：這些提升究竟來自"技能驅動的資源組織"，還是僅僅因為給了評分員更多資訊？研究團隊設計了一組精心的對比實驗。在同樣的Qwen3.5-27B模型上，他們嘗試了三種不同的"加料"方式：直接把所有資源文本附加到提示詞末尾（不使用技能框架）、把樣本特定資源也直接附加進去、以及僅僅給模型加上一個Python工具訪問權限。結果令人深思：直接附加資源反而讓平均分從83.9下降到了81.0；加上樣本特定資源的附加版本也只有82.0，低於無任何補充的基準；僅加Python工具的版本為83.6，幾乎沒有提升。相比之下，使用技能框架的Skill-RM達到86.2，加上樣本特定資源後更是達到89.1。這個對比清楚地說明：提升的關鍵不在於給了多少資訊，而在於如何有組織地管理和使用這些資訊。資訊過載不僅沒有幫助，反而會干擾評分員的判斷。

贊助商廣告

第四個問題涉及"最優N選一"（Best-of-N）場景，即從多個候選回答中選出最好的那個。使用JETTS測試集（由Qwen2.5-72B-Instruct模型生成的10個候選答案池），研究團隊測試了Skill-RM在數學、指令遵循、代碼等四類任務上的選擇準確率。在數學題（GSM8K）上，表現接近滿分，基本已經飽和。在指令遵循（IFEval）和代碼正確性（HumanEval+）上，Skill-RM的改善最為明顯，超過了直接評分的基準方案和Skywork評分模型。複雜代碼基準（BigCodeBench）仍然較難，Skill-RM比基準稍有提升，但距離理論上界還有較大差距，說明這類任務仍是未來需要攻克的方向。

第五個問題是：Skill-RM能否被用作強化學習訓練的獎勵信號，真正幫助提升AI模型的指令遵循能力？研究團隊以Llama-3.1-Tulu-3-8B-SFT為起點，使用VerInstruct數據集，以Skill-RM作為獎勵信號，通過GRPO算法進行強化學習訓練。在IF-RewardBench的Kendall相關係數測試上（該測試衡量獎勵模型的排序質量），Skill-RM的平均相關係數達到0.524，高於所有對比方法，包括Gemini-3-Flash（0.513）、GPT-5-mini（0.456）以及各類專門的判別式獎勵模型。在單輪對話和多輪對話子集上，Skill-RM分別達到0.619和0.540的成績，優勢明顯；在系統提示詞子集上，Gemini-3-Flash略勝一籌，說明處理複雜系統提示仍是Skill-RM的一個改進空間。

訓練完成後的模型在三個下游指令遵循基準（IFEval、IFBench和AdvancedIF）上的綜合表現達到45.9分，超過了使用同類訓練數據的VerIF方案（44.7分）和Tulu 3（45.1分），在IFEval和AdvancedIF上的提升最為明顯，IFBench上則與VerIF持平。

---

**五、在不同規模模型上的穩健性驗證**

研究團隊還在多個不同規模的模型上驗證了Skill-RM的有效性。他們分別使用了Qwen3.5系列的9B、27B、35B-A3B和122B-A10B四個版本進行測試。在所有四個規模的模型上，Skill-RM在不使用樣本特定資源的情況下，都優於對應的直接裁判基準，說明這套框架並不依賴特定規模的模型能力。

贊助商廣告

不過實驗也揭示了一個有趣的邊界：樣本特定資源並非對所有規模都有益。對於9B這個較小的模型，加入樣本特定資源後平均分反而略有下降（從66.2降至65.7），說明較小的模型在自主篩選和應用外部資源方面能力有限，可能無法可靠地判斷"這個資源對當前判斷有沒有幫助"。研究團隊將這個發現作為邊界證據，表明資源並不是越多越好，模型的實際能力決定了它能有效利用多少資源。

---

**六、坦誠面對的局限與未來方向**

研究團隊在論文中直接點出了Skill-RM目前的三個局限，而不是迴避它們。

第一，當前的評估範圍僅限於文本形式的指令遵循和標準獎勵基準。將這套框架擴展到多模態（圖片、音頻等）內容、長周期智能體任務或高度主觀的偏好對齊場景，是一個有挑戰性但值得探索的方向。

第二，目前的獎勵評估技能依賴人工策劃。雖然這保證了精確性和可解釋性，但如何自動生成和持續更新技能文件，仍是一個開放問題。如果這個過程能夠自動化，將大大降低在新任務上部署Skill-RM的門檻。

第三，技能驅動的評判過程相比傳統的單次前向計算，需要更多的推理步驟，帶來了額外的計算開銷。未來在自適應提前終止、證據緩存和高效資源剪枝等方向上的研究，將是平衡評判質量與計算效率的關鍵。

---

說到底，Skill-RM做的事情並不神秘，它只是把一件大家都在做但做得比較隨意的事情，用一套嚴謹的框架規範了起來。評判一個AI的回答質量，原本就需要參考不同的標準、調用不同的工具、綜合不同維度的證據——只是以前大家都把這些事情塞進一段提示詞裡，讓AI自己湊合著解決。Skill-RM的貢獻在於，它讓這個過程變得有序、透明、可以被檢驗，就像把一個經驗豐富但毫無章法的老廚師，變成了一個有操作手冊、有工具架、每道菜都能說清楚為什麼打這個分的專業評審。

贊助商廣告

對於普通用戶而言，這項研究最直接的意義在於：你使用的AI助手未來將變得更可靠，不只是在簡單問答上表現更好，在遵循複雜指令、處理代碼和數學、以及在各種專業場景下的表現都會更貼近你真正的需求。而這種改善的背後，正是因為訓練AI的"裁判"本身變得更公平、更準確了。

對研究者來說，一個值得深思的問題是：當"如何使用資訊"比"擁有多少資訊"更重要時，我們在AI系統設計中是否過於關注擴大模型的參數規模和上下文窗口，而忽視了對資訊組織方式的設計？Skill-RM的實驗數據給出了一個明確的提示：結構比體量更重要。感興趣的讀者可以通過arXiv編號2606.03980查閱完整論文，代碼也已在GitHub的Qwen-Applications/Skill-RM倉庫公開發布。

---

**Q&A**

Q1：Skill-RM和普通的大模型評分方式有什麼本質區別？

A：普通大模型評分是把所有評判標準一次性塞進提示詞，讓模型自己處理。Skill-RM則提供一套操作規程加工具庫的組合，模型根據當前任務類型，主動選擇調用哪些評判工具，比如代碼沙箱或參考答案，收集有據可查的證據後再給出結論，整個過程有明確的邏輯順序，而非一次性模糊判斷。實驗表明，直接堆砌更多資訊反而會讓評分質量下降，而有組織地管理資訊才能真正提升準確率。

Q2：Skill-RM為什麼把更多資源直接加進提示詞反而會變差？

A：這是實驗中最反直覺的發現之一。原因在於資訊過載會分散評分模型的注意力，大量無關資源混在一起時，模型難以判斷哪些內容對當前任務真正有用，容易被干擾。Skill-RM的資源庫默認隱藏，只有操作規程觸發對應步驟時才加載相關資源，有效過濾了噪音，讓模型專注於真正相關的證據。

Q3：Skill-RM在代碼評測上表現有限，原因是什麼？

A：在複雜代碼基準BigCodeBench上，Skill-RM相比基準有小幅提升，但距離理論上界仍有較大差距。研究團隊認為這類任務本身難度更高，不僅需要代碼執行判斷，還涉及複雜的功能語義理解，僅靠當前資源庫中的Python沙箱工具尚不足以充分覆蓋所有評判維度。這也是研究團隊指出的未來改進方向之一。

贊助商廣告