這項研究由阿里巴巴Qwen大模型應用團隊聯合中山大學、香港中文大學、北京大學、蘇黎世聯邦理工學院及蘇黎世大學共同完成,以預印本形式於2026年6月2日發布在arXiv平台,論文編號為arXiv:2606.03980。有興趣深入了解的讀者可通過該編號查閱完整論文。
**當AI給AI評分,這件事比想像中複雜得多**
假設你開了一家餐廳,需要招聘一位評分員來評判廚師做出的每道菜。有些菜需要對照標準食譜來判斷是否做對了,有些菜需要品嘗味道,有些菜需要檢查擺盤規範,還有些菜需要看顧客反饋。如果你的評分員只會用一種方式——比如只會嘗味道——那他對需要核對食譜或檢查擺盤的菜餚就會束手無策。更麻煩的是,如果你把所有的評判標準一次性塞給他,他也會被資訊淹沒,不知道從哪裡下手。
大語言模型(也就是我們常說的AI)的訓練過程,面臨著完全相同的困境。訓練AI的關鍵一步,是告訴AI它的回答"好不好"。負責做出這個判斷的,就是所謂的"獎勵模型",它扮演的正是那位餐廳評分員的角色。然而,隨著AI的能力越來越強,它需要處理的任務也越來越多樣:寫代碼、做數學題、分析文章、遵守安全規範……每種任務的評判標準天差地別,有時候需要運行代碼來看結果,有時候需要對照正確答案,有時候需要檢查格式是否規範,有時候需要綜合考量好幾個維度。現有的評分工具要麼太死板(只給出一個分數,不解釋原因),要麼太混亂(把所有標準一股腦塞進同一個提示詞裡,把評分員搞暈)。
阿里巴巴等機構的研究團隊為此提出了一套全新方案,名為**Skill-RM**(技能獎勵模型)。它的核心思路,是把"評分"這件事變成一項可以被系統化執行的"技能",讓評分員能夠根據每道菜的具體情況,主動調取最合適的評判工具,而不是面對一堆雜亂的材料不知所措。
---
**一、現有的評分員為何總是力不從心**
回到餐廳的比喻。傳統的評分方式大概分兩類。第一類是"老派評分員"——他把所有吃過的菜的印象壓縮成一種內在感覺,給出一個分數,但他說不清楚為什麼這道菜打了7分而不是8分,更換一批菜之後他的標準可能也悄悄變了。這對應的是傳統的"標量獎勵模型",它們把複雜的評判標準壓縮進模型參數裡,輸出一個不透明的數字,既難以解釋,也難以靈活調整。
第二類是"現代評分員"——他會寫一段話解釋原因,但他的工具箱是混亂的。他把食譜、擺盤規範、顧客反饋表全都攤在桌上,一古腦兒翻閱,容易遺漏重要資訊,也容易被無關內容分散注意力。這對應的是當前流行的"大模型擔任裁判"(LLM-as-a-Judge)方式,它依賴把所有評判標準一次性寫入提示詞,缺乏對資源的系統管理。
當然也有一些研究嘗試引入"評分細則"(Rubric)或"工具輔助"(Tool-augmented)的方式,但這些嘗試往往只解決一個方面,評分細則有了但執行工具沒有,或者工具有了但綜合判斷的邏輯不清晰。研究團隊觀察到,當前領域缺少的是一種能把所有評判資源統一管理起來的框架——一種真正的"全能評分員培訓方案"。
---
**二、Skill-RM的核心設計:把評分變成一項可執行的"技能"**
Skill-RM的靈感來自一個近年來在AI智能體研究中興起的概念——"智能體技能"(Agent Skill)。簡單來說,一個"技能"就像一本操作手冊加上一個工具箱的組合。手冊里寫著:遇到什麼情況,應該先做什麼,再做什麼,調用哪個工具,最後如何匯總結論。工具箱裡放著各種輔助材料:參考答案、檢查清單、代碼執行器、評分細則等等。重要的是,工具箱默認是關閉的,只有當你翻到手冊里某個對應的步驟時,才會打開對應的抽屜取出相應工具。這樣既避免了資訊過載,又保證了需要的時候能找到對的工具。
Skill-RM把這個思路直接用於獎勵模型的設計。整套系統由三個核心部件構成。
第一個部件是"獎勵評估技能"本身,用形式化語言來說,它是一個包含"操作規程說明書(SKILL.md)"和"資源庫"的組合包。操作規程定義了整個評判過程的邏輯:該評估哪些方面,什麼情況下調用什麼資源,需要收集哪些證據,最終如何輸出結論。資源庫則存放著各類評判材料。在Skill-RM的設計中,這些資源被歸納為五大類:評分細則與評估標準(定義判斷維度和優先級)、參考資料(用於核對事實準確性的答案或文章)、檢查清單與約束條件(把格式規範等要求拆解成可逐項核對的條件)、驗證器與工具(比如Python代碼沙箱,能真正運行代碼來檢驗結果)、以及校準與聚合規則(用於在多個評估維度出現矛盾時做出綜合判斷)。
第二個部件是"技能驅動的判斷過程"。當評分員(也就是大模型裁判)拿到一道待評分的題目和幾個候選答案時,它會先瀏覽一下任務說明,判斷這道題屬於哪種類型。如果它發現這道題涉及代碼格式規範,它就打開檢查清單抽屜;如果涉及數學計算,它可能需要調用代碼沙箱來驗證;如果涉及事實核查,它就去查參考資料。整個過程是一系列"行動-觀察"的循環:採取一個動作(比如查看某個資源),獲得一個觀察結果(資源里的內容),再決定下一步怎麼做,直到所有必要的證據都收集完畢。
第三個部件是"獎勵讀取函數"。評分員走完整個評判流程後,會輸出一個結構化的判斷結果,其中包含每個評估維度的證據和結論。最終的獎勵分數是從這個結構化結果中確定性地提取出來的,不是模糊的印象,而是有據可查的推斷。更靈活的是,這套機制既可以用於"這個回答打幾分"的絕對評分場景(點式獎勵),也可以用於"這兩個回答哪個更好"的比較場景(成對偏好),統一在同一套框架下。
---
**三、資源庫的構建:不是隨手拼湊,而是精心整理**
工具箱裡的工具質量直接決定了評分員的水平,因此研究團隊在資源庫的構建上下了很大功夫。他們通過一套"大模型輔助策劃流程"來整理資源:廣泛收集來自獎勵模型研究文獻、標準評判協議、基準測試文檔和可驗證評估實踐中的素材,然後為每項資源定義明確的適用範圍,合併重複內容,去除過於特化的啟發式規則,最終生成通用化的模組。整個資源庫在評估開始前就被凍結,確保實驗結果可復現。
研究團隊特別強調,這套資源不是"把所有材料都塞進提示詞"的做法。資源庫在默認狀態下是隱藏的,只有當操作規程中對應的步驟被觸發時,相關資源才會被加載進入評分員的視野。這種"漸進式披露"的設計,是Skill-RM與傳統方法的關鍵區別之一。
---
**四、實驗驗證:Skill-RM的實際表現如何**
研究團隊在多個標準測試場景中對Skill-RM進行了全面評估,試圖回答五個核心問題。
第一個問題是:在標準評分基準測試上,Skill-RM是否優於傳統的"大模型裁判"方案?測試使用了三個公認的評估基準:RewardBench2(測試多維度獎勵能力)、RM-Bench(測試對內容細節和風格偏見的魯棒性)以及JudgeBench(聚焦正確性評估)。結果顯示,以Qwen3.5-27B為基礎模型,Skill-RM將平均分從83.9提升到了86.2,三個基準全部有所改善。以更大的Qwen3.5-122B-A10B為基礎時,Skill-RM在JudgeBench上達到了85.2的最高分。與此同時,Skill-RM的表現也超過了許多專門設計的獎勵模型,比如各類基於細則的評分系統和基於智能體的驗證評分方案。
第二個問題是:如果給Skill-RM提供針對具體樣本的額外資源(比如參考答案、約束條件、驗證器輸出),表現是否會進一步提升?答案是肯定的。加載樣本特定資源後,平均分從86.2進一步提升到89.1,在RewardBench2上達到86.0,超過了使用相同骨幹模型的OpenRS系統(OpenRS在JudgeBench上較強,這與其專門優化的評估設置有關)。這說明Skill-RM不僅能在通用場景下表現良好,在資源更豐富的場景下也能充分利用額外資訊。
第三個問題,也是最關鍵的機制驗證問題:這些提升究竟來自"技能驅動的資源組織",還是僅僅因為給了評分員更多資訊?研究團隊設計了一組精心的對比實驗。在同樣的Qwen3.5-27B模型上,他們嘗試了三種不同的"加料"方式:直接把所有資源文本附加到提示詞末尾(不使用技能框架)、把樣本特定資源也直接附加進去、以及僅僅給模型加上一個Python工具訪問權限。結果令人深思:直接附加資源反而讓平均分從83.9下降到了81.0;加上樣本特定資源的附加版本也只有82.0,低於無任何補充的基準;僅加Python工具的版本為83.6,幾乎沒有提升。相比之下,使用技能框架的Skill-RM達到86.2,加上樣本特定資源後更是達到89.1。這個對比清楚地說明:提升的關鍵不在於給了多少資訊,而在於如何有組織地管理和使用這些資訊。資訊過載不僅沒有幫助,反而會干擾評分員的判斷。
第四個問題涉及"最優N選一"(Best-of-N)場景,即從多個候選回答中選出最好的那個。使用JETTS測試集(由Qwen2.5-72B-Instruct模型生成的10個候選答案池),研究團隊測試了Skill-RM在數學、指令遵循、代碼等四類任務上的選擇準確率。在數學題(GSM8K)上,表現接近滿分,基本已經飽和。在指令遵循(IFEval)和代碼正確性(HumanEval+)上,Skill-RM的改善最為明顯,超過了直接評分的基準方案和Skywork評分模型。複雜代碼基準(BigCodeBench)仍然較難,Skill-RM比基準稍有提升,但距離理論上界還有較大差距,說明這類任務仍是未來需要攻克的方向。
第五個問題是:Skill-RM能否被用作強化學習訓練的獎勵信號,真正幫助提升AI模型的指令遵循能力?研究團隊以Llama-3.1-Tulu-3-8B-SFT為起點,使用VerInstruct數據集,以Skill-RM作為獎勵信號,通過GRPO算法進行強化學習訓練。在IF-RewardBench的Kendall相關係數測試上(該測試衡量獎勵模型的排序質量),Skill-RM的平均相關係數達到0.524,高於所有對比方法,包括Gemini-3-Flash(0.513)、GPT-5-mini(0.456)以及各類專門的判別式獎勵模型。在單輪對話和多輪對話子集上,Skill-RM分別達到0.619和0.540的成績,優勢明顯;在系統提示詞子集上,Gemini-3-Flash略勝一籌,說明處理複雜系統提示仍是Skill-RM的一個改進空間。
訓練完成後的模型在三個下游指令遵循基準(IFEval、IFBench和AdvancedIF)上的綜合表現達到45.9分,超過了使用同類訓練數據的VerIF方案(44.7分)和Tulu 3(45.1分),在IFEval和AdvancedIF上的提升最為明顯,IFBench上則與VerIF持平。
---
**五、在不同規模模型上的穩健性驗證**
研究團隊還在多個不同規模的模型上驗證了Skill-RM的有效性。他們分別使用了Qwen3.5系列的9B、27B、35B-A3B和122B-A10B四個版本進行測試。在所有四個規模的模型上,Skill-RM在不使用樣本特定資源的情況下,都優於對應的直接裁判基準,說明這套框架並不依賴特定規模的模型能力。
不過實驗也揭示了一個有趣的邊界:樣本特定資源並非對所有規模都有益。對於9B這個較小的模型,加入樣本特定資源後平均分反而略有下降(從66.2降至65.7),說明較小的模型在自主篩選和應用外部資源方面能力有限,可能無法可靠地判斷"這個資源對當前判斷有沒有幫助"。研究團隊將這個發現作為邊界證據,表明資源並不是越多越好,模型的實際能力決定了它能有效利用多少資源。
---
**六、坦誠面對的局限與未來方向**
研究團隊在論文中直接點出了Skill-RM目前的三個局限,而不是迴避它們。
第一,當前的評估範圍僅限於文本形式的指令遵循和標準獎勵基準。將這套框架擴展到多模態(圖片、音頻等)內容、長周期智能體任務或高度主觀的偏好對齊場景,是一個有挑戰性但值得探索的方向。
第二,目前的獎勵評估技能依賴人工策劃。雖然這保證了精確性和可解釋性,但如何自動生成和持續更新技能文件,仍是一個開放問題。如果這個過程能夠自動化,將大大降低在新任務上部署Skill-RM的門檻。
第三,技能驅動的評判過程相比傳統的單次前向計算,需要更多的推理步驟,帶來了額外的計算開銷。未來在自適應提前終止、證據緩存和高效資源剪枝等方向上的研究,將是平衡評判質量與計算效率的關鍵。
---
說到底,Skill-RM做的事情並不神秘,它只是把一件大家都在做但做得比較隨意的事情,用一套嚴謹的框架規範了起來。評判一個AI的回答質量,原本就需要參考不同的標準、調用不同的工具、綜合不同維度的證據——只是以前大家都把這些事情塞進一段提示詞裡,讓AI自己湊合著解決。Skill-RM的貢獻在於,它讓這個過程變得有序、透明、可以被檢驗,就像把一個經驗豐富但毫無章法的老廚師,變成了一個有操作手冊、有工具架、每道菜都能說清楚為什麼打這個分的專業評審。
對於普通用戶而言,這項研究最直接的意義在於:你使用的AI助手未來將變得更可靠,不只是在簡單問答上表現更好,在遵循複雜指令、處理代碼和數學、以及在各種專業場景下的表現都會更貼近你真正的需求。而這種改善的背後,正是因為訓練AI的"裁判"本身變得更公平、更準確了。
對研究者來說,一個值得深思的問題是:當"如何使用資訊"比"擁有多少資訊"更重要時,我們在AI系統設計中是否過於關注擴大模型的參數規模和上下文窗口,而忽視了對資訊組織方式的設計?Skill-RM的實驗數據給出了一個明確的提示:結構比體量更重要。感興趣的讀者可以通過arXiv編號2606.03980查閱完整論文,代碼也已在GitHub的Qwen-Applications/Skill-RM倉庫公開發布。
---
**Q&A**
Q1:Skill-RM和普通的大模型評分方式有什麼本質區別?
A:普通大模型評分是把所有評判標準一次性塞進提示詞,讓模型自己處理。Skill-RM則提供一套操作規程加工具庫的組合,模型根據當前任務類型,主動選擇調用哪些評判工具,比如代碼沙箱或參考答案,收集有據可查的證據後再給出結論,整個過程有明確的邏輯順序,而非一次性模糊判斷。實驗表明,直接堆砌更多資訊反而會讓評分質量下降,而有組織地管理資訊才能真正提升準確率。
Q2:Skill-RM為什麼把更多資源直接加進提示詞反而會變差?
A:這是實驗中最反直覺的發現之一。原因在於資訊過載會分散評分模型的注意力,大量無關資源混在一起時,模型難以判斷哪些內容對當前任務真正有用,容易被干擾。Skill-RM的資源庫默認隱藏,只有操作規程觸發對應步驟時才加載相關資源,有效過濾了噪音,讓模型專注於真正相關的證據。
Q3:Skill-RM在代碼評測上表現有限,原因是什麼?
A:在複雜代碼基準BigCodeBench上,Skill-RM相比基準有小幅提升,但距離理論上界仍有較大差距。研究團隊認為這類任務本身難度更高,不僅需要代碼執行判斷,還涉及複雜的功能語義理解,僅靠當前資源庫中的Python沙箱工具尚不足以充分覆蓋所有評判維度。這也是研究團隊指出的未來改進方向之一。






