Scale AI提出「評分卡改革」：讓AI訓練不再被無用的考核標準浪費精力

這項由Scale AI與Persona聯合完成的研究發表於2026年5月，論文編號為arXiv:2605.20164v1，感興趣的讀者可通過該編號查詢完整原文。

贊助商廣告

當你雇了一位家教來幫孩子備考，你會給家教一份詳細的評分表，列出孩子需要掌握的所有知識點，並標註每個知識點的重要程度。然而，如果家教每節課都花大量時間"考察"那些孩子早就爛熟於心的內容，同時對那些孩子完全摸不著頭腦、暫時也學不會的難題反覆追問，那麼剩下真正能在這節課幫助孩子進步的內容，就所剩無幾了。

這正是當前AI訓練領域中一個被長期忽視的真實問題。Scale AI的研究團隊發現，當人們用一份精心設計的"評分表"來訓練AI時，這份評分表中有相當大比例的考核項目對當前階段的AI訓練毫無幫助——要麼AI早就全部答對了，要麼AI根本沒有能力通過。真正能推動AI進步的考核項目，在整個評分表里只占一半左右，而傳統的訓練方式對此毫不區分，把所有考核項目一視同仁。

為了解決這個問題，研究團隊提出了一個名為POW3R ScaleAI提出評分卡改革讓AI訓練不再被無用的考核標準浪費精力（Policy-Aware Rubric Reward，直譯為"策略感知評分獎勵"）的新框架。這個框架的核心思路並不是推翻原有的評分表，而是在訓練過程中動態調整每個考核項目的"教學權重"，把訓練資源集中在當前AI真正能學到東西的地方，從而讓同樣的訓練成本產出更好的效果。

一、一份評分表的隱藏問題

要理解這項研究解決了什麼問題，先得了解AI訓練的基本邏輯。訓練AI回答覆雜問題的方式，有點像讓它參加一場反覆進行的考試：AI先給出一堆不同的答案，然後一個"評卷系統"對每個答案評分，AI通過對比自己各個答案的得分高低來判斷哪種回答方向更好，並朝那個方向調整自己。

這種方法在答案對錯分明的任務上效果極好，比如數學題或代碼調試。但對於醫療建議、學術寫作、圖像分析這類需要同時滿足多個質量維度的任務，就需要一份更細緻的評分表。這種評分表會把一個好答案拆解成若干具體的考核項目，比如"是否提到了藥物相互作用的風險"、"是否建議用戶諮詢醫生"、"格式是否清晰"等，每個項目都有一個人類專家事先標註好的重要性權重。

贊助商廣告

傳統做法是把所有考核項目的得分，按照各自的重要性權重相加，得到一個總分，再用這個總分來驅動AI學習。這看起來合情合理，但其中藏著一個微妙的陷阱：重要性權重只是在說"這件事對最終答案有多重要"，而不是"這件事現在能不能教會AI"。這兩件事其實相差甚遠。

研究團隊用兩組AI模型和兩套數據集做了一次系統性摸底。他們讓AI對1300道題目各自生成一批答案，然後用另一個AI來逐條檢查每個考核項目是否被滿足。結果發現，在評分表的所有考核項目中，大約有17%到26%的項目是"飽和"狀態——AI每次都能通過，相當於滿分，沒有任何提升空間。另外有20%到33%的項目是"死亡"狀態——AI每次都無法通過，暫時根本學不會。只剩下大約一半的項目，AI有時能通過、有時不能，也就是說這些項目才是真正能幫AI學到東西的地方。

更令人意外的是，考核項目的重要性權重和它當前能否給AI帶來學習信號，幾乎沒有任何相關性。那些人類專家打了最高重要性分數的項目，大約有一半處於飽和或死亡狀態。換句話說，按重要性加權的傳統做法，會把將近一半的訓練資源浪費在那些完全無法產生學習效果的考核項目上。

一、POW3R如何解決這個問題

研究團隊把這種現象稱為"訓練壓力錯位 ScaleAI提出評分卡改革讓AI訓練不再被無用的考核標準浪費精力 "——評分表的權重體系告訴我們什麼對最終答案重要，卻無法告訴我們什麼對當前的AI有教學價值。POW3R框架就是專門用來糾正這種錯位的，而且它的設計非常克制：不改變評分表本身，不修改任何考核項目，也不動搖人類專家賦予各項目的重要性權重。它只做一件事——在每輪訓練時，根據當前AI的實際表現，臨時調整各考核項目在計算訓練得分時的"教學權重"。

具體來說，POW3R首先會檢查每個考核項目在當前這一批AI答案中的"區分度"——也就是說，對於這道題目，AI有時能通過這個項目、有時不能通過的程度有多高。區分度越高，說明這個項目當前越能幫助AI學習，應該分配更多的訓練注意力；如果一個項目所有答案都通過或都不通過，區分度為零，就應該暫時減少它的訓練權重。

贊助商廣告

為了避免這種調整帶來新的不平衡，POW3R還設置了兩道"護欄"。第一道護欄是類別均衡：評分表通常把考核項目按照大類分組，比如"視覺感知"、"內容完整性"、"指令遵循"等，POW3R在每個大類內部進行區分度調整，但確保各大類在總分中占的份量保持不變。這樣就不會出現某個大類因為恰好有很多高區分度項目就"壟斷"了整個訓練過程的情況。第二道護欄是對調整幅度的限制：每個項目的教學權重不會被調整到太極端的程度，確保即使是當前區分度很低的項目也保留一定的訓練存在感，避免AI以後無法重新拾起這些能力。

此外，POW3R還引入了一種叫做"指數移動平均"的平滑機制。這聽起來複雜，但本質就像是一個人對市場的判斷：不會因為今天股票漲了一點就斷定必然一直漲，而是結合歷史表現和最新數據，做出更穩定的判斷。POW3R對每個考核項目的區分度估計也是如此，用歷史數據和最新數據的加權平均來決定當前的教學權重，避免因為某一輪採樣的隨機波動導致訓練方向劇烈搖擺。

二、實驗數據說明了什麼

研究團隊在兩個不同的數據集上驗證了POW3R的效果。一個是他們自建的多模態數據集（簡稱MM），包含1萬道需要同時理解圖片和文字的任務，涵蓋圖表分析、照片理解、截圖解讀等多種場景，每道題都有一份由人類貢獻者撰寫的詳細評分表。另一個是HealthBench英文版（簡稱HB），這是一個由醫學專家撰寫評分標準的醫療問答數據集，專門用於評估AI在醫療建議場景中的表現質量。

實驗在三種不同大小的基礎AI模型上進行，分別是阿里通義的Qwen3-VL-4B（視覺語言模型）、Qwen3-VL-8B，以及谷歌的Gemma 3 4B。這三個模型分別在兩個數據集上進行訓練，每種訓練方法重複三次取平均，確保結果的可靠性。

研究團隊設置了五種對比條件：不經過強化學習訓練的原始模型；使用"全對或全錯"粗粒度獎勵的訓練方法（相當於只看最終結果是否全部通過）；使用傳統按權重求和方式的訓練方法；使用類別均衡但不做區分度調整的訓練方法；以及POW3R。

贊助商廣告

結果顯示，在涵蓋兩個數據集和三種模型的30項對比指標中，POW3R在24項上取得了最佳成績，穩居第一。在多模態數據集上，Qwen3-VL-4B模型經過POW3R訓練後，在標準評分指標上達到了48.8分，而傳統方法只有47.1分，類別均衡方法為47.9分。在"嚴格完成率"這個更苛刻的指標上（要求AI對一道題的所有必須通過項目一個不落地全部通過），POW3R達到20.2%，傳統方法是17.9%，類別均衡方法是18.7%。

在醫療問答數據集上，效果同樣明顯。Qwen3-4B模型經過POW3R訓練後，綜合得分比原始模型提升了4.7個百分點，而傳統方法只提升了1.6個百分點，類別均衡方法提升了2.5個百分點。這意味著POW3R的提升幅度差不多是傳統方法的三倍。

這種提升並不局限於某一個具體評分維度，而是普遍分布在評分表的各個大類中。在視覺感知、視覺推理、內容完整性、指令遵循、真實性這幾個大類上，POW3R相比傳統方法的優勢都很明顯。唯獨在"寫作風格"這個大類上，三種方法的差異很小——研究團隊發現這是因為寫作風格類的考核項目對原始模型來說大多數已經飽和，AI早就能通過這些項目，區分度接近於零，POW3R也就無從發力，自然退化為和傳統方法差不多的效果。這恰恰驗證了POW3R的設計邏輯：在沒有可利用的學習信號時，它就安靜地退回到基礎狀態，不會做無用功。

三、訓練速度同樣大幅提升

除了最終表現更好，POW3R還讓訓練過程快了很多。研究團隊追蹤了不同訓練方法在每個檢查點的驗證集表現，記錄了各方法分別需要多少訓練步數才能首次跨過某個性能門檻。

以Qwen3-VL-4B在多模態數據集上的訓練為例，當目標是讓驗證集評分達到46分時，POW3R只需要83步，而傳統方法需要249步，類別均衡方法需要332步。也就是說，POW3R以三到四倍的速度達到了同樣的效果。當目標提高到49分和50分時，傳統方法和類別均衡方法在整個訓練計劃內（最多664步）都無法到達，而POW3R分別在249步時就越過了這兩條線。

贊助商廣告

這種速度提升並非來自任何"取巧"手段——所有方法使用完全相同的訓練算法、相同的學習率、相同的超參數設置。唯一的區別就是如何把評分表里的考核項目轉化為訓練信號。這說明POW3R的加速效果完全來自信號質量的提升：當每一次訓練更新都能告訴AI"你在這道題上的哪個方向做得更好或更差"，AI就能更快地找到正確的學習方向，不需要反覆在無效信號的噪音里摸索。

四、不過度擬合、不損害通用能力

研究團隊擔心的一個潛在問題是：POW3R在幫助AI學習特定評分表的同時，會不會讓AI過度適應這份評分表，反而損害了AI的通用能力？為此，他們在完成訓練後，把三個多模態模型分別放到六個與訓練數據完全無關的外部視覺語言基準測試上進行評估，包括測試幻覺的HallusionBench、測試目標識別的POPE、測試多模態指令遵循的MM-IFE、測試綜合能力的MMVetV2、測試數學推理的MathVista，以及測試真實世界空間理解的RealWorldQA。

結果發現，POW3R訓練出的模型在這六個外部基準上的表現，和傳統方法訓練出的模型相比，幾乎沒有差異，甚至在大多數指標上略有微弱優勢。這說明POW3R並不是讓AI更擅長"應付"某一份特定的評分表，而是真正幫助AI在那些可學習的維度上提升了能力，這種提升是可以遷移到不同任務場景中的。

五、研究的局限與未竟之路

研究團隊對這項工作的局限性保持了誠實的態度。整個評分流程依賴另一個AI（GPT-5.4系列）來充當"評卷老師"。訓練時用的是GPT-5.4-nano（精度稍低但成本極低，每千次判斷約0.12美元），評估時用的是GPT-5.4-mini（精度更高每千次）。研究團隊專門做了一個校準實驗，用人類評價為基準，驗證這兩個AI評卷系統與人類判斷的一致率分別約為91.4%和93.6%，與人類水準較為接近。但無論如何，只要評卷系統存在系統性偏差，這種偏差就會被POW3R的動態調整機制放大，因為POW3R會更積極地跟隨評卷信號進行優化。

贊助商廣告

另一個局限是數據來源相對集中。醫療問答數據集來自公開的HealthBench，多模態數據集是研究團隊自建的，這兩個數據集覆蓋的都是比較結構化的問答場景。對於長篇代碼反饋、科學寫作、多語言指令遵循這類具有不同類別結構和飽和模式的任務，POW3R的效果還沒有被系統驗證。當前帶有靜態人工權重的公開評分數據集總體上比較稀少，這限制了在更多領域進行測試的可能性。

說到底，POW3R揭示的核心洞察其實很簡單：一份評分表同時承載了兩件不同的事，一是"最終答案里什麼重要"，二是"現在能教會AI什麼"，而這兩件事並不相同。傳統方法把兩者混為一談，導致訓練資源大量流入那些無法產生學習效果的地方。POW3R的貢獻在於找到了一種輕量級的方式，在不改變任何評分目標的前提下，動態地把訓練注意力引導到真正有效的地方。

這項發現對AI訓練領域的意義不僅在於提升了一兩個數字，更在於它提示了一種新的設計思路：評分表的聚合方式應當被當作一個訓練時的能動選擇，而不是一個固定不變的設定。隨著AI被應用到越來越多需要多維度質量評估的領域，如何讓評分信號更有教學效率，將會成為一個越來越值得深挖的研究方向。有興趣繼續探索的讀者，可以通過arXiv編號2605.20164查找完整論文。

Q&A

Q1：POW3R和傳統評分方法的本質區別是什麼？

A：傳統方法把評分表中所有考核項目按固定的重要性權重相加，不管這些項目對當前AI是否有學習價值。POW3R的不同在於，它會在訓練中實時檢測每個考核項目能不能區分AI的好答案和差答案，把訓練注意力集中在那些AI"有時能過、有時不能過"的項目上，而不浪費在AI早就全部通過或根本無法通過的項目上。評分表本身和人類設定的重要性權重一點都沒有改變。

Q2：訓練AI時"飽和"和"死亡"的考核項目為什麼會浪費訓練資源？

A：AI的學習依賴於比較同一道題不同答案之間的得分差異。如果一個考核項目AI每次都能通過，它對所有答案貢獻的分數完全相同，AI無法從中判斷哪個回答方向更好。同理，如果一個項目AI每次都無法通過，同樣沒有差異可供學習。只有那些"有時通過有時不通過"的項目才能產生有效的學習信號，而傳統方法對這三種情況不加區分，導致將近一半的訓練權重流向無效項目。

贊助商廣告

Q3：POW3R在訓練速度上有多大優勢？

A：以Qwen3-VL-4B模型在多模態數據集上的實驗為例，POW3R達到驗證集46分只需83步訓練，而傳統方法需要249步，快了約三倍。在更高的性能目標（49分、50分）上，傳統方法在整個訓練計劃內始終未能達到，POW3R則分別在249步時就已越過。這種加速完全來自訓練信號質量的提升，所有方法使用完全相同的訓練算法和超參數。