當AI"偷懶"只往熱門答案靠，香港科技大學如何用一招"批量比較"讓它學會公平預測？

這項由香港科技大學領導的研究以預印本形式發布於2026年5月，論文編號為arXiv:2605.01402，有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。

贊助商廣告

**AI老師的"偷懶"習慣**

假設你正在訓練一個AI助手來猜人的年齡。你給它看了一萬張照片，其中八千張是三四十歲的中年人，剩下兩千張才是老人和小孩。經過長期訓練，這個AI很快就學會了一個"聰明的偷懶方法"：不管看到什麼樣的臉，都往三四十歲猜——反正大多數時候都不會猜太離譜。

這種行為有個專業名字叫"向均值回歸"，說白了就是AI摸清了"大多數答案是什麼"之後，就開始無腦往那個方向靠。對於熱門區間的預測，它表現得還過得去；但碰到真正的老人或幼兒，就會頻頻出錯，因為這些情況在訓練數據里太少見了，AI根本沒認真學過。

現實世界裡，這類問題無處不在。醫院裡的骨齡估算、電影評分預測、從照片推斷年齡——凡是需要AI輸出一個具體數字的場合，只要訓練數據的分布不均勻，AI就容易犯這種"往主流答案靠"的毛病。香港科技大學的研究團隊正是看到了這個痛點，提出了一套叫做"CCC-GRPO"的新訓練框架，專門對付這種偷懶行為。

**一、訓練AI"猜數字"為什麼這麼難**

要理解這個問題，先得搞清楚現代多模態大語言模型（可以理解為那種既能看圖又能讀文字的AI，比如能回答"這張照片裡的人多大了？"的系統）是怎麼學習的。

這類AI在訓練時，學的其實是"下一個字（或詞）是什麼"——就好像在玩填空遊戲。當我們要它輸出數字"27"時，它實際上是先預測第一個字符是"2"，再預測第二個字符是"7"。整個學習過程是字符一個一個來的，而非把"27"作為一個完整的數值來理解。

這就帶來了一個根本性的矛盾：數字本來是連續的，"26"和"27"之間的差距極小，"27"和"99"之間的差距極大。但當AI用字符預測的方式來學習時，它並不天然理解這種數值上的遠近關係。在它眼裡，只要下一個字符對了就算對，猜錯了哪怕差一點也是錯。這種學習方式對語言生成很有效，但對於需要精確數值的回歸任務來說，相當於拿錘子去擰螺絲——工具選錯了。

贊助商廣告

更糟糕的是，當訓練數據本身就不均勻時，這個問題會被進一步放大。在長尾分布的數據集裡（也就是大多數樣本集中在某個區間，其他區間樣本稀少的情況），AI能從熱門區間獲得大量反饋信號，而從稀少區間獲得的糾錯機會極為有限。結果就是AI越來越擅長預測熱門值，越來越懶得學習冷門值。

現有的改進方案各有局限。有些方法試圖改造AI的內部架構，給它加裝專門的"數字預測頭"，但這樣一來就破壞了AI原本統一的生成能力，相當於把一把瑞士軍刀拆開來只保留某一個功能。有些方法讓AI先寫出分析過程再給出答案（類似"解題步驟"的方式），但這會讓推理時間大幅增加，實用性打折。還有些方法只是在字符級別做了一點微調，本質上還是治標不治本。

**二、從"單打獨鬥"到"批量比較"：核心思路**

研究團隊的關鍵洞察在於：現有的訓練方式，無論是傳統的監督微調還是基於強化學習的改進版，都在用"單打獨鬥"的方式評判每一個預測。也就是說，AI猜出一個數字，系統就把這個數字和正確答案對比，給出反饋，然後繼續處理下一張圖片。每次評判都是獨立的，互不相干。

這種方式的問題在於，AI永遠感受不到自己在整體分布上的偏斜。它每次猜完"中年人年齡"都得到還不錯的反饋，從沒有人告訴它"你已經連續幾百次都往30多歲猜了，完全沒有給過小孩或老人公平的機會"。

研究團隊提出的新框架叫做CCC-GRPO，其中"CCC"是一種叫"一致性相關係數"的統計指標，"GRPO"則是一種強化學習方法。它的核心創新是把評判方式從"單次比較"改成了"批量比較"。

具體運作起來是這樣的：每次訓練時，系統不是一張圖一張圖地單獨處理，而是把一批圖片（比如16張）放在一起。對於批次里的每張圖，AI會生成好幾個候選預測（比如4個不同的猜測值）。然後，系統會把這一批圖片所有的預測值和所有的正確答案放在一起，統一計算一個叫CCC的分數——這個分數衡量的是"AI預測的整體分布和真實答案的整體分布有多吻合"。

贊助商廣告

以年齡預測為例，如果這批16張圖片的真實年齡從10歲到80歲都有，但AI的預測全都擠在30到50歲之間，CCC分數就會很低——因為預測值的分布和真實值的分布相差太遠。反過來，如果AI的預測覆蓋了整個年齡範圍，和真實分布大致吻合，CCC分數就會很高。

**三、CCC這把尺子為何比誤差更聰明**

CCC這個指標之所以被選中，是因為它同時測量了三件事，而不是只看一件。

第一件事是相關性——預測值的變化趨勢和真實值是否一致？比如真實年齡大的那些照片，AI是不是也給出了相對更大的預測值？第二件事是規模一致性——預測值的波動幅度和真實值的波動幅度是否相當？如果真實年齡跨度從10到90歲，但AI的預測只在40到60歲之間波動，說明它把範圍壓縮太厲害了。第三件事是均值對齊——預測值的平均數和真實值的平均數是否接近？如果AI整體預測值總是比真實值偏高5歲，也會被扣分。

這三個維度缺一不可。單純看相關性，一個把所有年齡都猜成常數40歲的AI，相關性可能還是0（因為所有預測都一樣，根本無法和任何真實值建立相關關係），CCC分數會直接崩塌——這就給了那種"永遠猜平均值"的偷懶行為一記直接的懲罰。單純的排名類指標（比如斯皮爾曼相關）只管相對順序對不對，但對絕對數值毫不敏感，這在需要精確數值的任務里不夠用。CCC把三者結合，恰好覆蓋了長尾回歸問題里最容易出錯的幾個方向。

**四、批量比較在訓練中如何實際運作**

在技術實現層面，每次計算CCC分數時，研究團隊並非簡單地把整批圖片的所有候選預測都扔進去做一鍋大雜燴，而是設計了一個更精巧的結構。

對於批次里的某張圖片（比如第i張），AI針對這張圖片生成了4個候選預測，同時系統會取其他所有圖片的平均預測值作為背景參照。這樣，評判第i張圖片的某個具體預測時，使用的是一個"比較向量"：這個向量包含了該具體預測值，加上其他所有圖片的平均預測值，以及對應的全部真實答案。CCC就在這個向量上計算。

贊助商廣告

為什麼要用"其他圖片的平均預測值"而不是"所有候選預測值"？這是為了穩定性考慮。如果直接把所有圖片的所有候選預測都混在一起，隨機性太大，同一張圖片不同候選之間的隨機波動會干擾信號，使得反饋變得嘈雜。用平均值作為背景參照，既保留了批次層面的分布資訊，又過濾掉了單次採樣的隨機噪聲，就像用多次測量的均值來代替單次測量，結果更可靠。

此外，為了確保AI輸出的格式規整（不出現無法解析的亂碼或超出合理範圍的數值），系統還加入了一個格式獎勵。格式正確的輸出獲得一個小加分，格式錯誤的得零分。這個格式獎勵只是輔助性的——一旦AI學會了正確輸出格式，這部分獎勵就趨於穩定，不再影響優化方向，整體優化還是由CCC主導。

**五、四個測試場景：從人臉到醫學影像**

研究團隊為了驗證這套框架，專門搭建了一個統一的測試平台，涵蓋四個不同領域的長尾回歸任務，總數據量超過12.9萬條。

第一個場景是從野外拍攝的人臉照片中估算年齡，數據集叫AgeDB-DIR，包含約1.2萬張訓練圖片，年齡從0到100歲，但大量圖片集中在年輕成年人區間。第二個場景規模更大，叫IMDB-WIKI-DIR，來自網路上的名人照片，訓練集約8.2萬張，年齡分布極度不均衡，某些年齡段的樣本超過3500張，而某些年齡段只有1張。

第三個場景換了一個完全不同的領域：從電影海報圖片預測電影的IMDb評分，數據集叫IMDB-Movie-DIR。這個任務的難度特別高，因為單靠一張海報來猜評分本來就充滿噪聲，加上評分分布的偏斜，給模型製造了雙重挑戰。第四個場景則進入了醫學領域，叫BoneAge-DIR，用兒童手部X光片來估算骨齡（以月為單位，範圍0到228個月），這是一個高精度要求的臨床輔助任務。

評測方式也經過專門設計：訓練集保持原有的不均勻分布，但測試集被刻意構建成近似均勻分布，覆蓋整個數值範圍。然後根據訓練集中每個數值區間的樣本量，把測試集劃分成"多樣本區間"（訓練樣本超過100條）、"中等樣本區間"（20到100條）和"少樣本區間"（不足20條），分別報告誤差。這樣就能清楚地看出一個模型到底是對所有區間都表現均衡，還是只在樣本豐富的區間表現好。

贊助商廣告

**六、實驗結果：哪些地方真正改善了**

研究團隊把CCC-GRPO和多種對比方法放在一起比較，包括傳統監督微調（SFT）、加了軟化標籤的改進版SFT、逐點回歸獎勵的強化學習方法等。

在年齡預測（AgeDB-DIR）任務上，以規模較小的3B參數模型為例，傳統SFT在中等樣本區間的平均絕對誤差是7.67歲，在少樣本區間是8.36歲。CCC-GRPO把這兩個數字分別降低到5.62歲和6.40歲，改善幅度在25%左右；而在樣本豐富的區間，兩種方法的誤差相當，說明新方法改善了尾部表現的同時沒有犧牲頭部表現。

電影評分預測（IMDB-Movie-DIR）任務展現了更驚人的改善。同樣是3B模型，SFT在中等樣本區間的誤差是11.21分，在少樣本區間高達21.51分——這個數字說明SFT幾乎在稀少區間完全失控。CCC-GRPO把這兩個數字壓到了8.12分和16.35分，少樣本區間的改善幅度接近24%。如果換用7B的更大模型，少樣本區間的誤差從17.14分降到14.58分，中等樣本區間從9.58分降到6.87分。

骨齡預測（BoneAge-DIR）是最能體現新方法威力的場景，因為這個任務本身難度極高——零樣本預測下AI的誤差高達95個月（接近8年！），說明沒有經過任務專項訓練的AI對這類醫學圖像完全抓瞎。經過傳統SFT訓練後，誤差降到了18.60個月；而CCC-GRPO進一步把誤差降到14.22個月，相比SFT改善了約24%。特別值得關注的是，在少樣本區間，SFT的誤差是21.86個月，CCC-GRPO是14.35個月，這段改善說明新方法在醫學任務的稀少數據區間裡有實質性的幫助。

IMDB-WIKI-DIR這個大規模數據集的結果也是一致的：CCC-GRPO在中等樣本和少樣本區間的誤差均優於所有對比方法，而且這個規律在3B和7B兩種規模的模型上都成立，說明結論並非某個特定模型規模的偶然產物。

**七、細節比較：為什麼"批量"比"逐點"更關鍵**

為了弄清楚到底是哪個設計起了關鍵作用，研究團隊還做了一系列細粒度的對照實驗。

贊助商廣告

其中最重要的一組對比是不同獎勵函數之間的比較。研究團隊在同一個強化學習框架（GRPO）下，分別測試了四種獎勵：逐點MAE獎勵（每張圖片獨立計算誤差）、帶頻率重加權的MAE獎勵（稀少區間的誤差被賦予更高權重）、批量斯皮爾曼相關獎勵（在批次內衡量預測排名的一致性）、以及CCC獎勵（批量分布對齊）。

結論相當清晰：逐點獎勵無論怎麼改進權重，在中等和少樣本區間的改善都有限，因為它本質上還是每次只看一個點，感受不到分布層面的偏斜。斯皮爾曼批量獎勵在少樣本區間有明顯改善，說明批量比較這個機制本身已經發揮了作用——但斯皮爾曼只管順序對不對，不管絕對數值，所以它在樣本豐富的區間表現稍弱（因為那個區間需要更精確的數值校準，光靠排名不夠）。CCC批量獎勵在所有區間都取得了最均衡的表現，因為它在保持批量比較優勢的同時，還明確約束了絕對數值的校準。

研究團隊還測試了不同數量的候選預測和不同批次大小的影響，發現兩個參數的變化對最終結果影響都不大——即使只用4個候選預測和16的批次大小，結果已經相當好。這個發現很重要，因為它意味著CCC-GRPO不需要複雜的超參數調優，在不同配置下都比較穩定。此外，他們還測試了幾種不同的強化學習變體（DrGRPO、RegGRPO等），發現性能差異微小，說明方法的有效性來自獎勵設計本身，而非某種特定的RL算法選擇。

**八、一個有意思的副作用：多樣本區間的輕微代價**

任何方法都有權衡，這個框架也不例外。在電影評分預測任務中，CCC-GRPO在樣本最豐富的區間（評分集中在中檔的那些電影）的誤差略微高於傳統SFT。這是一個內在的取捨：當你強迫AI去更均勻地覆蓋整個數值範圍、避免把預測都堆在熱門區間時，它在熱門區間的"專注度"自然會稍微下降一點。

類似地，在骨齡預測任務里，有一個評估指標叫"絕對誤差的幾何平均"（GM），CCC-GRPO在樣本豐富區間的GM值略高於SFT。研究團隊對此給出了詳細解釋：GM是一個對極端值敏感的指標，哪怕只有極少數樣本的誤差稍微增大，也會拉高GM的整體數值。但如果實際查看每個樣本的誤差排序曲線，會發現CCC-GRPO對大多數樣本的誤差都低於SFT，只有極尾部的極少數樣本誤差略有增加。這說明GM的輕微劣化是一個指標本身的特性問題，而非模型在多樣本區間整體退步。

贊助商廣告

在需要精確覆蓋稀少病例的場景（比如骨齡估算中的極早熟或極晚熟兒童），這種"略微犧牲熱門區間的極致精度，換取稀少區間的大幅改善"是完全值得的取捨。但研究團隊也誠實地指出，在某些極端強調熱門區間精度的應用里，這個取捨可能需要額外考量，未來可以探索混合目標函數來更靈活地控制這種權衡。

**九、為什麼這套方法在實際部署中比較友好**

研究團隊特別強調，CCC-GRPO是一個"即插即用"的訓練框架，不需要改動AI的任何內部結構。現有的多模態大語言模型可以直接用這套框架進行後訓練，不需要添加任何新的模組或重新設計架構。

在計算資源方面，以AgeDB-DIR任務為例，傳統SFT訓練大約需要30分鐘，CCC-GRPO大約需要3小時——多出來的時間主要是強化學習框架本身多次採樣帶來的開銷。這個代價並非微不足道，但對於需要在稀少病例上保持可靠性的應用場景來說，這個時間投入是合理的。而且這3小時只是訓練成本，一旦訓練完成，推理階段和普通模型沒有任何區別，不會讓最終用戶感受到延遲。

另一個值得注意的細節是：這個方法不依賴於任何標籤感知的採樣策略。也就是說，訓練時不需要刻意去挑選稀少樣本來多放進批次里，普通的隨機採樣就夠了。批量CCC本身會自然地懲罰那種"預測分布過於集中"的行為，從而在不改變數據採樣策略的情況下，給稀少樣本帶來更有效的監督信號。

**十、研究的局限與未來方向**

研究團隊對自身工作的局限保持了清醒的認識。目前所有實驗都局限在一維數值回歸（即每次只預測一個數字）的場景，對於需要同時預測多個數值的任務（比如同時預測物體的長、寬、高），框架的有效性還沒有經過驗證，需要進一步擴展。

此外，所有實驗都在Qwen2.5-VL這一個模型系列上進行，最大隻測試到7B參數。更大的模型（比如70B甚至更大）上CCC-GRPO是否同樣有效，以及有效性和模型規模之間有沒有規律，目前還不清楚。

贊助商廣告

研究團隊還指出了一個重要的公平性問題：像年齡預測這類任務，數據集裡的長尾區域往往和某些特定人口群體有關聯（比如老年人或特定族裔）。雖然CCC-GRPO改善了整體分布的均衡性，但它並不能保證對所有人口子群體都公平。在實際部署前，仍然需要進行細粒度的子群體評估和公平性審計，而不能僅憑整體指標下結論。

歸根結底，這項研究做的事情可以用一句話概括：它發現了AI在處理不均勻數據時"向多數派靠攏"這個根本性的偷懶傾向，然後用一種不改變AI結構、只改變訓練反饋方式的方法，讓AI學會了更公平地對待每一個數值區間。核心武器就是把"每張圖單獨評判"換成"一批圖一起評判，看整體分布對不對"。這種思路簡單，但效果實在，在醫學骨齡、電影評分、年齡預測等多個場景里都得到了驗證。

對於任何依賴AI來輔助決策的場景——尤其是那些稀少情況往往比常見情況更重要的場景（比如罕見病診斷、極端天氣預測、異常行為檢測）——這種讓AI學會"不偷懶、不走捷徑"的訓練思路，值得認真對待。

---

**Q&A**

Q1：CCC-GRPO和普通強化學習訓練方法有什麼本質區別？

A：普通強化學習方法（比如基於MAE的回歸獎勵）在評判AI的預測時，每張圖片是單獨評分的——AI猜一個數字，和正確答案比，給出誤差，完事。CCC-GRPO的關鍵區別在於它把一批圖片放在一起評判，計算AI預測的整體分布和真實答案分布之間的差距。這種批量評判方式能讓AI感知到自己是否在把所有預測都往某個區間堆積，從而自然地懲罰"向均值回歸"這種偷懶行為。

Q2：骨齡預測任務上CCC-GRPO相比普通微調改善了多少？

A：在骨齡預測（BoneAge-DIR）任務上，普通監督微調訓練後的平均絕對誤差是18.60個月，CCC-GRPO把這個數字降到了14.22個月，整體改善約24%。在樣本稀少的區間（比如極早發育或極晚發育的兒童），改善更為顯著：普通微調的誤差是21.86個月，CCC-GRPO降到了14.35個月，改善幅度接近35%。更大的7B模型上，整體誤差從17.09個月降到13.35個月。

贊助商廣告

Q3：CCC-GRPO訓練比普通微調要花多長時間？

A：以年齡預測數據集為例，普通監督微調大約需要30分鐘，CCC-GRPO大約需要3小時，多出來約六倍的訓練時間主要來自強化學習需要對每張圖片採樣多個候選預測。不過這只是訓練階段的開銷，訓練完成後的推理（實際使用時）和普通模型完全一樣，不會讓用戶感受到任何速度差異。