這項由香港中文大學與MiniMax合作完成的研究,於2026年5月以預印本形式發布,論文編號為arXiv:2605.20278,感興趣的讀者可通過該編號檢索完整論文。研究團隊提出了一個名為ClaimDiff-RL的新框架,專門解決AI在生成長篇圖像描述時面臨的一個棘手困境。
用一個日常場景來理解這個困境:假設你雇了一個助理,讓他幫你描述一張照片。這個助理面臨兩種截然相反的風險——要麼描述得過於大膽,說了一堆照片裡根本沒有的東西(比如明明是藍色的雨傘,他說成了紅色的);要麼為了保險起見,什麼都只說一點點,大量關鍵細節一字不提。這兩種情況,無論哪一種,這個助理都算是沒完成工作。
AI系統在生成圖像描述時,面臨的正是這個"說多錯多、說少漏多"的兩難局面。以往的訓練方式,往往是給AI的整體描述打一個總體評分,但這種"一刀切"的評分方式根本無法區分AI是因為"說錯了"扣分,還是因為"沒說完"扣分。結果就是:AI學聰明了,發現少說話可以減少犯錯的風險,於是開始越來越保守,描述越來越簡短,漏掉了大量應該說的內容。
ClaimDiff-RL的核心突破,正在於把這個"總體評分"的粗糙評判機制,替換成一種更像是精細"逐條核查"的評判機制。
一、為什麼給AI打一個總分根本行不通
要真正理解這項研究的價值,需要先搞清楚此前的訓練方式存在什麼問題。訓練AI生成圖像描述,本質上是一個"強化學習"的過程——就像訓練一隻小狗,做對了給零食,做錯了不給。問題在於,這裡的"對"與"錯",以往都是用一個整體分數來衡量的。
以往常見的做法大致分成幾類。第一種是把AI生成的描述與人類寫的"標準答案"進行比較,看文字層面有多相似,比如BLEU、CIDEr這類指標。這種方式的問題顯而易見:一張照片可以有無數種正確的描述方式,用詞不同、順序不同、詳略不同,但都是正確的,文字相似度根本無法捕捉這些差異。第二種是直接讓一個強大的AI(充當"評委")給描述打一個1到10的整體分數,然後用這個分數來訓練被評估的AI。這種方式更強大,但依然存在致命缺陷:一個7分的描述,到底是因為憑空捏造了一個不存在的物體才扣分,還是因為漏掉了重要細節才扣分,還是因為描述了一些額外的正確細節卻沒有參考答案而被誤判扣分?這個7分背後的原因,完全是一團糊塗賬。
正是因為無法區分這些截然不同的錯誤類型,AI系統在訓練過程中找到了一條"捷徑":通過縮短描述、減少說話來降低犯錯風險。數據顯示,用整體評分訓練的AI,幻覺(說了照片裡沒有的東西)確實減少了,但遺漏(照片裡有的東西沒說出來)卻大幅增加。換句話說,AI變得更"謹慎"了,但也變得更"沉默"了,而這種沉默本身就是一種失職。
研究團隊的數據清楚地展示了這個現象:使用整體評分的兩種訓練方式(有參考答案版和無參考答案版),在200步的訓練過程中,幻覺數量確實快速下降,但遺漏數量卻同步急劇攀升,最終兩者之間形成了一個明顯的剪刀差。這背後的機制也在訓練動態圖中一覽無遺——整體評分訓練的AI,在訓練過程中生成的描述長度急劇萎縮,而獎勵分數卻快速攀升,這說明AI根本沒在學習如何更準確地描述圖像,而是在學習如何通過少說話來騙過評分系統。
二、ClaimDiff-RL的核心思路:把總賬本拆成明細賬
ClaimDiff-RL的解決方案,本質上是把評判方式從"總體列印象分"變成"逐條核查明細賬"。
具體的運作流程像是一場三方核查。給定一張圖片、一份由被訓練的AI生成的描述(稱為"演員描述")以及一份由強大AI(Gemini-3-Pro-Preview)生成的參考描述,研究團隊請來一個"裁判AI"來主持這場核查。裁判AI做的第一件事,是找出兩份描述之間的具體差異點。比如,演員描述說"藍色雨棚",參考描述說"綠色雨棚";演員描述說"三把椅子",參考描述說"兩把椅子";演員描述提到了"黃色警示牌",參考描述卻沒有提;參考描述里有"菜單上寫著COFFEE & BAGEL",演員描述里卻完全沒有提。這些差異點被一一列舉出來,每一條都是一個獨立的核查單元。
找到差異之後,裁判AI做的第二件事,是把真實的圖片拿出來,逐條核對:到底是演員描述說的對,還是參考描述說的對,還是兩邊都說錯了,或者兩邊說的都是對的?這一步至關重要——參考描述並不是"標準答案",圖片才是最終的裁判。
核查結束之後,裁判AI對每一條差異,分別給演員描述和參考描述打上"錯誤標籤",並標註錯誤的類型(比如"顏色幻覺"、"數量錯誤"、"細節遺漏"、"文字幻覺"等)以及嚴重程度(輕微、中等、嚴重三個級別)。這種分類方式借鑑了醫學檢查報告的思路——不只是說"這個人不健康",而是具體指出"這裡有一個3級的心臟問題,那裡有一個1級的輕微骨折"。
有了這份精細的明細賬,研究團隊設計了兩種不同的獎勵計算方式。第一種叫"相對獎勵",計算邏輯是比較演員描述的錯誤總量與參考描述的錯誤總量:如果演員描述的錯誤比參考描述少,就給予高獎勵;如果錯得比參考描述還厲害,就給予低獎勵。這種方式鼓勵AI去全面描述圖像內容,追求比參考描述更好的覆蓋率。第二種叫"僅演員獎勵",計算邏輯只看演員描述自己的錯誤:錯誤越少,獎勵越高;不關心參考描述的表現。這種方式更專注於讓AI減少自身的幻覺和失誤。
在錯誤嚴重程度的權重設置上,研究團隊採用了1、1.25、1.6的遞進係數,意味著輕微錯誤權重為1,中等錯誤權重為1.25,嚴重錯誤權重為1.6。嚴重的事實錯誤(比如說了完全不存在的物體、數量徹底說錯)會受到比輕微的風格問題重得多的懲罰。
三、一個防"耍賴"的額外保障:模糊懲罰機制
在設計獎勵系統的過程中,研究團隊發現了一個潛在的"鑽空子"行為:AI可能會學會通過大量使用模糊表達來規避被判定為錯誤。比如,與其明確說"這是一把紅色椅子"(存在說錯顏色的風險),不如說"這可能是一把紅色或者橙色的椅子吧"(這樣即使顏色說錯了,也可以辯稱自己已經預留了不確定性)。
為了堵上這個漏洞,研究團隊在獎勵計算完畢後,額外加入了一個模糊懲罰機制。具體做法是,統計描述中出現了多少次類似"可能"、"也許"、"大概"、"似乎"這類模糊詞彙,以及"A或者B"這類兩可表達。為了公平起見,這個機制允許一定數量的模糊表達——畢竟一篇長達200到300詞的描述,偶爾用幾個不確定表達是正常的。研究團隊設定的配額是每90個詞允許1次模糊表達,超出配額的部分才會受到懲罰,且懲罰力度是乘法式的遞增(每多一個超額模糊詞,獎勵乘以約0.905,5個超額模糊詞會讓獎勵降到原來的60%左右)。
值得一提的是,裁判AI的提示詞中也明確規定:當圖片內容清晰可辨時,使用模糊表達本身就是一種錯誤。這意味著模糊懲罰機制從兩個層面同時發力——裁判在評判每條差異時就會標記模糊表達為錯誤,事後還會再疊加一個統計層面的額外懲罰,雙重保險。
四、實驗設置:一切變量都被嚴格控制
為了確保實驗結果能真實反映獎勵設計方式的差異,研究團隊對實驗設置進行了極為嚴格的控制。
底層模型選用了Qwen3-VL-32B-Instruct,這是一個在視覺語言理解方面頗為強大的基礎模型。在正式進行強化學習訓練之前,研究團隊先用200萬張從LAION和DataComp-1B數據集中隨機採樣的圖片,以及Gemini-3-Pro-Preview為這些圖片生成的詳細描述,對模型進行了監督微調(簡單理解為:先通過大量示例讓模型學會寫長篇圖像描述的基本技能)。強化學習階段使用了從同一數據池中抽取的1萬張圖片,每張圖片讓模型生成8個不同版本的描述,對比這8個版本的表現差異來調整模型參數。
整個實驗中,所有參與對比的訓練方式(ClaimDiff-RL的兩種變體、以及兩種整體評分基準方法)都使用完全相同的訓練數據、完全相同的起始模型、完全相同的生成設置和優化配方。唯一的差別,就是獎勵計算方式不同。這保證了最終觀察到的性能差異,是獎勵設計本身造成的,而非其他因素干擾。
五、三重測試維度:幻覺、描述能力、通用理解
研究團隊從三個維度對各種訓練方式的效果進行了全面評估。
第一個維度是專門構建的160張圖片診斷基準測試。這份測試集配有人類專家撰寫的參考描述,用於區分兩種截然不同的錯誤:幻覺(描述了圖片裡沒有的東西)和遺漏(漏掉了圖片裡有的重要內容)。評判方式同樣是兩階段的:先找出AI描述與人類參考描述之間的差異,再把圖片拿出來核對,只有圖片明確否定的內容才算幻覺,人類參考描述里沒有的但圖片支持的額外細節不算錯誤。這一設計防止了把人類參考描述當成唯一"聖經"的誤判。
第二個維度是公開的Capability基準測試。這個測試從多個細粒度角度評估描述能力,包括物體類別識別、數量計數、顏色識別、空間關係描述、場景類型識別、拍攝角度判斷、OCR文字識別、風格描述、人物身份識別等多個子類別,以F1分數(綜合考慮查全率和查准率的指標)為評判標準。
第三個維度是五個通用視覺問答基準測試,分別是BLINK、OCRBench-v2、HRBench-4K、RealWorldQA和SimpleVQA。這些測試與圖像描述任務沒有直接關係,主要用來檢測圖像描述訓練是否損害了模型的通用視覺理解能力。
六、實驗結果:數據說話
在160張圖片的診斷基準測試上,訓練步數與幻覺、遺漏數量的變化曲線清楚揭示了各種方法的本質差異。整體評分(無參考)方式訓練下,幻覺數量從約2.2急劇下降到0.8以下,但遺漏數量卻從約1.2上升到接近2.0,形成了典型的"按下葫蘆浮起瓢"。整體評分(有參考)方式稍好一些,但趨勢相同。
ClaimDiff-RL相對獎勵方式的表現則完全不同:幻覺從約2.2下降到約1.6,同時遺漏數量基本保持穩定,甚至略有下降,維持在約0.8至1.0之間。ClaimDiff-RL僅演員獎勵方式在減少幻覺的同時,遺漏增加幅度明顯小於整體評分方式,找到了一個更為平衡的位置。
在訓練動態上,整體評分訓練的模型在前100步內就實現了獎勵的快速攀升,同時描述長度急劇縮短——這是"少說話換高分"策略的標誌性特徵。ClaimDiff-RL訓練的模型獎勵上升更為緩慢,但描述長度保持得更好,尤其是相對獎勵方式始終維持著最長的描述輸出。
在Capability基準測試上,各方法的表現分化十分明顯。ClaimDiff-RL相對獎勵方式的綜合F1從監督微調基準的69.5分提升到71.5分,其中數量計數從44.1大幅提升到49.8,空間關係從57.9提升到64.2,場景識別從79.0提升到81.1。更令人印象深刻的是,在數量計數、空間關係、場景識別這三個維度上,ClaimDiff-RL相對獎勵方式的表現超過了被用作參考描述來源的Gemini-3-Pro-Preview本身。整體評分(無參考)方式則正好相反——物體類別F1從81.2下降到74.8,數量計數從44.1驟降到31.1,整體平均F1從69.5下降到65.8,在所有維度幾乎全面退步。
在通用視覺問答基準測試上,監督微調本身就帶來了明顯的能力損耗——僅做監督微調的模型,通用視覺問答平均分從基礎模型的66.90下降到58.23。強化學習訓練在一定程度上能夠彌補這種損耗,其中ClaimDiff-RL相對獎勵方式將平均分恢復到63.53,在五個基準上全面提升。更值得關注的是,直接在基礎模型上(不經過監督微調)施加ClaimDiff-RL僅演員獎勵訓練,平均分從66.90進一步提升到67.52,在五個基準上全數超越基礎模型,說明逐條核查式的獎勵機制甚至能作為提升通用視覺理解能力的輕量級工具。
七、調節旋鈕:嚴重程度權重如何影響最終結果
研究團隊還專門研究了錯誤嚴重程度權重的設置對最終效果的影響,提供了一種直觀可調的"控制旋鈕"。
當三個級別的權重相同(均為1)時,懲罰不區分輕重,結果是遺漏數量降到最低(0.49),但幻覺數量最高(2.18),說明模型在追求覆蓋率方面更激進,但也會帶來更多不準確的聲明。當權重設置為默認值(1、1.25、1.6)時,幻覺降到1.60,遺漏上升到0.76,在兩者之間找到了較好的平衡點,同時整體誤差指標也達到最優(0.52)。當權重進一步加強(1、1.5、2)時,幻覺進一步降低到1.32,但遺漏增加到0.92,說明越來越多的懲罰集中在了防止幻覺上,代價是覆蓋率的損失。這組實驗清楚說明,通過調節嚴重程度權重,研究者可以在"減少幻覺"和"保持覆蓋率"之間明確地選擇自己想要的工作點,這種可控性是整體評分方式根本無法提供的。
八、裁判可靠嗎?兩項獨立驗證給出答案
評判系統的可靠性是整個框架的基石,研究團隊對此進行了兩項獨立驗證。
第一項驗證是人類專家審核。三位人類專家手動核查了Gemini-3-Pro-Preview的約100個樣本、約300條逐條標註,檢驗自動標註是否正確。結果是Gemini的逐條準確率達到87%,說明自動標註在聚合統計層面是足夠可靠的,儘管個別條目仍存在噪聲。
第二項驗證是跨評判模型的一致性檢驗。研究團隊用另一個完全不同的AI評判系統(GPT-5.2)對同樣的三組模型進行評判,然後計算兩套評判結果在逐樣本層面的斯皮爾曼相關係數(一種衡量排名一致性的統計量,數值越接近1表示兩者判斷越相似)。在有參考描述的條件下,幻覺計數的相關係數為0.537,遺漏計數的相關係數為0.334;在無參考描述的條件下,這兩個數值分別降至0.377和0.284。這一結果說明,有參考描述參與的評判方式,兩個完全不同的AI系統之間的一致性更高,驗證了研究團隊引入參考描述作為"比較錨點"這一設計決策的合理性。幻覺的一致性高於遺漏的一致性,也在意料之中——說了什麼錯的話比沒說什麼話更容易被明確識別。
從單個模型的角度來看,監督微調基準的兩評判系統一致性最高(幻覺相關係數0.651),強化學習訓練後的模型一致性有所降低。這並非壞事,而是因為經過訓練後的模型產生的錯誤更加細微,更難被明確識別,反而說明模型質量提升了。
九、參考描述的角色:是嚮導而非標準答案
一個值得單獨闡述的設計理念是參考描述在整個框架中扮演的角色。ClaimDiff-RL中的參考描述,不是被當作"唯一正確答案"來使用的。它的作用更像是一個"嚮導"——告訴裁判AI,這張圖片裡大概有哪些值得關注的視覺維度,引導裁判AI在這些維度上發現差異,然後再拿著真實圖片來核對每條差異的對錯。
研究團隊通過一個對照實驗清楚驗證了這一點。在160張圖片的診斷基準上,用"有參考描述"和"無參考描述"兩種方式分別進行評判,結果發現:無參考描述的評判檢測到的幻覺平均從1.52降到0.97,遺漏從0.80降到0.44。這並不意味著沒有參考描述時模型表現更好,而是意味著沒有參考描述時,裁判AI發現問題的能力被大幅削弱——尤其是對於遺漏類型的問題,因為沒有參考描述作為比對基準,裁判AI很難知道"本應該說什麼卻沒說"。這個實驗結果為整個框架引入參考描述的必要性提供了直接的實證支持。
歸根結底,ClaimDiff-RL做到的,是把原本"按印象整體評分"的粗糙評判方式,升級成了"逐條核查、分類定性、按嚴重程度差異化懲罰"的精細化評判方式。這不只是讓AI描述圖片描述得更準確、更全面,更重要的是讓整個訓練過程變得透明可解釋——研究者能明確知道AI在哪些維度上有哪類問題,能通過調節權重參數來定向改善特定問題,而不是只能被動地觀察一個籠統的總分在不明方向上的波動。這種"可診斷的訓練"理念,或許比任何單一的性能指標提升都更具長遠價值。
Q&A
Q1:ClaimDiff-RL和傳統的整體評分訓練方式有什麼核心區別?
A:傳統整體評分把AI描述的質量壓縮成一個數字,無法區分"說錯了"和"沒說完"兩種截然不同的問題。ClaimDiff-RL把評判拆解成逐條差異核查:先找出AI描述和參考描述之間的具體不同點,再拿真實圖片核對每條差異的對錯,給每條差異分別打上錯誤類型和嚴重程度標籤,最後再匯總成獎勵分數。這樣AI在訓練時就能明確知道是因為"說錯了"還是"沒說夠"被扣分,而不是靠著減少說話量來逃避懲罰。
Q2:ClaimDiff-RL的參考描述如果本身有錯誤怎麼辦?
A:這正是該框架一個重要的設計考量。參考描述不被當成"標準答案",只是作為"話題引導者"使用——它告訴裁判AI大概有哪些視覺維度值得關注。每一條差異最終的對錯,都由真實圖片來裁定,而非由參考描述的內容來裁定。所以即使參考描述里有錯,只要圖片顯示AI描述的內容才是正確的,AI描述就會被判為無誤,參考描述反而會被標記錯誤。
Q3:嚴重程度權重具體怎麼調節才能達到最好的效果?
A:研究團隊測試了三組權重設置。權重均等(1、1、1)時幻覺最多但遺漏最少,適合追求覆蓋率優先的場景;默認權重(1、1.25、1.6)在幻覺和遺漏之間取得較好平衡,綜合誤差指標最優;強化權重(1、1.5、2)幻覺最少但遺漏增加,適合對準確性要求極高的應用場景。具體選哪組,取決於實際應用中更在意"不說錯"還是"不遺漏"。






