中國人民大學等機構聯合攻關：讓AI視覺助手真正「看懂」圖片，不再胡說八道

這項由中國人民大學高嶺人工智慧學院、字節跳動、加州大學聖地哥分校和香港科技大學聯合開展的研究，以預印本形式於2026年4月27日公開發布，論文編號為arXiv:2604.24583。研究的核心成果是一個名為Perceval的感知中心過程獎勵模型，旨在從根本上解決AI視覺語言模型在推理過程中"看圖說瞎話"的頑固問題。

贊助商廣告

當你向一個AI助手展示一張客廳照片，詢問"藍色沙發在紅色椅子的左邊還是右邊"，AI可能會非常自信地給出一個答案——但那個答案完全是憑空捏造的，因為它根本沒有仔細"看"那張圖，只是根據語言習慣給了你一個聽起來合理的回答。這種現象在AI領域有個專門的名字，叫做"幻覺"（hallucination），它就像一個自信滿滿卻閉著眼睛描述風景的導遊：話說得頭頭是道，但描述的根本不是眼前的景色。

正是為了解決這個棘手問題，研究團隊提出了Perceval這套系統，並將其與現有的強化學習訓練框架深度融合，讓AI在推理的每一個步驟都必須真正對照圖片核實自己的說法。

一、為什麼AI視覺助手會"睜眼說瞎話"

要理解這個問題，先得弄清楚現在的AI視覺助手是怎麼訓練出來的。目前最流行的訓練方法叫做"帶可驗證獎勵的強化學習"，簡稱RLVR。這套方法的邏輯非常樸素：AI生成一個答案，如果答案對了就給獎勵，如果答案錯了就給懲罰，反覆訓練，AI就會慢慢變聰明。

然而，這套方法存在一個致命缺陷——它只看最終答案，不管中間推理過程。打個比方，這就像老師批改作文時只看最後一句話"我認為答案是B"，而完全不管學生前面寫了什麼推理過程。如果學生在推理過程中對題目的某個關鍵事實理解錯了，但最後碰巧猜對了答案，老師也會給滿分。反過來，即便學生推理過程扎紮實實，只是最後一步筆誤，也會得零分。這種"只看結果"的評價方式，在學術上被稱為"獎勵稀疏"問題。

贊助商廣告

對於視覺語言模型來說，這個問題尤為突出。AI在用語言推理時，往往會插入一些對圖片內容的描述——比如"圖中的桌子是深棕色的"或者"藍色卡車在白色轎車的左側"。這些描述可能完全是錯的，是AI憑語言經驗"腦補"出來的，但只要最終答案碰巧對了，訓練系統就不會給出任何懲罰信號。久而久之，AI就學會了：只要能答對題，中間過程隨便編。

研究團隊把這個問題形容為"信用分配難題"——到底是哪一步推理出了問題，傳統訓練方式根本無法給出精確定位。這就像偵探辦案時只知道"案子沒破"，但不知道是取證階段出了錯，還是審訊階段出了錯，還是邏輯推理出了錯。沒有精確定位，就無法精準糾錯。

二、Perceval：專門挑錯的"視覺核查員"

針對上述問題，研究團隊設計了一個專職"挑錯"的系統——Perceval，全名是"感知中心過程獎勵評估模型"。如果說普通的強化學習訓練就像一個只看最終成績的嚴厲考官，那麼Perceval就像一個手持放大鏡、逐句審查的細心編輯，專門負責在AI的推理過程中找出那些與圖片事實不符的描述。

Perceval的工作流程遵循一套嚴格的"先思考後裁決"模式。當它接收到一張圖片、一個問題和AI給出的推理過程之後，會先逐條提取AI在推理中涉及的圖像相關陳述，比如"桌子的主色調是深棕色或黑色"。接著，它會把每條陳述與圖片中的實際視覺證據逐一比對。最終，如果發現某條陳述與圖片內容不符，就會把這條有問題的原文字句精確標記出來，輸出到一個格式化的答案區域。如果推理過程完全準確，它就簡單輸出"回答正確"。

這個設計有兩個關鍵特點。第一，Perceval輸出的不是一個簡單的"好"或"壞"的分數，而是精確標記出有問題的具體文字片段，比如"桌子的主色調是深棕色或黑色"這整段話。第二，它的工作粒度細化到了字符級別——它能告訴訓練系統，錯誤出現在第幾個字到第幾個字之間，而不是籠統地說"這個回答有點問題"。

贊助商廣告

為了讓Perceval具備這種精準核查能力，研究團隊對它進行了專門訓練。訓練數據的構建分四個環節進行。首先，他們選取了大量需要精確視覺感知的任務圖片和問題，重點包括在複雜圖片中尋找特定物體的"視覺搜索"任務，以及根據描述定位圖片中具體區域的"指代表達定位"任務，同時也加入少量數學推理和通用理解類題目以保持廣度。

接下來，他們用一個現成的視覺語言模型（Qwen2.5-VL-7B）對這些圖片和問題生成推理回答。由於這個模型能力有限，它生成的回答中自然包含了大量視覺幻覺，這些帶有錯誤的回答就成了Perceval學習如何識別錯誤的"反面教材"。

然後，研究團隊請出了更強大的AI模型Gemini-2.5-Pro，對每一條模型生成的回答進行逐步驟的幻覺檢測，並按照Perceval的輸出格式生成標註數據——標註出每個回答中哪些陳述與圖片不符、為什麼不符。最後，用這批標註數據對Perceval進行監督微調，使其掌握這種精細化的視覺核查能力。

三、把"挑錯專家"接入訓練流水線

有了Perceval這個精準的錯誤定位工具，研究團隊接下來做的事情，就是把它的輸出信號真正融入到AI的訓練過程中去。

傳統的GRPO訓練方法（組相對策略優化，一種主流的強化學習算法）在給AI評分時，是把一個分數貼到整條回答上——無論這條回答有1000個字，分數都是同一個數值，平攤到每一個字上。這就像給一篇文章評分時，不管是文章開頭的精彩引言還是中間的事實性錯誤，每個字得到的評價權重是一樣的。

研究團隊提出的改進方案，是讓優勢分數在字符級別上產生差異。具體做法是：先用傳統方式計算出整條回答的序列級優勢分數，然後讓Perceval掃描這條回答，找出所有與圖片事實不符的字符片段，建立一個二值掩碼——被標記為幻覺的字符位置標記為1，其他位置標記為0。

接著，根據這個掩碼對優勢分數進行調整。被標記為幻覺的字符，其學習信號會被額外削弱；而正確的字符，學習信號保持不變。調整的力度由一個超參數α控制，研究團隊經過大量實驗，確定α=0.1是最優選擇。

贊助商廣告

這種調整的效果很有意思：當整條回答的序列級分數是正數時（說明整體回答還不錯），幻覺字符的優勢分數會從正值縮小，減弱了對這些錯誤表達的強化；當整條回答的序列級分數是負數時（說明整體回答很差），幻覺字符的優勢分數會變得更負，加強了對這些錯誤表達的懲罰。無論哪種情況，AI都會清晰地感受到"這幾個字說錯了，以後不要這麼說"的信號。

值得關注的是，研究團隊在訓練時採用了一種聰明的條件策略：Perceval只介入視覺感知相關的訓練數據，對於數學推理等其他類型的訓練數據，仍然使用普通的GRPO方式。這個設計並非妥協，而是為了專門驗證一個科學假說：如果視覺感知能力的提升是根本性的，那麼它應該能自然遷移到其他需要精細感知的任務上，而不需要在每種任務上都單獨介入。

四、在推理時幫AI"回頭糾錯"

Perceval的用途不只局限於訓練階段，它在AI實際回答問題時（推理階段）同樣可以發揮作用，幫助AI在輸出過程中實時糾正自己的錯誤。

研究團隊設計了兩種在推理時利用Perceval的策略，核心思路都是"截斷重來"。

第一種叫做"截斷再生成"。當AI正在生成回答的推理過程時，Perceval在旁邊實時監控。一旦Perceval發現某段推理中包含了與圖片不符的陳述，就會立即介入：把AI已經生成的推理過程從那個錯誤陳述出現的位置截斷，保留之前正確的部分，然後讓AI從這個截斷點重新往後生成。這個過程可以反覆進行，最多執行k輪，直到Perceval認為整個推理過程都通過了視覺核查，或者達到最大疊代次數為止。這種方式的妙處在於，AI重新生成時能夠參考自己之前已經通過審查的推理上下文，不需要從頭開始，效率較高。

第二種叫做"截斷反思再生成"。在截斷之後，不是直接讓AI續寫，而是先插入一段簡短的反思提示，比如"等等，我需要更仔細地重新考慮這個推理：圖中的水杯並不在磚塊上。"這段提示起到畫龍點睛的作用，明確告訴AI自己在哪裡犯了什麼類型的錯誤（是物體識別錯了，還是屬性描述錯了，還是空間關係判斷錯了），然後讓AI帶著這份"頓悟"重新續寫後續推理。

贊助商廣告

這兩種策略本質上都是利用更多的計算資源換取更準確的答案，在AI領域被稱為"測試時擴展"（test-time scaling）。研究團隊把它們與另一種經典的測試時擴展策略"多數投票"進行了比較——後者是讓AI對同一個問題生成多個答案，然後選出出現次數最多的那個作為最終答案。

五、實驗結果：感知變好了，推理也跟著進步了

研究團隊在8個不同類型的視覺推理基準測試上驗證了Perceval的效果，這8個測試覆蓋了視覺搜索、感知密集型推理、數學推理和圖表推理四大類別。

在視覺搜索類任務中，測試集V*要求AI在高解析度複雜圖片中精確定位微小目標物體，並判斷它們的屬性或空間關係——這正是最容易產生視覺幻覺的場景。對比基準是直接使用GRPO訓練的同款模型（Qwen2.5-VL），3B參數規模的模型在加入Perceval後，整體準確率從80.10%提升到83.25%，其中空間關係判斷子任務的準確率從86.95%大幅躍升至90.43%，提升幅度超過3個百分點。7B參數規模的模型同樣有所提升，從84.29%提升至86.39%。

在感知密集型推理類任務中，BLINK測試涵蓋了相對深度判斷、視覺對應關係、圖像真實性檢測等14種考驗基礎視覺感知的題目類型。使用Perceval訓練的7B模型在這個測試上取得了54.49的分數，優於GRPO基準的53.55。另一個測試MMStar專門篩選了那些必須真正看懂圖片才能回答的題目，排除了僅憑文字先驗知識就能猜對的情況，Perceval訓練的7B模型在這裡達到63.8，高於GRPO基準的62.0。

最能說明問題的是數學和圖表推理類任務的表現——這些任務在訓練時並沒有使用Perceval進行干預。然而，Perceval訓練的3B模型在MathVision數學視覺推理測試上從23.36跳升至26.32，在ChartQA圖表問答測試上從83.32提升到86.48。這種"感知能力提升帶動推理能力全面進步"的現象正是研究團隊最想驗證的假說，他們將其歸因於：圖表理解、數據點定位、圖形讀數等數學視覺任務，從根本上依賴精細的感知能力。當AI能更準確地"看清楚"圖表時，它自然也能更正確地回答關於圖表的數學問題。

贊助商廣告

在測試時擴展策略的對比實驗中，研究團隊固定使用3B模型，分別在k=4、k=8、k=16三種採樣次數下比較了多數投票、截斷再生成和截斷反思再生成三種策略。結果顯示，Perceval指導的兩種截斷策略在V*和BLINK兩個測試上始終優於多數投票。尤其值得關注的是，多數投票策略在k從4增加到8、再增加到16時，性能幾乎不再提升，說明靠"多生成幾次取平均"這條路在困難任務上很快就遇到了天花板。而截斷再生成策略隨著k的增大還在持續改善，在k=16時將V*測試的空間關係子任務準確率推到了81.57，相比k=4時的76.32有顯著提升。

相比之下，截斷反思再生成策略的效果略遜於截斷再生成，研究團隊分析認為，這是因為訓練數據中缺乏足夠多的"AI自我反思"類型樣本，導致當推理過程中突然插入一段外部反思提示時，AI的續寫質量不夠穩定，不如讓AI順著自己已生成的上下文自然續寫來得可靠。

六、沒有被AI"鑽空子"的證明

在強化學習領域，有一個讓研究者普遍頭疼的問題叫做"獎勵欺騙"——AI太聰明了，它會學會如何讓獎勵系統誤以為自己表現很好，實際上並沒有真正進步。比如，如果獎勵系統只是粗略地給整條回答評分，AI可能會學會在語言風格上迎合獎勵系統的偏好，而不是真的提升答題質量。

研究團隊專門設計了一個監控實驗來驗證Perceval是否遭到了獎勵欺騙。他們在整個訓練過程中持續追蹤一個指標：Perceval認為包含幻覺的回答占所有回答的比例。

訓練剛開始時，這個比例出現了明顯下降——說明AI確實在學著減少幻覺，這是好事。但在訓練進行到一定程度之後，這個比例趨於穩定，不再繼續下降。這個"趨於穩定"的現象恰恰是沒有發生獎勵欺騙的有力證明。如果AI在欺騙Perceval，那這個比例應該會持續急劇下降，最終接近於零，因為AI會學會讓Perceval"認為"自己不再產生幻覺，而不是真的消除幻覺。比例的穩定意味著Perceval始終能檢測出AI實際產生的幻覺，AI沒能找到欺騙它的捷徑。

贊助商廣告

研究團隊認為，Perceval之所以能抵抗獎勵欺騙，關鍵在於它介入的方式與傳統獎勵模型不同。傳統獎勵模型直接輸出一個分數，AI可以專門學習如何讓這個分數變高。而Perceval不輸出分數，它輸出的是具體的錯誤文字片段，這個片段被用於調整訓練信號，而非直接作為優化目標。這種間接、精細的介入方式，讓AI難以找到系統性的"投機取巧"路徑。

七、關於超參數的精細調校

研究團隊對幻覺懲罰強度控制參數α做了系統性的消融實驗，測試了0.03、0.1和0.3三個不同取值，並與α=0（即普通GRPO）進行對比。

α=0.03時，懲罰力度過於微弱，雖然在V*測試上有輕微提升（從80.10到81.68），但對AI根深蒂固的幻覺習慣改變有限，效果不明顯。α=0.3時，懲罰力度又過強，結果反而比普通GRPO還要差（V*測試上只有78.53，低於GRPO的80.10）。研究團隊分析，這是因為Perceval標記的是整個有問題的字符串，當懲罰力度過大時，那些語法上必要但本身無害的詞（比如"的"、"是"、"在"這類助詞）也會受到牽連，引入大量訓練噪音，導致整體性能下滑。

α=0.1時，表現最佳，在V*、RealWorldQA、MathVision和ChartQA四個測試上均達到最高分。這個數值既足夠讓AI感受到"這幾個字說錯了"的明確信號，又不至於把無辜的語法詞彙也一併懲罰，達到了精準糾錯與穩定訓練的最佳平衡。

與現有方法橫向比較，研究團隊訓練的7B模型在視覺搜索任務上達到86.39的整體準確率，超越了像素推理者（Pixel-Reasoner，84.30）和VL-Rethinker（56.54）等競爭方法，與DeepEyes（87.43）的表現相當。後兩者都依賴外部工具（如圖像裁剪和縮放操作）來輔助物體定位，而Perceval訓練的模型完全依靠強化了的內在視覺感知能力，無需任何外部工具介入，能取得與工具增強方法相近的性能，本身就說明了這條技術路線的潛力。

說到底，這項研究把一個長期困擾AI視覺推理的根本性問題——"AI說了什麽，卻根本沒看圖"——用一種精巧而實用的工程方案加以解決。Perceval的設計思路並不神秘：它就是在AI說話的過程中，逐句對照圖片檢查，一旦發現說錯了，就明確標出來，讓訓練系統知道"錯在這裡，不是錯在那裡"。這種從粗糙的結果導向轉向精細的過程導向的思路，讓AI的視覺感知能力得到了實質性的提升，並且這種提升不局限於被專門訓練的任務類型，而是像打好了地基一樣，讓各類需要看圖才能答對的問題都得到改善。對於未來需要視覺語言模型在醫療影像分析、精密工業檢測、精確地圖解讀等領域承擔重要任務的應用場景來說，這種減少幻覺、提升視覺忠實度的研究方向，具有相當現實的意義。感興趣的讀者可以通過論文編號arXiv:2604.24583查閱完整研究內容，代碼和數據也將在GitHub上公開發布。

贊助商廣告

Q&A

Q1：視覺語言模型中的"幻覺"問題具體指什麼？

A：視覺語言模型的"幻覺"指的是AI在描述圖片內容時，說出與圖片實際內容不符的陳述。比如圖片裡的桌子明明是白色，AI卻在推理過程中說"桌子是深棕色的"；或者藍色卡車明明在白色轎車右側，AI卻說"在左側"。這類錯誤源於AI傾向於根據語言經驗"腦補"內容，而非真正仔細核對圖片中的視覺證據。

Q2：Perceval是如何在訓練中減少AI幻覺的？

A：Perceval通過精準標記AI推理過程中與圖片不符的具體文字片段，將這些標記轉化為字符級別的懲罰信號，融入強化學習的訓練過程。與傳統方式只給整條回答一個籠統分數不同，Perceval能告訴訓練系統"錯在第幾個字到第幾個字"，讓AI明確知道哪些表達需要糾正，從而實現精準的過程級監督。

Q3：截斷再生成策略與多數投票策略有什麼區別？

A：多數投票是讓AI對同一問題生成多個答案，選出現次數最多的那個，這種方法在困難任務上很快遇到性能瓶頸。截斷再生成則是讓Perceval實時監控AI的推理過程，一旦發現幻覺陳述就截斷錯誤部分，保留正確前綴讓AI重新續寫，可以多輪疊代。實驗顯示截斷再生成在增加計算次數時仍能持續提升準確率，而多數投票在k從4增加到16時性能幾乎不再改善。