這項由中國人民大學高嶺人工智慧學院、字節跳動、加州大學聖地哥分校和香港科技大學聯合開展的研究,以預印本形式於2026年4月27日公開發布,論文編號為arXiv:2604.24583。研究的核心成果是一個名為Perceval的感知中心過程獎勵模型,旨在從根本上解決AI視覺語言模型在推理過程中"看圖說瞎話"的頑固問題。
當你向一個AI助手展示一張客廳照片,詢問"藍色沙發在紅色椅子的左邊還是右邊",AI可能會非常自信地給出一個答案——但那個答案完全是憑空捏造的,因為它根本沒有仔細"看"那張圖,只是根據語言習慣給了你一個聽起來合理的回答。這種現象在AI領域有個專門的名字,叫做"幻覺"(hallucination),它就像一個自信滿滿卻閉著眼睛描述風景的導遊:話說得頭頭是道,但描述的根本不是眼前的景色。
正是為了解決這個棘手問題,研究團隊提出了Perceval這套系統,並將其與現有的強化學習訓練框架深度融合,讓AI在推理的每一個步驟都必須真正對照圖片核實自己的說法。
一、為什麼AI視覺助手會"睜眼說瞎話"
要理解這個問題,先得弄清楚現在的AI視覺助手是怎麼訓練出來的。目前最流行的訓練方法叫做"帶可驗證獎勵的強化學習",簡稱RLVR。這套方法的邏輯非常樸素:AI生成一個答案,如果答案對了就給獎勵,如果答案錯了就給懲罰,反覆訓練,AI就會慢慢變聰明。
然而,這套方法存在一個致命缺陷——它只看最終答案,不管中間推理過程。打個比方,這就像老師批改作文時只看最後一句話"我認為答案是B",而完全不管學生前面寫了什麼推理過程。如果學生在推理過程中對題目的某個關鍵事實理解錯了,但最後碰巧猜對了答案,老師也會給滿分。反過來,即便學生推理過程扎紮實實,只是最後一步筆誤,也會得零分。這種"只看結果"的評價方式,在學術上被稱為"獎勵稀疏"問題。
對於視覺語言模型來說,這個問題尤為突出。AI在用語言推理時,往往會插入一些對圖片內容的描述——比如"圖中的桌子是深棕色的"或者"藍色卡車在白色轎車的左側"。這些描述可能完全是錯的,是AI憑語言經驗"腦補"出來的,但只要最終答案碰巧對了,訓練系統就不會給出任何懲罰信號。久而久之,AI就學會了:只要能答對題,中間過程隨便編。
研究團隊把這個問題形容為"信用分配難題"——到底是哪一步推理出了問題,傳統訓練方式根本無法給出精確定位。這就像偵探辦案時只知道"案子沒破",但不知道是取證階段出了錯,還是審訊階段出了錯,還是邏輯推理出了錯。沒有精確定位,就無法精準糾錯。
二、Perceval:專門挑錯的"視覺核查員"
針對上述問題,研究團隊設計了一個專職"挑錯"的系統——Perceval,全名是"感知中心過程獎勵評估模型"。如果說普通的強化學習訓練就像一個只看最終成績的嚴厲考官,那麼Perceval就像一個手持放大鏡、逐句審查的細心編輯,專門負責在AI的推理過程中找出那些與圖片事實不符的描述。
Perceval的工作流程遵循一套嚴格的"先思考後裁決"模式。當它接收到一張圖片、一個問題和AI給出的推理過程之後,會先逐條提取AI在推理中涉及的圖像相關陳述,比如"桌子的主色調是深棕色或黑色"。接著,它會把每條陳述與圖片中的實際視覺證據逐一比對。最終,如果發現某條陳述與圖片內容不符,就會把這條有問題的原文字句精確標記出來,輸出到一個格式化的答案區域。如果推理過程完全準確,它就簡單輸出"回答正確"。
這個設計有兩個關鍵特點。第一,Perceval輸出的不是一個簡單的"好"或"壞"的分數,而是精確標記出有問題的具體文字片段,比如"桌子的主色調是深棕色或黑色"這整段話。第二,它的工作粒度細化到了字符級別——它能告訴訓練系統,錯誤出現在第幾個字到第幾個字之間,而不是籠統地說"這個回答有點問題"。
為了讓Perceval具備這種精準核查能力,研究團隊對它進行了專門訓練。訓練數據的構建分四個環節進行。首先,他們選取了大量需要精確視覺感知的任務圖片和問題,重點包括在複雜圖片中尋找特定物體的"視覺搜索"任務,以及根據描述定位圖片中具體區域的"指代表達定位"任務,同時也加入少量數學推理和通用理解類題目以保持廣度。
接下來,他們用一個現成的視覺語言模型(Qwen2.5-VL-7B)對這些圖片和問題生成推理回答。由於這個模型能力有限,它生成的回答中自然包含了大量視覺幻覺,這些帶有錯誤的回答就成了Perceval學習如何識別錯誤的"反面教材"。
然後,研究團隊請出了更強大的AI模型Gemini-2.5-Pro,對每一條模型生成的回答進行逐步驟的幻覺檢測,並按照Perceval的輸出格式生成標註數據——標註出每個回答中哪些陳述與圖片不符、為什麼不符。最後,用這批標註數據對Perceval進行監督微調,使其掌握這種精細化的視覺核查能力。
三、把"挑錯專家"接入訓練流水線
有了Perceval這個精準的錯誤定位工具,研究團隊接下來做的事情,就是把它的輸出信號真正融入到AI的訓練過程中去。
傳統的GRPO訓練方法(組相對策略優化,一種主流的強化學習算法)在給AI評分時,是把一個分數貼到整條回答上——無論這條回答有1000個字,分數都是同一個數值,平攤到每一個字上。這就像給一篇文章評分時,不管是文章開頭的精彩引言還是中間的事實性錯誤,每個字得到的評價權重是一樣的。
研究團隊提出的改進方案,是讓優勢分數在字符級別上產生差異。具體做法是:先用傳統方式計算出整條回答的序列級優勢分數,然後讓Perceval掃描這條回答,找出所有與圖片事實不符的字符片段,建立一個二值掩碼——被標記為幻覺的字符位置標記為1,其他位置標記為0。
接著,根據這個掩碼對優勢分數進行調整。被標記為幻覺的字符,其學習信號會被額外削弱;而正確的字符,學習信號保持不變。調整的力度由一個超參數α控制,研究團隊經過大量實驗,確定α=0.1是最優選擇。
這種調整的效果很有意思:當整條回答的序列級分數是正數時(說明整體回答還不錯),幻覺字符的優勢分數會從正值縮小,減弱了對這些錯誤表達的強化;當整條回答的序列級分數是負數時(說明整體回答很差),幻覺字符的優勢分數會變得更負,加強了對這些錯誤表達的懲罰。無論哪種情況,AI都會清晰地感受到"這幾個字說錯了,以後不要這麼說"的信號。
值得關注的是,研究團隊在訓練時採用了一種聰明的條件策略:Perceval只介入視覺感知相關的訓練數據,對於數學推理等其他類型的訓練數據,仍然使用普通的GRPO方式。這個設計並非妥協,而是為了專門驗證一個科學假說:如果視覺感知能力的提升是根本性的,那麼它應該能自然遷移到其他需要精細感知的任務上,而不需要在每種任務上都單獨介入。
四、在推理時幫AI"回頭糾錯"
Perceval的用途不只局限於訓練階段,它在AI實際回答問題時(推理階段)同樣可以發揮作用,幫助AI在輸出過程中實時糾正自己的錯誤。
研究團隊設計了兩種在推理時利用Perceval的策略,核心思路都是"截斷重來"。
第一種叫做"截斷再生成"。當AI正在生成回答的推理過程時,Perceval在旁邊實時監控。一旦Perceval發現某段推理中包含了與圖片不符的陳述,就會立即介入:把AI已經生成的推理過程從那個錯誤陳述出現的位置截斷,保留之前正確的部分,然後讓AI從這個截斷點重新往後生成。這個過程可以反覆進行,最多執行k輪,直到Perceval認為整個推理過程都通過了視覺核查,或者達到最大疊代次數為止。這種方式的妙處在於,AI重新生成時能夠參考自己之前已經通過審查的推理上下文,不需要從頭開始,效率較高。
第二種叫做"截斷反思再生成"。在截斷之後,不是直接讓AI續寫,而是先插入一段簡短的反思提示,比如"等等,我需要更仔細地重新考慮這個推理:圖中的水杯並不在磚塊上。"這段提示起到畫龍點睛的作用,明確告訴AI自己在哪裡犯了什麼類型的錯誤(是物體識別錯了,還是屬性描述錯了,還是空間關係判斷錯了),然後讓AI帶著這份"頓悟"重新續寫後續推理。
這兩種策略本質上都是利用更多的計算資源換取更準確的答案,在AI領域被稱為"測試時擴展"(test-time scaling)。研究團隊把它們與另一種經典的測試時擴展策略"多數投票"進行了比較——後者是讓AI對同一個問題生成多個答案,然後選出出現次數最多的那個作為最終答案。
五、實驗結果:感知變好了,推理也跟著進步了
研究團隊在8個不同類型的視覺推理基準測試上驗證了Perceval的效果,這8個測試覆蓋了視覺搜索、感知密集型推理、數學推理和圖表推理四大類別。
在視覺搜索類任務中,測試集V*要求AI在高解析度複雜圖片中精確定位微小目標物體,並判斷它們的屬性或空間關係——這正是最容易產生視覺幻覺的場景。對比基準是直接使用GRPO訓練的同款模型(Qwen2.5-VL),3B參數規模的模型在加入Perceval後,整體準確率從80.10%提升到83.25%,其中空間關係判斷子任務的準確率從86.95%大幅躍升至90.43%,提升幅度超過3個百分點。7B參數規模的模型同樣有所提升,從84.29%提升至86.39%。
在感知密集型推理類任務中,BLINK測試涵蓋了相對深度判斷、視覺對應關係、圖像真實性檢測等14種考驗基礎視覺感知的題目類型。使用Perceval訓練的7B模型在這個測試上取得了54.49的分數,優於GRPO基準的53.55。另一個測試MMStar專門篩選了那些必須真正看懂圖片才能回答的題目,排除了僅憑文字先驗知識就能猜對的情況,Perceval訓練的7B模型在這裡達到63.8,高於GRPO基準的62.0。
最能說明問題的是數學和圖表推理類任務的表現——這些任務在訓練時並沒有使用Perceval進行干預。然而,Perceval訓練的3B模型在MathVision數學視覺推理測試上從23.36跳升至26.32,在ChartQA圖表問答測試上從83.32提升到86.48。這種"感知能力提升帶動推理能力全面進步"的現象正是研究團隊最想驗證的假說,他們將其歸因於:圖表理解、數據點定位、圖形讀數等數學視覺任務,從根本上依賴精細的感知能力。當AI能更準確地"看清楚"圖表時,它自然也能更正確地回答關於圖表的數學問題。
在測試時擴展策略的對比實驗中,研究團隊固定使用3B模型,分別在k=4、k=8、k=16三種採樣次數下比較了多數投票、截斷再生成和截斷反思再生成三種策略。結果顯示,Perceval指導的兩種截斷策略在V*和BLINK兩個測試上始終優於多數投票。尤其值得關注的是,多數投票策略在k從4增加到8、再增加到16時,性能幾乎不再提升,說明靠"多生成幾次取平均"這條路在困難任務上很快就遇到了天花板。而截斷再生成策略隨著k的增大還在持續改善,在k=16時將V*測試的空間關係子任務準確率推到了81.57,相比k=4時的76.32有顯著提升。
相比之下,截斷反思再生成策略的效果略遜於截斷再生成,研究團隊分析認為,這是因為訓練數據中缺乏足夠多的"AI自我反思"類型樣本,導致當推理過程中突然插入一段外部反思提示時,AI的續寫質量不夠穩定,不如讓AI順著自己已生成的上下文自然續寫來得可靠。
六、沒有被AI"鑽空子"的證明
在強化學習領域,有一個讓研究者普遍頭疼的問題叫做"獎勵欺騙"——AI太聰明了,它會學會如何讓獎勵系統誤以為自己表現很好,實際上並沒有真正進步。比如,如果獎勵系統只是粗略地給整條回答評分,AI可能會學會在語言風格上迎合獎勵系統的偏好,而不是真的提升答題質量。
研究團隊專門設計了一個監控實驗來驗證Perceval是否遭到了獎勵欺騙。他們在整個訓練過程中持續追蹤一個指標:Perceval認為包含幻覺的回答占所有回答的比例。
訓練剛開始時,這個比例出現了明顯下降——說明AI確實在學著減少幻覺,這是好事。但在訓練進行到一定程度之後,這個比例趨於穩定,不再繼續下降。這個"趨於穩定"的現象恰恰是沒有發生獎勵欺騙的有力證明。如果AI在欺騙Perceval,那這個比例應該會持續急劇下降,最終接近於零,因為AI會學會讓Perceval"認為"自己不再產生幻覺,而不是真的消除幻覺。比例的穩定意味著Perceval始終能檢測出AI實際產生的幻覺,AI沒能找到欺騙它的捷徑。
研究團隊認為,Perceval之所以能抵抗獎勵欺騙,關鍵在於它介入的方式與傳統獎勵模型不同。傳統獎勵模型直接輸出一個分數,AI可以專門學習如何讓這個分數變高。而Perceval不輸出分數,它輸出的是具體的錯誤文字片段,這個片段被用於調整訓練信號,而非直接作為優化目標。這種間接、精細的介入方式,讓AI難以找到系統性的"投機取巧"路徑。
七、關於超參數的精細調校
研究團隊對幻覺懲罰強度控制參數α做了系統性的消融實驗,測試了0.03、0.1和0.3三個不同取值,並與α=0(即普通GRPO)進行對比。
α=0.03時,懲罰力度過於微弱,雖然在V*測試上有輕微提升(從80.10到81.68),但對AI根深蒂固的幻覺習慣改變有限,效果不明顯。α=0.3時,懲罰力度又過強,結果反而比普通GRPO還要差(V*測試上只有78.53,低於GRPO的80.10)。研究團隊分析,這是因為Perceval標記的是整個有問題的字符串,當懲罰力度過大時,那些語法上必要但本身無害的詞(比如"的"、"是"、"在"這類助詞)也會受到牽連,引入大量訓練噪音,導致整體性能下滑。
α=0.1時,表現最佳,在V*、RealWorldQA、MathVision和ChartQA四個測試上均達到最高分。這個數值既足夠讓AI感受到"這幾個字說錯了"的明確信號,又不至於把無辜的語法詞彙也一併懲罰,達到了精準糾錯與穩定訓練的最佳平衡。
與現有方法橫向比較,研究團隊訓練的7B模型在視覺搜索任務上達到86.39的整體準確率,超越了像素推理者(Pixel-Reasoner,84.30)和VL-Rethinker(56.54)等競爭方法,與DeepEyes(87.43)的表現相當。後兩者都依賴外部工具(如圖像裁剪和縮放操作)來輔助物體定位,而Perceval訓練的模型完全依靠強化了的內在視覺感知能力,無需任何外部工具介入,能取得與工具增強方法相近的性能,本身就說明了這條技術路線的潛力。
說到底,這項研究把一個長期困擾AI視覺推理的根本性問題——"AI說了什麽,卻根本沒看圖"——用一種精巧而實用的工程方案加以解決。Perceval的設計思路並不神秘:它就是在AI說話的過程中,逐句對照圖片檢查,一旦發現說錯了,就明確標出來,讓訓練系統知道"錯在這裡,不是錯在那裡"。這種從粗糙的結果導向轉向精細的過程導向的思路,讓AI的視覺感知能力得到了實質性的提升,並且這種提升不局限於被專門訓練的任務類型,而是像打好了地基一樣,讓各類需要看圖才能答對的問題都得到改善。對於未來需要視覺語言模型在醫療影像分析、精密工業檢測、精確地圖解讀等領域承擔重要任務的應用場景來說,這種減少幻覺、提升視覺忠實度的研究方向,具有相當現實的意義。感興趣的讀者可以通過論文編號arXiv:2604.24583查閱完整研究內容,代碼和數據也將在GitHub上公開發布。
Q&A
Q1:視覺語言模型中的"幻覺"問題具體指什麼?
A:視覺語言模型的"幻覺"指的是AI在描述圖片內容時,說出與圖片實際內容不符的陳述。比如圖片裡的桌子明明是白色,AI卻在推理過程中說"桌子是深棕色的";或者藍色卡車明明在白色轎車右側,AI卻說"在左側"。這類錯誤源於AI傾向於根據語言經驗"腦補"內容,而非真正仔細核對圖片中的視覺證據。
Q2:Perceval是如何在訓練中減少AI幻覺的?
A:Perceval通過精準標記AI推理過程中與圖片不符的具體文字片段,將這些標記轉化為字符級別的懲罰信號,融入強化學習的訓練過程。與傳統方式只給整條回答一個籠統分數不同,Perceval能告訴訓練系統"錯在第幾個字到第幾個字",讓AI明確知道哪些表達需要糾正,從而實現精準的過程級監督。
Q3:截斷再生成策略與多數投票策略有什麼區別?
A:多數投票是讓AI對同一問題生成多個答案,選出現次數最多的那個,這種方法在困難任務上很快遇到性能瓶頸。截斷再生成則是讓Perceval實時監控AI的推理過程,一旦發現幻覺陳述就截斷錯誤部分,保留正確前綴讓AI重新續寫,可以多輪疊代。實驗顯示截斷再生成在增加計算次數時仍能持續提升準確率,而多數投票在k從4增加到16時性能幾乎不再改善。






