騰訊混元與馬里蘭大學聯手：讓AI視覺模型「看清」模糊圖片也能答對題

這項研究由騰訊混元、馬里蘭大學帕克分校、弗吉尼亞大學以及北卡羅來納大學教堂山分校的研究團隊共同完成，論文以預印本形式發布於2026年5月，編號為arXiv:2605.09262，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

**一、當AI遇到"近視"：一個幾乎被忽視的大問題**

手機拍出的糊照片、掃描得坑坑窪窪的試卷、網速差時被壓縮得面目全非的圖片——這些日常場景對人來說頂多讓眼睛費力一點，但對於如今風頭正勁的多模態大語言模型（也就是那些既能看圖又能回答問題的AI）來說，卻可能是致命的考驗。

所謂多模態大語言模型，可以把它理解成一個既會看圖、又會思考、還會說話的"全能學生"。給它一張清晰的數學題截圖，它能條分縷析地把答案算出來；給它一張圖表，它能解讀其中的趨勢和規律。近年來，研究人員用"強化學習"的方法大幅提升了這類模型的推理能力——強化學習大致上就是通過反覆做題、對了給獎勵、錯了受懲罰，讓模型越來越會解題。

然而，這個"全能學生"有一個隱藏弱點：它的優秀成績幾乎都建立在"清晰、完整的試題"這一前提之上。一旦試卷被水浸濕、被複印機糟蹋、被手抖拍糊，它的成績就會斷崖式下跌，甚至開始胡言亂語。這就好比一個在安靜考場裡考滿分的學生，一到嘈雜環境裡就完全不會做題了。

研究團隊把這個問題擺上了台面，並提出了一個名叫ROMA的訓練框架來解決它。ROMA的名字來自"RObust MultimodAl reasoning"（魯棒多模態推理）的縮寫，核心思想是：在訓練AI的過程中，讓它學會在圖片質量變差時依然保持邏輯清晰、答題準確。

**二、問題究竟有多嚴重：從"看清"到"看不清"的斷層**

為了讓讀者對問題的嚴重程度有直觀感受，不妨看一組數字。研究團隊用一種叫做GRPO的標準強化學習方法訓練了一個8B規模（約80億參數）的多模態模型，在七個權威測試集上進行了測試。

贊助商廣告

在圖片清晰的情況下，這個模型的平均得分是68.9分（滿分100分），表現相當不錯。但一旦圖片受到"已知類型"的污染——比如加上噪點、變模糊、壓縮畫質、降低解析度——分數就跌到了59.2分，足足下降了將近10分。更糟糕的是，如果遇到訓練時完全沒見過的圖片破壞方式——比如運動模糊、像素化、椒鹽噪聲——分數更是跌到了54.0分，比清晰圖片狀態低了將近15分。

這種現象背後有一個形象的比喻：這就好比一個學生考前認真準備了"清晰講義版"的題目，但考試當天發現試卷全是複印了七八次的模糊版本，頓時慌了神，甚至開始瞎猜答案。而且這個學生不只是不確定、在空白處寫"看不清"，而是信心十足地寫下了錯誤答案——這種"滿懷自信地犯錯"，在AI領域有個專有名詞叫"幻覺"（hallucination）。

這正是研究團隊需要解決的核心問題：如何讓模型在圖片質量下降時，不僅成績不要掉太多，還要避免因為"看不清"而開始編造答案、擾亂整個推理過程。

**三、為什麼"簡單粗暴"的老方法在這裡行不通**

在電腦視覺和傳統強化學習領域，提升模型對圖片扭曲的抵抗力有一個經典思路：在訓練時就把各種污染過的圖片餵給模型，讓它見過足夠多的"壞圖片"，自然就學會了應對。這就像讓運動員在各種惡劣天氣下練習，下雨天比賽時就不會手忙腳亂。

然而，這個思路直接用在多模態大語言模型的強化學習訓練上，卻會引發一個嚴重問題，研究團隊把它叫做"獎勵中毒"（reward poisoning）。

強化學習的訓練邏輯是：模型生成一段推理過程，然後系統判斷答案對不對，對了就給正獎勵、錯了就給負懲罰，模型從中學習什麼樣的推理方式是好的。問題在於，如果直接讓模型面對模糊圖片來生成推理過程，它往往因為"看不清"而產生幻覺，編出一堆錯誤的推理步驟，最終答錯。系統於是給了負懲罰。

贊助商廣告

但這個負懲罰信號是非常有誤導性的——模型並不知道自己是因為"推理方式不對"還是因為"圖片太模糊看不清楚"而被懲罰。長此以往，模型在污染圖片上的訓練信號充滿噪音，不僅沒能學會魯棒推理，反而可能讓原本在清晰圖片上運行良好的推理能力也被破壞掉，出現"政策崩潰"（policy collapse）——也就是模型徹底學亂了，什麼問題都答不好。

此外還有另一個障礙：現代多模態大模型騰訊混元與馬里蘭大學聯手讓AI視覺模型看清模糊圖片也能答對題的強化學習訓練普遍採用"無評論家"架構（如GRPO算法），不依賴傳統的價值網路來評估每個中間步驟的好壞。而傳統視覺魯棒性研究中很多有效方法，恰恰依賴這種價值網路，因此在這裡根本用不上。

面對這兩道牆，研究團隊設計出了ROMA這套全新的訓練框架。

**四、ROMA的核心設計：用"替身演練"繞開陷阱**

ROMA的精妙之處在於它重新設計了訓練時的"資訊流動"方式，而不是簡單地往訓練數據里塞更多壞圖片。

整套方法的核心是一個"雙通道前向傳播"策略。可以用一個考試培訓的比喻來理解：教練（也就是訓練系統）每次出題時，先給學生看一道清晰印刷的題目，讓學生正常作答、寫出完整的推理過程，並判斷答案對不對、得多少分。這一步完全和以前一樣，保證了獎勵信號的可靠性。

關鍵在於接下來的一步：教練把這道題的圖片"故意損壞"，製作出若干個污染版本（比如模糊版、噪點版、壓縮版），然後把同一套推理步驟"強行念給學生聽"（這就是"教師強制"技術，teacher forcing——系統不讓模型重新生成答案，而是把之前生成的推理過程原封不動地展示出來），同時觀察：模型在看到損壞版圖片時，對這些推理步驟的"認可程度"是否發生了變化。

這樣做的妙處是：模型從來不需要在污染圖片上"從頭作答"，因此不會產生幻覺，也不會污染獎勵信號。但與此同時，系統可以精確地測量出：當圖片質量變差時，模型的思維是否出現了動搖。

贊助商廣告

在這個基礎框架上，ROMA疊加了三個相互配合的訓練目標。

第一個叫做"詞元級別的KL懲罰"。KL散度是一種衡量兩個概率分布差異程度的數學工具，可以理解為"兩個版本的模型在同一道推理步驟上有多不一致"。具體而言，對於推理軌跡中的每一個輸出詞（token），系統都會比較"看清晰圖片時模型的判斷"和"看污染圖片時模型的判斷"之間的差距。如果差距太大，就施加懲罰，迫使模型學會：即使圖片變差了，對這個推理步驟的判斷也不應該大幅改變。

而且這個懲罰不是平均地施加在所有污染版本上，而是只針對"最難的那個版本"——也就是讓模型最困惑、判斷偏離最大的那種污染方式。研究團隊把這叫做"最壞情況多視角優化"（worst-case multi-view optimization）。道理也直接：只針對最簡單的污染練習，學生可能學會了應對輕度干擾，但遇到真正嚴重的污染還是崩潰；只有專門盯著最難的情形反覆磨練，才能真正建立全面的抵抗力。

第二個叫做"輔助策略梯度損失"（auxiliary policy gradient loss）。光有上述的KL懲罰還不夠，因為它只是在說"你在污染圖片下的判斷不能和清晰圖片下差太多"，但沒有告訴模型"你到底應該怎麼答"。如果只有約束沒有引導，模型可能陷入一種奇怪的狀態：為了減少差異而讓自己在兩種情況下都變得一樣糟糕。為了提供積極的學習信號，研究團隊引入了一個額外目標：在一個隨機選擇的污染版圖片上，用原來清晰圖片推導出的"優勢值"（即這道題答對了能獲得多少獎勵）來引導模型更新。也就是說，模型要學會：即使看的是模糊圖片，也要朝著"在清晰圖片上能答對"的方向去努力。

第三個叫做"正確性條件約束"（correctness-conditioned regularization）。這是一個非常關鍵的保護機制：上述的KL懲罰只在原本清晰圖片答對的推理軌跡上才會生效。道理很簡單——如果模型在清晰圖片上就答錯了、推理過程本身就是錯的，那麼強迫它在污染圖片上也保持和這個錯誤過程一致，等於是在強化錯誤。只有當推理軌跡本身是正確的，才有必要、也才值得保護它在圖片質量下降時的穩定性。

贊助商廣告

這三個機制合在一起，構成了ROMA的最終訓練目標：既要在清晰圖片上答好題（主強化學習目標），又要在污染圖片上也能正確推理（輔助策略梯度），還要在清晰與污染之間保持認知一致（KL懲罰），而且這種一致性只施加在真正答對的推理過程上（正確性條件）。

**五、實驗數據：成績單上的真實表現**

研究團隊用兩個規模的模型進行了驗證：Qwen3-VL-4B（約40億參數）和Qwen3-VL-8B（約80億參數）。這兩個模型是騰訊推出的高性能多模態推理基礎模型，本身已經具備相當強的視覺推理能力。

訓練數據使用了MMRL30k數據集，約包含3萬條多模態推理樣本。評估則在七個公認的多模態推理測試集上展開，涵蓋了數學題解答（MathVista、WeMath）、圖表理解（ChartQA）、邏輯推理（LogicVista）、綜合視覺問答（MMStar、VisualPuzzles）和真實世界場景問答（RealWorldQA）這幾大類型，可謂覆蓋面相當廣泛。

污染方式分為兩類：訓練時見過的（高斯噪聲、高斯模糊、JPEG壓縮、解析度降低）和訓練時完全沒見過的（運動模糊、椒鹽噪聲、斑點噪聲、色調分離、像素化）。而且在主要結果展示中，測試用的污染程度是"第3級"——比訓練時用的參數範圍還要嚴重，專門考驗模型在極端情況下的泛化能力。

8B模型上，標準GRPO在清晰圖片下得了68.9分；加上ROMA訓練之後，清晰圖片下得了68.7分——幾乎一樣，說明ROMA沒有以犧牲正常表現為代價。但在見過的污染類型下，GRPO得59.2分，ROMA得61.6分，提升了2.4個百分點。在完全沒見過的污染類型下，GRPO得54.0分，ROMA得56.3分，提升了2.3個百分點。

如果把不同污染強度下的成績連成一條曲線，可以看到：隨著污染從輕度到中度到嚴重，三條曲線（基礎模型、GRPO、ROMA）都在下降，但ROMA的曲線始終位於最上方，且下降幅度最小。GRPO從清晰到嚴重污染下降了14.9個百分點，而ROMA只下降了12.4個百分點。

贊助商廣告

4B模型上的規律同樣一致：在見過的污染下，ROMA比GRPO高出1.7個百分點；在沒見過的污染下，高出1.3個百分點，同時清晰圖片下的性能幾乎相同。

研究團隊還與其他幾個同類研究的7B規模模型進行了橫向比較，包括NoisyRollout-7B、PAPO-7B、VL-Rethinker-7B、Vision-R1-7B和OpenVLThinker-7B。在清晰圖片下，ROMA的8B模型（68.7分）明顯優於所有對比模型（最高為64.0分）。在污染圖片下，ROMA同樣保持領先，見過污染下61.6分遠超NoisyRollout的54.9分和PAPO的55.4分；沒見過污染下56.3分也高於NoisyRollout的50.1分和PAPO的50.7分。

**六、拆開看：每個設計決策究竟貢獻了多少**

研究團隊通過一系列消融實驗，逐一驗證了ROMA中每個設計模組的價值。

關於最壞情況優化：如果把"只懲罰最難的那個污染版本"改成"對所有污染版本的懲罰取平均"，在見過污染下成績從61.6分降到60.0分，在沒見過污染下從56.3分降到54.5分。這證明了"專盯最難情形"的策略確實比"平均對待"更有效，符合直覺——練習時如果總是挑簡單的做，遇到真正的挑戰就會失手。

關於輔助策略梯度：如果把這個"積極引導"組件去掉，只保留KL懲罰，見過污染下從61.6分降到60.5分，沒見過污染下從56.3分降到55.4分。這印證了研究團隊的判斷：單純的約束（"你不能和清晰版差太多"）如果沒有引導（"你應該往正確答案的方向走"），效果是有限的。

關於正確性條件約束：如果把這個保護機制去掉，讓KL懲罰無差別地施加在所有推理軌跡上——包括那些本來就答錯的軌跡——見過污染下從61.6分跌到59.4分，沒見過污染下從56.3分跌到54.1分，降幅超過兩個百分點。這是三個消融實驗裡影響最大的一個，說明"不強迫模型對錯誤保持一致"這個保護機制不可或缺。

此外，研究團隊還系統地測試了關鍵超參數的敏感性。污染視角的數量K從1增到3時成績持續提升，但增到4時略有下降，因此選定K=3為默認值。輔助梯度係數α和KL懲罰係數β都在0.10時達到最佳，太小則力度不足，太大則過度約束反而干擾了主要學習目標。

贊助商廣告

**七、從成績單到具體題型：逐類拆解**

研究團隊還在附錄中提供了每種污染方式下每個測試集的詳細分數。以8B模型的見過污染測試為例，高斯模糊對ChartQA的衝擊最大：基礎模型從79.4分跌到14.6分，GRPO從81.5分跌到15.8分，而ROMA從80.8分跌到16.9分——雖然三者在模糊圖片下的ChartQA成績都很低，但ROMA的絕對分數依然是三者中最高的。

這背後有個深層原因：ChartQA測試的是圖表理解能力，而圖表中的細節（坐標軸數字、圖例文字）在高斯模糊下幾乎完全無法辨認，所有模型都受到了極大衝擊。即便如此，ROMA通過更穩健的推理過程，依然能多保留一點點有效資訊，轉化為更高的得分。

相比之下，在噪聲類型的污染（如高斯噪聲、椒鹽噪聲）上，三個模型的成績差異相對較小，但ROMA依然保持了一致的優勢，尤其在WeMath（數學推理）和LogicVista（邏輯推理）這類需要深度思考的測試集上，ROMA的提升幅度更為明顯，說明穩定的推理過程對複雜任務的幫助更大。

**八、說到底，這意味著什麼**

歸根結底，ROMA解決的是一個非常實際的問題：當我們把AI部署到真實世界裡，圖片不總是完美的。手機拍糊了、網路傳輸壓縮了、印表機壞了、掃描儀灰塵多了——這些日常場景下產生的"壞圖片"，是AI必須面對的常態，而不是例外。

過去的研究大多在"AI能不能推理"上下功夫，ROMA則把目光投向了"AI的推理能不能扛得住視覺干擾"。這兩個問題同樣重要，缺一不可。一個在實驗室里無比聰明、一到現實就出錯的AI，實用價值是大打折扣的。

從技術層面看，ROMA的貢獻在於優雅地繞開了"獎勵中毒"這個看似無解的困境，用雙通道設計將"讓模型接觸壞圖片"和"保持獎勵信號可靠"這兩件本來矛盾的事情同時實現。這種思路本身也可能對其他類似的訓練難題有參考價值。

當然，研究團隊也坦誠地指出了未來可以繼續探索的方向：將這套框架延伸到影片推理（影片本質上是連續的多幀圖片，也面臨類似的質量波動問題）；研究如何讓系統根據圖片污染的嚴重程度自動調整懲罰力度，而不是對所有情況用同樣強度的約束。

贊助商廣告

如果你對多模態AI的魯棒性研究有興趣，可以通過編號arXiv:2605.09262找到這篇論文的完整版本，裡面包含了更詳盡的實驗數據和技術細節。

---

Q&A

Q1：ROMA框架是什麼？

A：ROMA是騰訊混元等機構提出的一種強化學習訓練框架，全稱是"魯棒多模態推理"框架。它通過雙通道前向傳播、詞元級KL懲罰、輔助策略梯度損失和正確性條件約束四個機制，讓多模態AI模型在面對模糊、噪聲、壓縮等低質量圖片時依然能保持準確的推理能力，同時不損失在清晰圖片上的正常表現。

Q2：什麼是"獎勵中毒"問題？

A：獎勵中毒是指在強化學習訓練中，直接讓AI模型對污染圖片生成推理答案時，因為圖片太模糊或噪聲太多，模型會產生幻覺（編造錯誤推理），系統給出負懲罰，但這個懲罰無法區分"推理錯了"還是"圖片看不清"，導致訓練信號充滿誤導，反而破壞模型原有的推理能力。ROMA通過不在污染圖片上生成新答案來徹底規避這個問題。

Q3：ROMA在實驗中比普通GRPO強化學習提升了多少？

A：在80億參數的Qwen3-VL模型上，ROMA在見過的污染類型下比標準GRPO提升了2.4個百分點（61.6% vs 59.2%），在完全沒見過的污染類型下提升了2.3個百分點（56.3% vs 54.0%），同時在清晰圖片上的成績幾乎持平（68.7% vs 68.9%）。