宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

騰訊混元與馬里蘭大學聯手:讓AI視覺模型「看清」模糊圖片也能答對題

2026年05月15日 首頁 » 熱門科技

這項研究由騰訊混元、馬里蘭大學帕克分校、弗吉尼亞大學以及北卡羅來納大學教堂山分校的研究團隊共同完成,論文以預印本形式發布於2026年5月,編號為arXiv:2605.09262,有興趣深入了解的讀者可通過該編號查詢完整論文。

**一、當AI遇到"近視":一個幾乎被忽視的大問題**

手機拍出的糊照片、掃描得坑坑窪窪的試卷、網速差時被壓縮得面目全非的圖片——這些日常場景對人來說頂多讓眼睛費力一點,但對於如今風頭正勁的多模態大語言模型(也就是那些既能看圖又能回答問題的AI)來說,卻可能是致命的考驗。

所謂多模態大語言模型,可以把它理解成一個既會看圖、又會思考、還會說話的"全能學生"。給它一張清晰的數學題截圖,它能條分縷析地把答案算出來;給它一張圖表,它能解讀其中的趨勢和規律。近年來,研究人員用"強化學習"的方法大幅提升了這類模型的推理能力——強化學習大致上就是通過反覆做題、對了給獎勵、錯了受懲罰,讓模型越來越會解題。

然而,這個"全能學生"有一個隱藏弱點:它的優秀成績幾乎都建立在"清晰、完整的試題"這一前提之上。一旦試卷被水浸濕、被複印機糟蹋、被手抖拍糊,它的成績就會斷崖式下跌,甚至開始胡言亂語。這就好比一個在安靜考場裡考滿分的學生,一到嘈雜環境裡就完全不會做題了。

研究團隊把這個問題擺上了台面,並提出了一個名叫ROMA的訓練框架來解決它。ROMA的名字來自"RObust MultimodAl reasoning"(魯棒多模態推理)的縮寫,核心思想是:在訓練AI的過程中,讓它學會在圖片質量變差時依然保持邏輯清晰、答題準確。

**二、問題究竟有多嚴重:從"看清"到"看不清"的斷層**

為了讓讀者對問題的嚴重程度有直觀感受,不妨看一組數字。研究團隊用一種叫做GRPO的標準強化學習方法訓練了一個8B規模(約80億參數)的多模態模型,在七個權威測試集上進行了測試。

在圖片清晰的情況下,這個模型的平均得分是68.9分(滿分100分),表現相當不錯。但一旦圖片受到"已知類型"的污染——比如加上噪點、變模糊、壓縮畫質、降低解析度——分數就跌到了59.2分,足足下降了將近10分。更糟糕的是,如果遇到訓練時完全沒見過的圖片破壞方式——比如運動模糊、像素化、椒鹽噪聲——分數更是跌到了54.0分,比清晰圖片狀態低了將近15分。

這種現象背後有一個形象的比喻:這就好比一個學生考前認真準備了"清晰講義版"的題目,但考試當天發現試卷全是複印了七八次的模糊版本,頓時慌了神,甚至開始瞎猜答案。而且這個學生不只是不確定、在空白處寫"看不清",而是信心十足地寫下了錯誤答案——這種"滿懷自信地犯錯",在AI領域有個專有名詞叫"幻覺"(hallucination)。

這正是研究團隊需要解決的核心問題:如何讓模型在圖片質量下降時,不僅成績不要掉太多,還要避免因為"看不清"而開始編造答案、擾亂整個推理過程。

**三、為什麼"簡單粗暴"的老方法在這裡行不通**

在電腦視覺和傳統強化學習領域,提升模型對圖片扭曲的抵抗力有一個經典思路:在訓練時就把各種污染過的圖片餵給模型,讓它見過足夠多的"壞圖片",自然就學會了應對。這就像讓運動員在各種惡劣天氣下練習,下雨天比賽時就不會手忙腳亂。

然而,這個思路直接用在多模態大語言模型的強化學習訓練上,卻會引發一個嚴重問題,研究團隊把它叫做"獎勵中毒"(reward poisoning)。

強化學習的訓練邏輯是:模型生成一段推理過程,然後系統判斷答案對不對,對了就給正獎勵、錯了就給負懲罰,模型從中學習什麼樣的推理方式是好的。問題在於,如果直接讓模型面對模糊圖片來生成推理過程,它往往因為"看不清"而產生幻覺,編出一堆錯誤的推理步驟,最終答錯。系統於是給了負懲罰。

但這個負懲罰信號是非常有誤導性的——模型並不知道自己是因為"推理方式不對"還是因為"圖片太模糊看不清楚"而被懲罰。長此以往,模型在污染圖片上的訓練信號充滿噪音,不僅沒能學會魯棒推理,反而可能讓原本在清晰圖片上運行良好的推理能力也被破壞掉,出現"政策崩潰"(policy collapse)——也就是模型徹底學亂了,什麼問題都答不好。

此外還有另一個障礙:現代多模態大模型騰訊混元與馬里蘭大學聯手讓AI視覺模型看清模糊圖片也能答對題的強化學習訓練普遍採用"無評論家"架構(如GRPO算法),不依賴傳統的價值網路來評估每個中間步驟的好壞。而傳統視覺魯棒性研究中很多有效方法,恰恰依賴這種價值網路,因此在這裡根本用不上。

面對這兩道牆,研究團隊設計出了ROMA這套全新的訓練框架。

**四、ROMA的核心設計:用"替身演練"繞開陷阱**

ROMA的精妙之處在於它重新設計了訓練時的"資訊流動"方式,而不是簡單地往訓練數據里塞更多壞圖片。

整套方法的核心是一個"雙通道前向傳播"策略。可以用一個考試培訓的比喻來理解:教練(也就是訓練系統)每次出題時,先給學生看一道清晰印刷的題目,讓學生正常作答、寫出完整的推理過程,並判斷答案對不對、得多少分。這一步完全和以前一樣,保證了獎勵信號的可靠性。

關鍵在於接下來的一步:教練把這道題的圖片"故意損壞",製作出若干個污染版本(比如模糊版、噪點版、壓縮版),然後把同一套推理步驟"強行念給學生聽"(這就是"教師強制"技術,teacher forcing——系統不讓模型重新生成答案,而是把之前生成的推理過程原封不動地展示出來),同時觀察:模型在看到損壞版圖片時,對這些推理步驟的"認可程度"是否發生了變化。

這樣做的妙處是:模型從來不需要在污染圖片上"從頭作答",因此不會產生幻覺,也不會污染獎勵信號。但與此同時,系統可以精確地測量出:當圖片質量變差時,模型的思維是否出現了動搖。

在這個基礎框架上,ROMA疊加了三個相互配合的訓練目標。

第一個叫做"詞元級別的KL懲罰"。KL散度是一種衡量兩個概率分布差異程度的數學工具,可以理解為"兩個版本的模型在同一道推理步驟上有多不一致"。具體而言,對於推理軌跡中的每一個輸出詞(token),系統都會比較"看清晰圖片時模型的判斷"和"看污染圖片時模型的判斷"之間的差距。如果差距太大,就施加懲罰,迫使模型學會:即使圖片變差了,對這個推理步驟的判斷也不應該大幅改變。

而且這個懲罰不是平均地施加在所有污染版本上,而是只針對"最難的那個版本"——也就是讓模型最困惑、判斷偏離最大的那種污染方式。研究團隊把這叫做"最壞情況多視角優化"(worst-case multi-view optimization)。道理也直接:只針對最簡單的污染練習,學生可能學會了應對輕度干擾,但遇到真正嚴重的污染還是崩潰;只有專門盯著最難的情形反覆磨練,才能真正建立全面的抵抗力。

第二個叫做"輔助策略梯度損失"(auxiliary policy gradient loss)。光有上述的KL懲罰還不夠,因為它只是在說"你在污染圖片下的判斷不能和清晰圖片下差太多",但沒有告訴模型"你到底應該怎麼答"。如果只有約束沒有引導,模型可能陷入一種奇怪的狀態:為了減少差異而讓自己在兩種情況下都變得一樣糟糕。為了提供積極的學習信號,研究團隊引入了一個額外目標:在一個隨機選擇的污染版圖片上,用原來清晰圖片推導出的"優勢值"(即這道題答對了能獲得多少獎勵)來引導模型更新。也就是說,模型要學會:即使看的是模糊圖片,也要朝著"在清晰圖片上能答對"的方向去努力。

第三個叫做"正確性條件約束"(correctness-conditioned regularization)。這是一個非常關鍵的保護機制:上述的KL懲罰只在原本清晰圖片答對的推理軌跡上才會生效。道理很簡單——如果模型在清晰圖片上就答錯了、推理過程本身就是錯的,那麼強迫它在污染圖片上也保持和這個錯誤過程一致,等於是在強化錯誤。只有當推理軌跡本身是正確的,才有必要、也才值得保護它在圖片質量下降時的穩定性。

這三個機制合在一起,構成了ROMA的最終訓練目標:既要在清晰圖片上答好題(主強化學習目標),又要在污染圖片上也能正確推理(輔助策略梯度),還要在清晰與污染之間保持認知一致(KL懲罰),而且這種一致性只施加在真正答對的推理過程上(正確性條件)。

**五、實驗數據:成績單上的真實表現**

研究團隊用兩個規模的模型進行了驗證:Qwen3-VL-4B(約40億參數)和Qwen3-VL-8B(約80億參數)。這兩個模型是騰訊推出的高性能多模態推理基礎模型,本身已經具備相當強的視覺推理能力。

訓練數據使用了MMRL30k數據集,約包含3萬條多模態推理樣本。評估則在七個公認的多模態推理測試集上展開,涵蓋了數學題解答(MathVista、WeMath)、圖表理解(ChartQA)、邏輯推理(LogicVista)、綜合視覺問答(MMStar、VisualPuzzles)和真實世界場景問答(RealWorldQA)這幾大類型,可謂覆蓋面相當廣泛。

污染方式分為兩類:訓練時見過的(高斯噪聲、高斯模糊、JPEG壓縮、解析度降低)和訓練時完全沒見過的(運動模糊、椒鹽噪聲、斑點噪聲、色調分離、像素化)。而且在主要結果展示中,測試用的污染程度是"第3級"——比訓練時用的參數範圍還要嚴重,專門考驗模型在極端情況下的泛化能力。

8B模型上,標準GRPO在清晰圖片下得了68.9分;加上ROMA訓練之後,清晰圖片下得了68.7分——幾乎一樣,說明ROMA沒有以犧牲正常表現為代價。但在見過的污染類型下,GRPO得59.2分,ROMA得61.6分,提升了2.4個百分點。在完全沒見過的污染類型下,GRPO得54.0分,ROMA得56.3分,提升了2.3個百分點。

如果把不同污染強度下的成績連成一條曲線,可以看到:隨著污染從輕度到中度到嚴重,三條曲線(基礎模型、GRPO、ROMA)都在下降,但ROMA的曲線始終位於最上方,且下降幅度最小。GRPO從清晰到嚴重污染下降了14.9個百分點,而ROMA只下降了12.4個百分點。

4B模型上的規律同樣一致:在見過的污染下,ROMA比GRPO高出1.7個百分點;在沒見過的污染下,高出1.3個百分點,同時清晰圖片下的性能幾乎相同。

研究團隊還與其他幾個同類研究的7B規模模型進行了橫向比較,包括NoisyRollout-7B、PAPO-7B、VL-Rethinker-7B、Vision-R1-7B和OpenVLThinker-7B。在清晰圖片下,ROMA的8B模型(68.7分)明顯優於所有對比模型(最高為64.0分)。在污染圖片下,ROMA同樣保持領先,見過污染下61.6分遠超NoisyRollout的54.9分和PAPO的55.4分;沒見過污染下56.3分也高於NoisyRollout的50.1分和PAPO的50.7分。

**六、拆開看:每個設計決策究竟貢獻了多少**

研究團隊通過一系列消融實驗,逐一驗證了ROMA中每個設計模組的價值。

關於最壞情況優化:如果把"只懲罰最難的那個污染版本"改成"對所有污染版本的懲罰取平均",在見過污染下成績從61.6分降到60.0分,在沒見過污染下從56.3分降到54.5分。這證明了"專盯最難情形"的策略確實比"平均對待"更有效,符合直覺——練習時如果總是挑簡單的做,遇到真正的挑戰就會失手。

關於輔助策略梯度:如果把這個"積極引導"組件去掉,只保留KL懲罰,見過污染下從61.6分降到60.5分,沒見過污染下從56.3分降到55.4分。這印證了研究團隊的判斷:單純的約束("你不能和清晰版差太多")如果沒有引導("你應該往正確答案的方向走"),效果是有限的。

關於正確性條件約束:如果把這個保護機制去掉,讓KL懲罰無差別地施加在所有推理軌跡上——包括那些本來就答錯的軌跡——見過污染下從61.6分跌到59.4分,沒見過污染下從56.3分跌到54.1分,降幅超過兩個百分點。這是三個消融實驗裡影響最大的一個,說明"不強迫模型對錯誤保持一致"這個保護機制不可或缺。

此外,研究團隊還系統地測試了關鍵超參數的敏感性。污染視角的數量K從1增到3時成績持續提升,但增到4時略有下降,因此選定K=3為默認值。輔助梯度係數α和KL懲罰係數β都在0.10時達到最佳,太小則力度不足,太大則過度約束反而干擾了主要學習目標。

**七、從成績單到具體題型:逐類拆解**

研究團隊還在附錄中提供了每種污染方式下每個測試集的詳細分數。以8B模型的見過污染測試為例,高斯模糊對ChartQA的衝擊最大:基礎模型從79.4分跌到14.6分,GRPO從81.5分跌到15.8分,而ROMA從80.8分跌到16.9分——雖然三者在模糊圖片下的ChartQA成績都很低,但ROMA的絕對分數依然是三者中最高的。

這背後有個深層原因:ChartQA測試的是圖表理解能力,而圖表中的細節(坐標軸數字、圖例文字)在高斯模糊下幾乎完全無法辨認,所有模型都受到了極大衝擊。即便如此,ROMA通過更穩健的推理過程,依然能多保留一點點有效資訊,轉化為更高的得分。

相比之下,在噪聲類型的污染(如高斯噪聲、椒鹽噪聲)上,三個模型的成績差異相對較小,但ROMA依然保持了一致的優勢,尤其在WeMath(數學推理)和LogicVista(邏輯推理)這類需要深度思考的測試集上,ROMA的提升幅度更為明顯,說明穩定的推理過程對複雜任務的幫助更大。

**八、說到底,這意味著什麼**

歸根結底,ROMA解決的是一個非常實際的問題:當我們把AI部署到真實世界裡,圖片不總是完美的。手機拍糊了、網路傳輸壓縮了、印表機壞了、掃描儀灰塵多了——這些日常場景下產生的"壞圖片",是AI必須面對的常態,而不是例外。

過去的研究大多在"AI能不能推理"上下功夫,ROMA則把目光投向了"AI的推理能不能扛得住視覺干擾"。這兩個問題同樣重要,缺一不可。一個在實驗室里無比聰明、一到現實就出錯的AI,實用價值是大打折扣的。

從技術層面看,ROMA的貢獻在於優雅地繞開了"獎勵中毒"這個看似無解的困境,用雙通道設計將"讓模型接觸壞圖片"和"保持獎勵信號可靠"這兩件本來矛盾的事情同時實現。這種思路本身也可能對其他類似的訓練難題有參考價值。

當然,研究團隊也坦誠地指出了未來可以繼續探索的方向:將這套框架延伸到影片推理(影片本質上是連續的多幀圖片,也面臨類似的質量波動問題);研究如何讓系統根據圖片污染的嚴重程度自動調整懲罰力度,而不是對所有情況用同樣強度的約束。

如果你對多模態AI的魯棒性研究有興趣,可以通過編號arXiv:2605.09262找到這篇論文的完整版本,裡面包含了更詳盡的實驗數據和技術細節。

---

Q&A

Q1:ROMA框架是什麼?

A:ROMA是騰訊混元等機構提出的一種強化學習訓練框架,全稱是"魯棒多模態推理"框架。它通過雙通道前向傳播、詞元級KL懲罰、輔助策略梯度損失和正確性條件約束四個機制,讓多模態AI模型在面對模糊、噪聲、壓縮等低質量圖片時依然能保持準確的推理能力,同時不損失在清晰圖片上的正常表現。

Q2:什麼是"獎勵中毒"問題?

A:獎勵中毒是指在強化學習訓練中,直接讓AI模型對污染圖片生成推理答案時,因為圖片太模糊或噪聲太多,模型會產生幻覺(編造錯誤推理),系統給出負懲罰,但這個懲罰無法區分"推理錯了"還是"圖片看不清",導致訓練信號充滿誤導,反而破壞模型原有的推理能力。ROMA通過不在污染圖片上生成新答案來徹底規避這個問題。

Q3:ROMA在實驗中比普通GRPO強化學習提升了多少?

A:在80億參數的Qwen3-VL模型上,ROMA在見過的污染類型下比標準GRPO提升了2.4個百分點(61.6% vs 59.2%),在完全沒見過的污染類型下提升了2.3個百分點(56.3% vs 54.0%),同時在清晰圖片上的成績幾乎持平(68.7% vs 68.9%)。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新