中科院與百度聯合破解AI視覺難題：讓機器在模糊圖像中也能「看得清楚」

當你在昏暗的餐廳里試圖用手機拍攝菜品，或者在雨天透過模糊的車窗觀察路況時，是否曾想過人工智慧在面對這些"不完美"圖像時會有多麼困難？這項由中科院自動化研究所與百度公司聯合開展的研究，發表於2026年4月的電腦視覺頂級會議論文中（論文編號arXiv:2604.04780v1），首次系統性地解決了多模態AI模型在處理降質圖像時的核心難題。

贊助商廣告

在現實世界中，我們的相機和手機拍攝的圖片往往不夠完美。有時候會因為手抖而模糊，有時候因為光線不足而充滿噪點，還有時候因為網路傳輸而被壓縮得失真。對於人類來說，即使圖像質量不夠理想，我們仍然能夠識別其中的內容，但對於現有的AI系統來說，這卻是一個巨大的挑戰。研究團隊發現，包括GPT-4o、Gemini等商業化AI產品在內的所有多模態模型，在處理降質圖像時都會出現顯著的性能下降。

更令人困惑的是，那些既能理解圖像又能生成圖像的"統一多模態模型"，明明具備強大的圖像生成能力，理論上應該能夠利用這種能力來"修復"降質圖像，然後更好地理解圖像內容。但實際情況卻是，這些模型的生成能力和理解能力就像兩個完全不相干的功能模塊，互不相通，無法協同工作。

研究團隊深入分析後發現了問題的癥結所在。首先是"行為缺陷"：現有的AI訓練方式從未教會模型在理解圖像的過程中主動調用生成功能。其次是"結構缺陷"：即使模型想要這樣做，現有的技術架構也無法支持。當模型生成一個修復後的圖像時，這個圖像必須先被解碼成像素，然後再被重新編碼才能用於後續的理解任務，而這個過程會切斷反向傳播的梯度連接，使得整個系統無法進行端到端的優化。

為了解決這個問題，研究團隊提出了CLEAR框架（全稱為"通過潛在增強和自適應推理的理解"）。這個框架通過三個漸進的步驟，巧妙地連接了AI模型的生成能力和理解能力。

贊助商廣告

第一個步驟叫做"行為初始化"。研究團隊構建了一個特殊的訓練數據集，其中包含不同降質程度的圖像。對於輕微降質的圖像，模型被訓練直接回答問題。而對於嚴重降質的圖像，模型被訓練先生成一個修復後的圖像，然後再基於修復圖像進行推理回答。這種訓練方式教會了模型什麼時候需要"先修復再理解"，什麼時候可以"直接理解"。

就像教一個人看書一樣，如果光線充足，字跡清楚，就可以直接閱讀。但如果光線昏暗，字跡模糊，就需要先打開檯燈或者戴上眼鏡，讓字跡變得清楚後再閱讀。CLEAR訓練的AI模型學會了這種"因地制宜"的策略。

第二個步驟是"潛在表示橋樑"。傳統方法中，AI生成的修復圖像需要經過"解碼-重編碼"的繁瑣過程，就像一個人要把腦海中的想法先寫在紙上，然後再讓另一個人讀出來。這不僅效率低下，而且會丟失很多資訊。CLEAR的創新在於建立了一座"直通橋樑"，讓生成的圖像表示可以直接參與到理解過程中，跳過了中間的轉換步驟。

第三個步驟是"交替式強化學習"。在前兩個步驟建立的基礎上，研究團隊使用了一種新穎的強化學習方法，讓模型的生成能力和理解能力在同一個優化目標下協同進化。這種方法不再追求生成的圖像在像素級別上與原始清晰圖像完全一致，而是專注於生成那些最有利於後續理解任務的圖像表示。

令人驚喜的是，這種"任務導向"的訓練方式產生了一個意外的發現：當模型不再被要求生成像素級完美的圖像，而是專注於生成有助於理解的圖像時，生成圖像的感知質量反而提高了。這說明視覺質量和任務效果並不衝突，而是天然對齊的。那些對理解任務有幫助的圖像特徵（如清晰的邊緣、鮮明的紋理、良好的結構），恰恰也是人眼認為高質量的圖像特徵。

為了全面評估CLEAR的效果，研究團隊構建了MMD-Bench評測基準。這個基準包含16種真實世界的圖像降質類型，分為四大類別：拍攝類降質（如鏡頭模糊、鏡頭光斑）、傳輸類降質（如JPEG壓縮、掃描線）、環境類降質（如暗光、大氣湍流）和後處理類降質（如銳化變化、塗鴉）。每種降質類型都設置了輕度、中度、重度三個等級，應用到六個標準多模態評測數據集上，形成了一個全方位的評測體系。

贊助商廣告

實驗結果令人振奮。在重度降質的情況下，CLEAR相比基礎模型平均提升了5.11個百分點，相對提升達到8.5%。更重要的是，這種提升是全面的，在所有16種降質類型上都有改善。其中，運動模糊和高斯噪聲這兩種"均勻性"降質的改善最為顯著，分別提升了7.17和6.41個百分點。這是因為這類降質會均勻地破壞圖像的空間結構，恰好是生成能力最擅長修復的類型。

值得注意的是，CLEAR還展現出了"智能適應"的特性。模型會根據輸入圖像的質量智能決定是否調用生成功能。在輕度降質時，生成觸發率只有5.2%，幾乎不增加計算開銷。而在重度降質時，觸發率上升到36.4%，充分發揮生成能力的作用。這種自適應機制既保證了效果，又控制了成本。

研究團隊進行了詳細的消融實驗來驗證每個組件的必要性。結果顯示，如果沒有"潛在表示橋樑"，直接使用傳統的"解碼-重編碼"方式，性能提升會明顯下降。如果沒有"交替式強化學習"，僅僅依靠監督學習，也無法達到最佳效果。三個組件缺一不可，形成了一個完整的解決方案。

特別有趣的是，研究團隊還分析了不同類型降質的改善效果差異。拍攝類降質的改善最為顯著，平均提升5.98分，因為模糊和光斑這類降質破壞的正是生成模型擅長重建的細緻空間結構。環境類降質次之，提升5.75分，噪聲和暗光的均勻影響相對容易修復。傳輸類降質提升5.28分，壓縮偽影可以部分通過去噪軌跡恢復。而後處理類降質的改善相對較小，只有4.19分，因為塗鴉、水印等人為添加的內容與自然圖像降質有本質不同，更難通過同一套生成機制解決。

從技術實現角度來看，CLEAR採用了多項創新設計來平衡效果與效率。在訓練階段，為了避免存儲所有去噪步驟的完整計算圖（這會導致GPU內存不足），研究團隊採用了"隨機步驟選擇"策略，在每個訓練樣本的多步去噪過程中隨機選擇一步進行優化，將圖像側的優化開銷從N次前向傳播降低到1次，使得內存消耗與純文本GRPO相當。

贊助商廣告

在推理階段，模型的自適應生成策略不是通過額外的分類器實現的，而是在推理過程中自然湧現的行為。當模型在分析階段判斷當前圖像質量足以支撐準確回答時，就會跳過生成直接給出答案。當判斷圖像降質嚴重影響理解時，就會觸發圖像修復功能。這種端到端的決策機制避免了複雜的規則設計或額外模型的引入。

從應用前景來看，CLEAR技術有著廣闊的實用價值。在自動駕駛領域，車載攝影機經常面臨雨霧天氣、夜間暗光、高速運動模糊等挑戰，CLEAR可以幫助視覺系統在這些惡劣條件下仍然準確識別交通標誌、行人和車輛。在醫療影像領域，低劑量CT、MRI噪聲、X光片模糊等問題一直困擾著AI輔助診斷系統，CLEAR的"先修復再理解"機制可能顯著提升診斷準確性。

在監控安防領域，監控攝影機拍攝的影片往往存在解析度不足、壓縮失真、環境干擾等問題，CLEAR可以幫助安防系統更準確地識別人臉、車牌和異常行為。在文檔識別領域，手機拍攝的文檔照片經常出現傾斜、模糊、光照不均等問題，CLEAR可以提升OCR系統在真實場景下的識別率。

更令人期待的是，CLEAR展示了一種全新的AI系統設計理念：不同能力之間的深度協同。傳統AI系統往往將不同功能模塊獨立設計，各自優化，而CLEAR證明了當我們讓不同能力在統一目標下協同進化時，可以獲得"1+1>2"的效果。這種思路不僅適用於視覺-語言多模態，也可能啟發音頻-視覺、文本-代碼等其他多模態場景的技術突破。

當然，當前的CLEAR系統也還存在一些局限性。當關鍵視覺資訊集中在極小區域且嚴重損壞時，30步的去噪過程可能仍不足以恢復足夠細節進行準確識別。此外，對於塗鴉、水印等人為疊加的後處理類降質，現有方法的改善空間還比較有限。這些都為未來的研究指明了方向，比如區域自適應的生成機制、更長序列的去噪過程、專門針對人為偽影的清除策略等。

贊助商廣告

從更深層次來看，CLEAR的成功揭示了AI發展的一個重要趨勢：從功能分離走向能力融合。就像人類大腦中視覺皮層、記憶系統、推理系統緊密協作一樣，未來的AI系統也需要打破模塊間的壁壘，實現真正的端到端智能。CLEAR在視覺理解領域的成功實踐，為這種"全腦式"AI架構提供了寶貴的技術路徑和實證支撐。

說到底，CLEAR解決的不僅僅是圖像降質這一個技術問題，更重要的是它展現了AI系統內部不同能力協同工作的巨大潛力。在現實世界中，資訊往往是不完美的、嘈雜的、片段化的，而真正智能的系統應該能夠綜合運用自身的各項能力，化劣勢為優勢，從不完美中提取完美的理解。CLEAR為我們描繪了這樣一幅圖景：AI不再是各種功能的簡單堆疊，而是各種能力的有機融合，在面對挑戰時能夠靈活調用最合適的策略，就像人類智慧的縮影。對於那些希望深入了解這項研究技術細節的讀者，可以通過論文編號arXiv:2604.04780v1查詢完整的研究論文。

Q&A

Q1：CLEAR技術具體是如何讓AI在模糊圖像中看清內容的？

A：CLEAR通過三步策略解決這個問題。首先訓練AI學會判斷什麼時候需要修復圖像，然後建立一個"直通橋樑"讓修復過程與理解過程直接連接，最後用強化學習讓這兩個過程協同優化，專門生成有助於理解任務的圖像。

Q2：這個技術與傳統圖像修複方法有什麼區別？

A：傳統方法追求修復出像素級完美的圖像，而CLEAR不追求完美復原，而是專注於生成最有利於AI理解任務的圖像表示。實驗發現這種"任務導向"的方式反而產生了感知質量更好的圖像，因為有助於理解的特徵恰好也是人眼認為高質量的特徵。

Q3：CLEAR技術現在可以應用到哪些實際場景中？

A：CLEAR在自動駕駛的惡劣天氣識別、醫療影像的低質量片源分析、監控安防的模糊影片識別、手機文檔拍照的OCR識別等場景都有很大應用潛力。任何需要AI處理現實世界中不完美圖像的場景，CLEAR都能發揮作用。

贊助商廣告