這項由ByteDance(字節跳動)的賴昕和香港大學的趙恆爽領導的研究發表於2025年9月,論文全名為《Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search》。有興趣深入了解的讀者可以通過項目主頁 https://github.com/Mini-o3/Mini-o3 訪問完整論文和代碼。
想像你正在一張巨大的"尋找沃爾多"拼圖前,畫面中密密麻麻地分布著各種物體、文字和細節。作為人類,你會做什麼?你可能會先看整體,然後把目光聚焦到某個區域,仔細觀察,發現不對勁後退一步,再換個角度繼續尋找,甚至可能需要反覆檢查好幾遍才能找到目標。這種"試錯-探索-驗證"的思維過程,正是人類解決複雜視覺問題時的自然反應。
然而,現有的AI視覺模型就像是一個急性子的學生,往往看一眼就給出答案,缺乏這種深度思考的能力。當面對真正困難的視覺搜索任務時,比如在高解析度圖片中尋找特定的文字或物體,這些模型的表現就會大打折扣。研究團隊發現,即使是表現不錯的開源模型DeepEyes,在困難的視覺搜索任務上準確率也只有35.1%,遠遠不能滿足實際應用需求。
更關鍵的是,這些模型的思考過程過於單調,通常只進行一兩輪簡單的觀察就結束了,就像一個走馬觀花的遊客,根本無法應對需要反覆探索的複雜場景。這就好比讓一個從未學過下棋的人直接參加圍棋比賽,自然難以取得好成績。
正是在這樣的背景下,ByteDance的研究團隊開發了Mini-o3系統。這個名字的靈感來自於OpenAI的o3模型,但它專門針對視覺搜索任務進行了深度優化。Mini-o3最大的特色就是能夠像人類偵探一樣進行深度、多輪的推理思考,在面對困難問題時,它可以進行多達幾十輪的交互探索,準確率會隨著思考輪數的增加而顯著提升。
一、構建挑戰性的"訓練場":Visual Probe數據集
要訓練一個擅長深度思考的AI系統,首先需要給它提供足夠有挑戰性的"練習題"。研究團隊發現,現有的視覺搜索數據集大多過於簡單,就像是給奧運會運動員安排小學生的訓練內容,根本無法激發出模型的潛能。
因此,他們專門構建了Visual Probe數據集,這個數據集就像是為AI設計的"地獄級"視覺搜索挑戰。與以往數據集不同,Visual Probe具有三個顯著特點:目標物體極其微小、干擾物體眾多、圖像解析度極高。
以尋找集裝箱上特定編號為例,在一張7952x5304像素的高清圖片中,可能密布著數百個集裝箱,每個集裝箱上都印有各種編號、標識和文字。要在這樣的圖片中準確找到"67.200"這個特定數字下方的編號"22G1",就需要AI系統具備極強的耐心和系統性搜索能力。這種任務對人類來說都頗具挑戰性,更不用說對AI系統了。
另一個典型場景是在繁忙的城市街道中尋找特定的交通標誌。畫面中可能同時存在十幾個不同的標誌牌、廣告牌和指示牌,要準確識別出"PARKING"字樣下方箭頭的指向,就需要AI系統能夠逐一排查,反覆驗證,並在發現錯誤時及時調整策略。
Visual Probe數據集包含4000個訓練樣本和500個測試樣本,涵蓋簡單、中等和困難三個級別。這些樣本的設計初衷就是讓AI系統無法一眼看出答案,必須通過多輪探索才能找到正確結果。這種設計理念類似於為學生設計漸進式的學習課程,從基礎練習逐步過渡到高難度挑戰。
二、教AI學會"思考的藝術":多樣化推理模式
擁有了挑戰性的訓練數據還不夠,更重要的是要教會AI系統如何進行有效的思考。研究團隊發現,如果直接用強化學習來訓練模型,AI往往會"偷懶",給出過於簡潔的回答,就像是一個不願動腦的學生總是選擇最簡單的解題方法。
為了解決這個問題,團隊採用了一種巧妙的"冷啟動"策略。他們首先精心製作了6個典型的示例軌跡,每個軌跡都展示了不同的推理策略和思考模式。這些示例就像是優秀學生的作業範本,為AI系統提供了學習的參考標準。
第一種推理模式是深度優先搜索,類似於考古學家的工作方式。當AI系統在圖片中發現一個可能包含目標的區域時,它會持續深入探索這個區域,不斷放大、細化搜索範圍,直到找到答案或確認此路不通。
第二種是試錯探索模式,就像是一個經驗豐富的偵探。AI系統會基於初步觀察提出假設,然後主動尋找證據來驗證或推翻這個假設。當發現某個假設不成立時,它會及時調整思路,從新的角度繼續探索。
第三種是目標維持模式,類似於GPS導航系統的工作原理。AI系統會始終記住自己的搜索目標,在探索過程中不斷檢查當前的發現是否與目標匹配,避免偏離主要任務。
通過這種方式,團隊用現有的視覺語言模型生成了大約6000個多輪對話軌跡。這些軌跡展示了各種不同的思考路徑和解題策略,為後續的強化學習訓練提供了豐富的"思考模板"。
三、突破訓練瓶頸的"過輪掩碼"技術
在強化學習訓練過程中,研究團隊遇到了一個棘手的問題。傳統的訓練方法會對那些超出預設輪數限制的"超時"回答進行懲罰,就像是在考試中對沒有在規定時間內完成答題的學生扣分一樣。
這種做法看似合理,但實際上產生了嚴重的副作用。AI系統為了避免被懲罰,開始傾向於給出過早的、可能不準確的答案,而不是進行充分的思考。這就像是讓學生養成了草率答題的壞習慣,雖然能在時間限制內完成,但準確率大幅下降。
更重要的是,這種訓練方式限制了AI系統在實際應用中的擴展能力。如果一個系統只在6輪交互的限制下訓練,那麼面對需要更多輪思考的複雜問題時,它就會顯得力不從心。
為了解決這個問題,團隊提出了創新的"過輪掩碼"技術。這種技術的核心思想是:對於那些因為超出輪數限制而無法給出完整答案的情況,系統不再進行懲罰,而是簡單地忽略它們,就像是告訴學生"如果題目太難需要更多時間思考,那就不要勉強回答,也不會因此扣分"。
具體來說,系統會為每個回答分配一個"完成掩碼",標記該回答是否在規定限制內完成。對於那些被標記為"未完成"的回答,系統在計算訓練損失時會將其隱藏掉,使它們不會對模型參數的更新產生負面影響。
這種方法帶來了顯著的效果。雖然訓練時只使用了6輪交互的限制,但測試時AI系統能夠自然地擴展到數十輪思考,並且準確率隨著思考輪數的增加而持續提升。這就像是培養出了一個具有自我調節能力的學生,能夠根據問題的難度自動調整思考時間。
四、系統架構設計:模擬人類的視覺探索過程
Mini-o3的整體架構設計充分借鑑了人類進行視覺搜索時的認知過程。當人類面對一個複雜的視覺場景時,通常會經歷"觀察-思考-行動-驗證"的循環過程,這正是Mini-o3系統的核心工作流程。
在每個交互輪次中,系統首先會產生一個"思考"過程,就像是人類在心中默默分析當前看到的內容。這個思考過程包括對當前觀察結果的分析、對搜索策略的調整,以及對下一步行動的規劃。系統可能會思考:"我在這個區域看到了一些文字,但不夠清晰,需要進一步放大"或者"這裡看起來不像是目標所在的位置,應該換個區域搜索"。
緊接著,系統會基于思考結果選擇具體的行動。目前系統支持兩種主要行動:區域放大和給出最終答案。區域放大就像是使用放大鏡仔細觀察圖片的某個部分,系統需要指定一個邊界框來定義要放大的區域。更巧妙的是,系統不僅可以對原始圖片進行操作,還可以對之前任何一輪的觀察結果進行進一步探索,這就像是人類可以回到之前看過的內容重新審視一樣。
每次行動後,環境會返回一個新的觀察結果,通常是一個裁剪後的圖像區域。這個新的觀察結果會被添加到歷史記錄中,為下一輪的思考提供更多資訊。整個過程會持續進行,直到系統確信找到了答案,或者達到了預設的交互限制。
為了應對長序列帶來的計算負擔,團隊在實現上做了多項優化。他們將圖像的最大像素數從默認的1200萬降低到200萬,這樣可以在同樣的上下文長度限制內容納更多的交互輪次。同時,他們在推理時使用溫度參數為1.0的採樣策略,以減少重複文本的產生,確保每輪的思考都能帶來新的資訊。
五、訓練策略:兩階段精心調教
Mini-o3的訓練過程分為兩個精心設計的階段,就像是培養一個專業偵探的完整流程。
第一階段是監督微調階段,使用之前生成的6000個多樣化軌跡對基礎模型(Qwen2.5-VL-7B-Instruct)進行訓練。這個階段的目標是讓AI系統學會基本的多輪思考模式,就像是讓學生先掌握基本的解題方法和思路。訓練過程中,學習率設置為1×10^-5,批次大小為32,訓練3個輪次。
第二階段是強化學習階段,採用GRPO(Group Relative Policy Optimization)算法對模型進行進一步優化。這個階段的關鍵是使用外部的大語言模型作為"判官"來評估答案的正確性。由於許多答案需要語義理解而不僅僅是字符串匹配,使用AI判官能夠更準確地評估答案質量。
在強化學習階段,團隊特別注重訓練的穩定性和效率。他們採用了多項技術來確保訓練過程的平穩進行,包括動態採樣、分層剪切等。同時,為了平衡訓練效率和模型性能,他們將最大交互輪次限制在6輪,最大上下文長度限制在32K個標記。
訓練數據方面,除了Visual Probe數據集外,團隊還從DeepEyes數據集中隨機採樣了8000個樣本,以確保模型在簡單任務上的性能不會退化。這種混合訓練策略類似於讓學生既要掌握高難度題目,也不能忽視基礎練習。
六、實驗結果:全面超越現有方法
Mini-o3在多個視覺搜索基準測試中都取得了顯著的性能提升,充分證明了其深度推理能力的有效性。
在最具挑戰性的VisualProbe-Hard測試集上,Mini-o3達到了48.0%的準確率,相比之前最好的開源模型DeepEyes的35.1%有了大幅提升。更重要的是,這種提升不是通過增加模型參數或計算資源實現的,而是通過更好的推理策略和訓練方法獲得的。
在V*Bench、HR-Bench等其他視覺搜索基準上,Mini-o3同樣表現出色,全面超越了現有的開源模型。特別是在需要高精度視覺理解的任務上,Mini-o3的優勢更加明顯。
最令人印象深刻的是Mini-o3展現出的"測試時擴展"能力。雖然訓練時只使用了最多6輪的交互限制,但在測試時,當允許更多輪次的思考時,模型的準確率會持續提升。從4輪到32輪,準確率呈現出穩定的上升趨勢,這表明模型確實學會了如何進行更深入的思考。
通過對正確答案軌跡的統計分析,研究團隊發現Mini-o3傾向於使用更多的交互輪次。在正確回答的案例中,約53.3%的答案需要4-8輪思考,32.4%需要8-16輪,還有一部分甚至需要16輪以上的深度探索。這與傳統模型主要依賴1-4輪簡單交互的模式形成了鮮明對比。
七、深入分析:各組件的關鍵作用
為了深入理解Mini-o3成功的關鍵因素,研究團隊進行了全面的消融實驗,就像是拆解一台精密機器來了解每個部件的作用。
首先是困難訓練數據的重要性。當移除VisualProbe中的困難樣本時,模型在挑戰性任務上的表現下降了約8.6個百分點。這說明要培養AI的深度思考能力,必須給它提供足夠有挑戰性的"練習題"。就像是要培養一個優秀的圍棋手,不能只讓他下簡單的定式,必須讓他面對各種複雜的實戰局面。
其次是冷啟動監督學習的必要性。如果跳過這個階段直接進行強化學習,模型的表現會大幅下降,平均交互輪數從5.5輪降低到僅1.0輪。這表明基礎模型缺乏進行多輪交互的基本能力,需要通過監督學習來"啟發"這種能力。
過輪掩碼技術的效果同樣顯著。使用這項技術後,模型的平均交互輪數從3.0輪增加到5.5輪,準確率也有相應提升。更重要的是,這項技術使得測試時的擴展成為可能,讓模型能夠根據問題難度自動調整思考深度。
圖像像素預算的設置也很關鍵。太高的像素預算(如1200萬)會導致模型過早停止思考,因為高解析度圖像很快就會耗盡上下文長度。太低的預算(如50萬)則會產生過多的感知錯誤。研究團隊發現200萬像素是一個很好的平衡點,既能保證足夠的視覺細節,又能支持多輪深入的思考。
訓練時的交互輪數上限設置體現了效率與性能的權衡。使用6輪限制的訓練收斂更快,大約在150步就能達到較好的性能。使用12輪限制雖然最終性能稍好,但收斂速度明顯較慢。考慮到實際的計算資源限制,6輪限制是一個更實用的選擇。
八、技術創新的深層意義
Mini-o3的成功不僅僅是在特定任務上的性能提升,更重要的是它展示了一種全新的AI系統設計理念。傳統的視覺語言模型往往追求"一步到位"的能力,希望模型能夠在看到圖片後立即給出正確答案。但Mini-o3證明了"慢思考"的價值,展示了如何讓AI系統像人類專家一樣進行深入、系統的分析。
這種設計理念的轉變具有深遠的意義。在現實世界中,許多複雜的問題確實需要反覆思考和多次驗證才能得出可靠的結論。無論是醫學診斷中的影像分析、工業質檢中的缺陷檢測,還是自動駕駛中的場景理解,都需要AI系統具備這種深度推理的能力。
Mini-o3的另一個重要貢獻是證明了測試時計算的有效性。傳統的AI系統性能主要由訓練時的模型大小和數據量決定,但Mini-o3表明,通過更好的推理策略,可以在不增加模型參數的情況下顯著提升性能。這為未來的AI系統設計提供了新的思路。
過輪掩碼技術的提出也具有重要的方法學意義。這種技術本質上是在訓練過程中引入了一種"不確定性容忍"機制,允許模型在面對困難問題時使用更多的思考時間,而不會因此受到懲罰。這種思想可以推廣到其他需要多步推理的AI任務中。
九、實際應用前景與挑戰
Mini-o3展示的深度視覺推理能力在多個實際應用領域都有巨大的潛力。在醫療影像分析中,這種系統可以像放射科醫生一樣,先對整張CT或MRI圖像進行全局觀察,然後聚焦到可疑區域進行詳細分析,必要時還可以調整窗寬窗位或切換到不同的觀察角度。
在工業質量檢測中,Mini-o3可以應用於複雜產品的缺陷檢測。比如在電路板檢測中,系統可以先識別出各個主要區域,然後逐一檢查每個區域中的元件排列、焊接質量等細節,發現異常時還可以進一步放大驗證。
在自動駕駛領域,這種深度推理能力對於處理複雜的交通場景特別有價值。系統可以先識別出道路上的主要參與者,然後分析每個參與者的行為意圖,在不確定的情況下持續觀察直到做出可靠的判斷。
在文檔分析和資訊提取中,Mini-o3可以應用於複雜表格、圖表或技術文檔的理解。系統可以先理解文檔的整體結構,然後定位到相關區域,逐步提取所需資訊。
當然,這種深度推理方法也面臨一些挑戰。首先是計算效率問題。多輪推理必然需要更多的計算時間和資源,如何在準確率和效率之間找到最佳平衡是一個重要問題。其次是推理過程的可解釋性。雖然系統會產生思考過程,但如何確保這些思考過程真實反映了系統的決策邏輯仍需進一步研究。
另一個挑戰是如何將這種方法擴展到更廣泛的視覺任務中。目前的研究主要集中在視覺搜索任務上,但許多其他視覺任務,如圖像生成、影片理解等,是否也能從這種深度推理方法中受益,還需要進一步的探索。
十、研究的局限性與未來方向
儘管Mini-o3取得了顯著的成功,但研究團隊也清醒地認識到當前方法的一些局限性。首先是任務範圍的限制。目前的研究主要針對視覺搜索任務,雖然這類任務具有很強的代表性,但AI系統面臨的視覺挑戰遠不止於此。如何將這種深度推理能力擴展到圖像生成、影片理解、3D場景分析等更廣泛的視覺任務中,是未來研究的重要方向。
其次是推理策略的多樣性問題。雖然系統展示了深度優先搜索、試錯探索等多種推理模式,但這些模式主要是通過人工設計的示例軌跡來引導的。如何讓AI系統自主學習和發現新的推理策略,而不是僅僅模仿人類的思考方式,是一個更具挑戰性的問題。
評估方法的完善也是一個重要課題。目前的評估主要基於最終答案的正確性,但如何評估推理過程的質量和效率,如何判斷一個推理軌跡是否真正體現了深度思考,這些問題都需要更系統的研究。
此外,當前的方法在處理需要常識推理或領域專業知識的視覺任務時可能會遇到困難。雖然系統能夠進行深入的視覺探索,但如果缺乏相關的背景知識,再多的觀察也難以得出正確的結論。如何將視覺推理與知識推理有機結合,是未來需要解決的重要問題。
從更廣闊的視角來看,Mini-o3的成功為AI系統的發展提供了新的啟示。它表明,提升AI能力不一定需要無限增大模型規模或數據量,通過更好的推理方法和訓練策略同樣可以取得顯著進展。這種思路對於資源有限的研究團隊和實際應用場景都具有重要意義。
未來的研究可能會朝著幾個方向發展。一是探索更多樣化的推理策略,包括並行推理、分層推理等。二是研究如何在不同類型的視覺任務中應用深度推理方法。三是開發更高效的訓練和推理算法,降低多輪推理的計算成本。四是構建更完善的評估體系,能夠全面衡量AI系統的推理能力。
說到底,Mini-o3的出現標誌著AI視覺理解能力的一個重要里程碑。它不僅在技術上取得了突破,更重要的是展示了一種全新的思路:讓AI系統學會像人類專家一樣深入思考,而不是急於給出膚淺的答案。這種"慢思考"的理念可能會影響未來AI系統的設計方向,推動整個領域向更加智能化、更加可靠的方向發展。
對於普通人來說,Mini-o3的成功意味著未來的AI助手將具備更強的問題解決能力。當你需要在複雜的文檔中尋找特定資訊,或者需要分析一張包含大量細節的圖片時,AI系統將能夠像一個耐心的專家一樣,系統地進行分析,直到找到準確的答案。這種能力的提升將使AI在教育、醫療、工業等各個領域都能發揮更大的作用,真正成為人類可靠的智能夥伴。
Q&A
Q1:Mini-o3和傳統的AI視覺模型有什麼區別?
A:傳統AI視覺模型通常看一眼圖片就給出答案,就像急性子學生匆忙答題。而Mini-o3能像人類偵探一樣進行深度思考,通過多達幾十輪的觀察、分析、驗證來解決複雜的視覺搜索問題,準確率會隨著思考輪數增加而提升。
Q2:Visual Probe數據集為什麼這麼重要?
A:Visual Probe數據集專門設計了"地獄級"的視覺搜索挑戰,包含目標物體極小、干擾物眾多、圖像解析度極高的困難場景。這就像給AI提供了足夠有挑戰性的"練習題",只有通過這種困難訓練,AI才能學會真正的深度思考能力。
Q3:過輪掩碼技術解決了什麼問題?
A:傳統訓練方法會懲罰那些思考時間過長的AI回答,導致AI養成草率答題的壞習慣。過輪掩碼技術不再懲罰這些"超時"回答,而是簡單忽略它們,讓AI可以根據問題難度自動調整思考時間,實現了從訓練時6輪到測試時數十輪的自然擴展。