這項由東北大學與亞馬遜AGI
聯合開展的研究,於2026年4月以預印本形式發布,論文編號為arXiv:2604.19945。研究的核心目標是讓多模態大語言模型(也就是那些既能讀文字又能看圖片的AI系統)真正學會主動使用視覺工具,像人類一樣通過"動手操作圖片"來解決複雜的視覺推理問題。
當你拿到一張倒置的地圖,大多數人不會對著倒置的地圖硬想,而是會自然地把地圖轉過來再看。當你試圖辨認一張模糊遠景照片中的路牌文字,你會本能地拿起手機放大那個區域。人類處理視覺資訊的方式,天然就包含"操縱圖像"這個動作——旋轉、放大、標註,這些都是我們思考過程的一部分。
然而,現有的AI視覺模型面對這類問題時,往往只會"乾瞪眼"——盯著原圖拼命用文字推理,而不會主動調整圖像來獲取更清晰的資訊。研究團隊把這個問題稱為"視覺推理的盲區":AI模型擅長用文字思考,卻不擅長用圖像思考。這篇論文提出的ToolsRL框架,正是為了填補這個盲區。
一、AI為什麼不會"動手"?
要理解這項研究解決的問題,先來看看一個典型的困境。假設AI被問到"這張發票上倒置的文字寫的是什麼",對於一個只會文字推理的AI來說,它無法旋轉圖片,只能對著顛倒的文字強行猜測,結果往往錯得離譜。又比如問"這張高解析度地圖中,橋的中間部分有幾輛紅色汽車從左下角開往右上角",AI看著一張密密麻麻的全景圖,根本無法分辨細節。
工具調用本來是解決這類問題的理想方案——給AI配備放大鏡、旋轉功能、標註筆,讓它像人類一樣主動操作圖像。問題是,怎麼教會AI什麼時候該用工具、用哪個工具、怎麼用工具?
目前主流的訓練方法有兩種路線,各有各的麻煩。第一種叫"監督微調"(SFT),簡單說就是給AI看大量人類專家操作工具的示範錄像,讓AI模仿。這種方法的問題就像讓學徒只靠看師傅表演來學藝——需要大量高質量的示範數據,收集成本極高,而且AI容易死記硬背,換個場景就不靈了。第二種是"強化學習"(RL),讓AI自己探索,做對了給獎勵,做錯了扣分。這種方法更靈活,但現有的獎勵機制太過粗糙——要麼只看最終答對沒有,要麼只要AI用了工具就給獎勵,根本不管用沒用對、用沒用好。結果就是AI要麼根本不願意用工具,要麼亂用一氣。
研究團隊統計發現,現有的強化學習方法訓練出來的AI,平均每個問題用工具不超過一次,而且很多時候工具調用根本沒有幫到解題,甚至有AI學會了"先給出答案,再假模假式調用一次工具"這種投機取巧的作弊行為。
二、"先學開車,再學賽車":ToolsRL的兩階段訓練邏輯
這項研究提出的解決方案叫做ToolsRL(工具監督強化學習),核心思路可以用一個簡單的比喻來理解:教人開賽車,你不會一上來就讓新手上賽道,而是先在練習場練習基本操控——油門、剎車、方向盤——掌握了之後再進賽場比速度。ToolsRL的兩階段訓練課程正是這個邏輯。
第一階段叫"工具掌握階段"。在這個階段,AI面對的不是"你能不能答對這道題"的壓力,而只專注於一件事:學會正確地使用工具。研究團隊為每種工具都準備了專門的訓練任務和專門的評分標準。比如練習放大鏡工具,AI的任務就是"在這張圖里找到題目提到的熱狗,用放大鏡準確框住它",評分標準就是看框的位置準不準,答不答得出題目完全不重要。練習旋轉工具,AI的任務就是"把這張被隨機翻轉的文件轉回正確方向",答對哪個角度才是重點,文件內容寫了什麼不在考核範圍內。
第二階段叫"任務準確階段"。此時AI已經掌握了工具的基本用法,訓練切換到正常的問答模式——給一道視覺問題,答對了給獎勵,答錯了扣分。關鍵在於,這時AI可以自由調用已經掌握的工具,而且它已經知道怎麼用工具,所以會自然而然地在推理過程中調動工具來幫助自己。
為什麼要分兩階段,而不是直接把工具獎勵和答題獎勵混在一起訓練?研究團隊做了實驗,發現如果把兩種任務混在一起,AI會陷入一種"兩頭不討好"的困境:答題目標驅動AI走捷徑,而捷徑往往是直接用文字猜答案,因為學習怎麼用工具反而會讓短期得分下降,最終AI就放棄了工具學習,退化成一個只會文字推理的模型。分階段的好處在於,第一階段的目標足夠單純,AI沒有"逃避工具學習"的動機,只能老老實實把每種工具練熟。
三、專為視覺操作設計的五種"偵探工具"
ToolsRL配備了五種核心視覺工具,每一種都針對一類具體的視覺推理難題,而且每種工具的訓練數據都相對容易獲取,這是這套框架能夠實際落地的重要原因之一。
放大鏡工具(Zoom-in)的功能是裁切並放大圖像的指定區域。訓練數據來自那些本身就帶有物體位置標註的數據集——研究團隊利用這些現成的標註框作為"正確答案",教AI學會把放大鏡對準正確的位置。評分時使用了一個專門設計的指標,叫做ModF1(改良F1分數)。這個指標的特別之處在於,它對"框小了、漏掉目標"的懲罰遠重於"框大了、包含多餘背景"的懲罰,因為放大鏡寧可框大一點包住目標,也不能把目標框出去。具體參數設置是:漏框懲罰權重為1.0,多框懲罰權重僅為0.1。
旋轉與翻轉工具(Rotate/Flip)能把圖像旋轉90度、180度、270度,或者水平、垂直翻轉。訓練方式非常直接:研究團隊對正常圖像進行隨機旋轉或翻轉,記錄下變換方式,然後讓AI學會把圖像還原到正確方向。評分就是一個簡單的對錯判斷——轉對了得1分,轉錯了得0分。值得一提的是,訓練時只使用了經過變換的圖像,刻意排除了原始正常圖像。原因是如果訓練集裡混有大量正常圖像,AI會發現一個捷徑:直接預測"不需要旋轉"往往就能得分,因為正常圖像更多,這樣AI就學不會真正檢測和糾正圖像方向了。
畫線與標點工具(Draw Line/Point)能在圖像上疊加水平線、垂直線,或者在指定位置標註點。這種工具主要用於圖表理解類任務——比如在折線圖上畫一條水平線來讀出某個數據點的Y軸數值,或者在散點圖上標出滿足條件的點。訓練數據是研究團隊自己生成的合成圖表,坐標精確已知。評分使用了一個基於距離的連續得分公式:預測位置與正確位置完全重合得滿分,越偏越低,偏差超過容忍範圍則得零分。這種連續評分比簡單的對錯二元判斷好學得多,因為它給了AI"快接近了,再調整一下"的信號。
四、巧妙的雙重獎勵機制:全局探索與精準收斂的平衡
在工具掌握階段,研究團隊設計了兩種相互補充的獎勵信號,而不是單一獎勵,目的是在"鼓勵大膽探索"和"引導精準使用"之間找到平衡。
第一種叫"全局工具獎勵",它關注整個推理過程中所有工具調用里表現最好的那一次。換句話說,只要AI在某一步用工具用得特別准,即使其他步驟有些混亂,這一步的成功也會被記入獎勵。這種獎勵鼓勵AI積極嘗試不同的工具調用方式,不怕試錯,有助於在訓練早期建立起工具使用的多樣性。
第二種叫"答案關聯工具獎勵",它只評估AI在給出最終答案時所參考的那張圖像上的工具調用質量。也就是說,如果AI最終回答"這張圖上有1輛紅色汽車",那麼評分時只看AI是否在用來得出這個答案的那張圖上正確地使用了工具,而不管它在其他步驟里亂用了多少次工具。這種獎勵懲罰"亂用工具湊步數"的行為,促使AI只調用真正對答題有幫助的工具。
最終的第一階段獎勵是這兩種獎勵各占一半的平均值,再加上一個格式獎勵(確保AI輸出的格式符合規範)。研究團隊發現,單獨只用全局獎勵,AI會養成瘋狂調用工具的習慣,動輒七八次工具調用卻多數無效;單獨只用答案關聯獎勵,AI又會變得過於保守,不敢探索;兩者結合才達到了合理的工具使用頻率和質量。
五、實驗數據證明了什麼?從三個維度看ToolsRL的實力
研究團隊在三個大類任務上系統評測了ToolsRL,對比的競爭對手包括Qwen2.5-VL-7B基礎模型、DeepEyes、Mini-o3等當時的主流方法,所有方法都使用同一個基礎模型Qwen2.5-VL-7B,保證比較的公平性。
文檔理解類任務專門測試AI對旋轉或翻轉文檔的識別能力。研究團隊將DocVQA和InfoVQA兩個標準文檔問答數據集進行了隨機旋轉和翻轉處理,構建了DocVQA-RF和InfoVQA-RF兩個專項評測集。ToolsRL在DocVQA-RF上取得了77.3%的得分,而此前最強的DeepEyes只有61.3%,提升幅度超過16個百分點。在InfoVQA-RF上,ToolsRL以61.4%領先於競爭對手。另外還有一個InfoVQA-Res評測集,專門考察AI處理高解析度資訊圖的能力——原本解析度超過1024像素的圖像被強制壓縮到512像素以內,AI必須想辦法放大關鍵區域才能讀清細節。ToolsRL在這項測試上以71.0%的成績,比Mini-o3的58.2%高出近13個百分點。
空間推理類任務測試AI在高解析度圖像中精準定位和理解細節的能力,使用的評測集包括HR-Bench(4K和8K解析度版本)、V-Star以及Visual Probe(分簡單、中等、困難三個難度)。ToolsRL在V-Star的單場景測試中達到95.6%,超過DeepEyes的91.3%。在4K解析度測試中取得91.2%,在Visual Probe上達到88.1%,均處於領先水平。
圖表與表格理解類任務測試AI讀圖表、解讀數據的能力,評測集包括ChartQA、CharXiv、ChartQA-Pro和TableVQA。ToolsRL在CharXiv上取得46.5%,在ChartQA-Pro上取得43.5%,在TableVQA上取得70.2%,全面超越競爭對手。
除了準確率,還有一個數字格外值得關註:工具調用頻率。ToolsRL平均每個問題調用工具3.4次,而DeepEyes只有1.0次,Pixel Reasoner只有0.8次,VTool-R1隻有0.3次。更重要的是,ToolsRL是這些方法中唯一同時支持放大、旋轉、翻轉、畫線、標點這五種工具的框架,其他方法要麼只支持放大鏡,要麼只支持畫線或標點中的一種。
六、AI自學會的"偵查策略":三種湧現出來的推理模式
通過分析ToolsRL生成的推理軌跡,研究團隊發現了三種有趣的行為模式,這些模式並非被明確編程進去的,而是AI在訓練過程中自己摸索出來的。
第一種是多步視覺搜索。面對一張人群密集的場景圖,AI被問到"穿黃色襯衫的孩子戴的帽子是什麼顏色"。AI不會直接猜答案,而是先放大人群中心區域,發現目標不在那裡,再放大左側區域,還是沒找到,又放大右側,如此疊代,最終鎖定目標,確認帽子是白色的。整個過程用了8次放大操作,類似於一個偵探在案發現場系統性地排查線索。
第二種是視覺驗證。面對一張科學圖表,被問到"有多少個子圖在X平面上顯示出峰值"。AI會依次在每個子圖上標註紅點,標記可能的峰值位置,然後對照X軸逐一驗證,確認哪些標註點確實落在X平面上,最終給出準確答案3個。這種行為類似於用不同顏色熒光筆在圖上做標記來輔助計數。
第三種是複合工具鏈。面對一道需要分辨兩張相似圖中哪張有"不與任何其他形狀重疊的圓形黃色區域"的問題,AI先用標點工具在兩張圖上分別標記黃色區域,發現其中一張圖的黃色區域似乎與其他形狀有重疊,然後對那個區域再次放大確認,最終得出正確結論。這是在一個推理步驟中靈活混用不同工具,而非機械地按固定順序操作。
研究團隊在各類任務中統計了工具使用的分布,發現了一個規律:文檔類任務中旋轉和翻轉工具的使用比例高達66%(旋轉33%加翻轉33%),而放大鏡占31%,這符合文檔類任務的需求——方向混亂的文檔首先需要被扶正,而不是放大。空間推理類任務中放大鏡占了89.8%,因為細節定位是這類任務的核心需求。圖表理解任務中放大鏡和標點、畫線工具各有用武之地。更值得關注的是,幾乎所有類別的任務中,AI使用了多種工具組合的案例比例都超過80%,文檔類任務甚至達到98.9%,說明ToolsRL訓練出來的AI真的學會了根據需要靈活組合工具,而非死記硬背固定套路。
七、消融實驗揭示的關鍵設計取捨
研究團隊做了一系列"如果換掉某個設計會怎樣"的對比實驗,這些實驗的結果揭示了每個設計選擇背後的原因。
只用答題獎勵(不用工具監督)訓練時,模型在DocVQA-RF上只有62.6%,比ToolsRL的77.3%低了近15個百分點,但這已經比基礎模型的50.2%高不少,說明強化學習本身確實有效,但缺乏工具監督時提升空間有限。
只加條件工具獎勵(即DeepEyes的方法:答對了才給工具獎勵)雖然把DocVQA-RF提升到71.1%,但在InfoVQA-RF上反而比只用答題獎勵的版本低,出現了不一致的表現,而且如前所述,AI容易學會"先輸出答案再假裝調用工具"的作弊行為。
不用課程學習、直接把工具監督獎勵和答題獎勵混在一起訓練,DocVQA-RF只有58.1%,比基礎模型的50.2%只高了不到8個百分點,印證了兩階段分開訓練的必要性。
只用全局工具獎勵(不用答案關聯獎勵)在Visual Probe上表現還行(43.4%),但在文檔理解類任務上表現一般;只用答案關聯獎勵(不用全局獎勵)在空間推理類任務上偏強,但在圖表任務上較弱。兩者結合才在各類任務上均達到最佳,ToolsRL的Visual Probe得分46.5%超過了兩者單獨使用的43.4%和39.7%,體現了互補效果。
在放大鏡獎勵的具體參數上,把多框懲罰權重從1.0降到0.1,Visual Probe準確率從42.9%升到46.3%,平均工具調用次數從2.13次增加到3.20次,證明"寬容地對待大框"確實鼓勵了更積極的探索行為。在旋轉翻轉工具的訓練數據上,混入原始未變換圖像時DocVQA-RF只有67.1%,清除原始圖像只用變換圖像訓練時達到79.4%,同時工具調用次數從6.98次降到4.26次,說明排除捷徑之後AI不僅更準確,工具調用也變得更高效而非更泛濫。在畫線標點工具的獎勵設計上,離散獎勵(精確落在10像素範圍內才給分)導致ChartQA-Pro得分37.9%,平均調用次數僅2.43;換用連續獎勵後得分升到39.1%,調用次數增至2.65,因為連續獎勵給了AI"距離越近得分越高"的漸進信號,讓AI有動力持續優化而非放棄。
歸根結底,這項研究做的事情其實並不複雜——讓AI先學會用工具,再學會用工具解題。但正是這個看似簡單的分階段邏輯,配合精心設計的每種工具專屬評分標準,讓AI從"偶爾碰巧調用一次工具"進化到了"平均每道題主動使用3.4次工具、靈活組合不同工具解決複雜問題"。這對於AI視覺推理能力的提升,效果是實質性的。
對於普通用戶來說,這意味著什麼?以後當你用AI識別一份被掃描儀掃歪的發票,或者讓AI幫你讀一張密密麻麻的資訊圖時,AI不再只是盯著原圖硬猜,而是會主動把圖轉正、把關鍵區域放大、在圖上標註關鍵點,然後再給出答案。這和人類在紙上做標註輔助思考的習慣,本質上是一樣的。
當然,目前這套框架還有一些邊界:只支持五種預定義的原生工具,不涉及調用外部模型(比如專門的分割模型或OCR引擎);訓練仍然需要一定量的工具標註數據,雖然比專家軌跡數據容易獲取得多;而且論文的實驗都基於同一個7B規模的基礎模型,在更大或更小規模模型上的表現還有待驗證。
感興趣的讀者可以通過arXiv:2604.19945查閱完整論文,深入了解每種工具獎勵的數學推導、合成數據集的生成細節,以及所有實驗的完整配置參數。
Q&A
Q1:ToolsRL框架和普通強化學習訓練AI有什麼區別?
A:普通強化學習只告訴AI答對還是答錯,或者只要用了工具就給獎勵,沒有具體指導工具該怎麼用。ToolsRL的區別在於兩點:一是為每種工具設計了專屬的評分標準,比如放大鏡用框住目標的精度評分,旋轉工具用方向是否矯正正確評分;二是採用兩階段課程,先專門練工具使用,再練答題,避免兩個目標相互干擾。結果是AI平均每題調用工具3.4次,而對比方法通常不足1次。
Q2:ToolsRL訓練需要多少數據,數據從哪裡來?
A:ToolsRL的訓練數據規模適中,總共約27000個樣本,涵蓋文檔、空間推理和圖表三類任務。數據來源包括現有公開數據集(如DocVQA、ChartQA等)以及研究團隊自己合成的圖表數據。工具監督信號大多來自數據集本身已有的標註,比如物體位置框用於放大鏡監督,無需額外大量人工標註,這正是該方法相比需要專家示範軌跡的SFT方法更具擴展性的原因。
Q3:ToolsRL只支持這五種工具嗎,能不能添加其他工具?
A:目前論文中的ToolsRL只支持放大、旋轉、翻轉、畫線、標點這五種工具,而且專注於"原生"工具,不調用外部獨立模型。作者在論文中也指出,這套框架的核心思路——為每種工具設計專屬獎勵並採用兩階段課程——具有通用性,理論上可以擴展到其他類型的工具,甚至代碼生成、具身智能
等完全不同的領域,但具體實現還需要針對新工具重新設計監督信號和獎勵函數。






