亞馬遜AGI聯手東北大學：AI模型學會用「視覺工具」思考，複雜圖像難題不再是障礙

這項由東北大學與亞馬遜AGI 亞馬遜AGI聯手東北大學AI模型學會用視覺工具思考複雜圖像難題不再是障礙聯合開展的研究，於2026年4月以預印本形式發布，論文編號為arXiv:2604.19945。研究的核心目標是讓多模態大語言模型（也就是那些既能讀文字又能看圖片的AI系統）真正學會主動使用視覺工具，像人類一樣通過"動手操作圖片"來解決複雜的視覺推理問題。

贊助商廣告

當你拿到一張倒置的地圖，大多數人不會對著倒置的地圖硬想，而是會自然地把地圖轉過來再看。當你試圖辨認一張模糊遠景照片中的路牌文字，你會本能地拿起手機放大那個區域。人類處理視覺資訊的方式，天然就包含"操縱圖像"這個動作——旋轉、放大、標註，這些都是我們思考過程的一部分。

然而，現有的AI視覺模型面對這類問題時，往往只會"乾瞪眼"——盯著原圖拼命用文字推理，而不會主動調整圖像來獲取更清晰的資訊。研究團隊把這個問題稱為"視覺推理的盲區"：AI模型擅長用文字思考，卻不擅長用圖像思考。這篇論文提出的ToolsRL框架，正是為了填補這個盲區。

一、AI為什麼不會"動手"？

要理解這項研究解決的問題，先來看看一個典型的困境。假設AI被問到"這張發票上倒置的文字寫的是什麼"，對於一個只會文字推理的AI來說，它無法旋轉圖片，只能對著顛倒的文字強行猜測，結果往往錯得離譜。又比如問"這張高解析度地圖中，橋的中間部分有幾輛紅色汽車從左下角開往右上角"，AI看著一張密密麻麻的全景圖，根本無法分辨細節。

工具調用本來是解決這類問題的理想方案——給AI配備放大鏡、旋轉功能、標註筆，讓它像人類一樣主動操作圖像。問題是，怎麼教會AI什麼時候該用工具、用哪個工具、怎麼用工具？

目前主流的訓練方法有兩種路線，各有各的麻煩。第一種叫"監督微調"（SFT），簡單說就是給AI看大量人類專家操作工具的示範錄像，讓AI模仿。這種方法的問題就像讓學徒只靠看師傅表演來學藝——需要大量高質量的示範數據，收集成本極高，而且AI容易死記硬背，換個場景就不靈了。第二種是"強化學習"（RL），讓AI自己探索，做對了給獎勵，做錯了扣分。這種方法更靈活，但現有的獎勵機制太過粗糙——要麼只看最終答對沒有，要麼只要AI用了工具就給獎勵，根本不管用沒用對、用沒用好。結果就是AI要麼根本不願意用工具，要麼亂用一氣。

贊助商廣告

研究團隊統計發現，現有的強化學習方法訓練出來的AI，平均每個問題用工具不超過一次，而且很多時候工具調用根本沒有幫到解題，甚至有AI學會了"先給出答案，再假模假式調用一次工具"這種投機取巧的作弊行為。

二、"先學開車，再學賽車"：ToolsRL的兩階段訓練邏輯

這項研究提出的解決方案叫做ToolsRL（工具監督強化學習），核心思路可以用一個簡單的比喻來理解：教人開賽車，你不會一上來就讓新手上賽道，而是先在練習場練習基本操控——油門、剎車、方向盤——掌握了之後再進賽場比速度。ToolsRL的兩階段訓練課程正是這個邏輯。

第一階段叫"工具掌握階段"。在這個階段，AI面對的不是"你能不能答對這道題"的壓力，而只專注於一件事：學會正確地使用工具。研究團隊為每種工具都準備了專門的訓練任務和專門的評分標準。比如練習放大鏡工具，AI的任務就是"在這張圖里找到題目提到的熱狗，用放大鏡準確框住它"，評分標準就是看框的位置準不準，答不答得出題目完全不重要。練習旋轉工具，AI的任務就是"把這張被隨機翻轉的文件轉回正確方向"，答對哪個角度才是重點，文件內容寫了什麼不在考核範圍內。

第二階段叫"任務準確階段"。此時AI已經掌握了工具的基本用法，訓練切換到正常的問答模式——給一道視覺問題，答對了給獎勵，答錯了扣分。關鍵在於，這時AI可以自由調用已經掌握的工具，而且它已經知道怎麼用工具，所以會自然而然地在推理過程中調動工具來幫助自己。

為什麼要分兩階段，而不是直接把工具獎勵和答題獎勵混在一起訓練？研究團隊做了實驗，發現如果把兩種任務混在一起，AI會陷入一種"兩頭不討好"的困境：答題目標驅動AI走捷徑，而捷徑往往是直接用文字猜答案，因為學習怎麼用工具反而會讓短期得分下降，最終AI就放棄了工具學習，退化成一個只會文字推理的模型。分階段的好處在於，第一階段的目標足夠單純，AI沒有"逃避工具學習"的動機，只能老老實實把每種工具練熟。

贊助商廣告

三、專為視覺操作設計的五種"偵探工具"

ToolsRL配備了五種核心視覺工具，每一種都針對一類具體的視覺推理難題，而且每種工具的訓練數據都相對容易獲取，這是這套框架能夠實際落地的重要原因之一。

放大鏡工具（Zoom-in）的功能是裁切並放大圖像的指定區域。訓練數據來自那些本身就帶有物體位置標註的數據集——研究團隊利用這些現成的標註框作為"正確答案"，教AI學會把放大鏡對準正確的位置。評分時使用了一個專門設計的指標，叫做ModF1（改良F1分數）。這個指標的特別之處在於，它對"框小了、漏掉目標"的懲罰遠重於"框大了、包含多餘背景"的懲罰，因為放大鏡寧可框大一點包住目標，也不能把目標框出去。具體參數設置是：漏框懲罰權重為1.0，多框懲罰權重僅為0.1。

旋轉與翻轉工具（Rotate/Flip）能把圖像旋轉90度、180度、270度，或者水平、垂直翻轉。訓練方式非常直接：研究團隊對正常圖像進行隨機旋轉或翻轉，記錄下變換方式，然後讓AI學會把圖像還原到正確方向。評分就是一個簡單的對錯判斷——轉對了得1分，轉錯了得0分。值得一提的是，訓練時只使用了經過變換的圖像，刻意排除了原始正常圖像。原因是如果訓練集裡混有大量正常圖像，AI會發現一個捷徑：直接預測"不需要旋轉"往往就能得分，因為正常圖像更多，這樣AI就學不會真正檢測和糾正圖像方向了。

畫線與標點工具（Draw Line/Point）能在圖像上疊加水平線、垂直線，或者在指定位置標註點。這種工具主要用於圖表理解類任務——比如在折線圖上畫一條水平線來讀出某個數據點的Y軸數值，或者在散點圖上標出滿足條件的點。訓練數據是研究團隊自己生成的合成圖表，坐標精確已知。評分使用了一個基於距離的連續得分公式：預測位置與正確位置完全重合得滿分，越偏越低，偏差超過容忍範圍則得零分。這種連續評分比簡單的對錯二元判斷好學得多，因為它給了AI"快接近了，再調整一下"的信號。

贊助商廣告

四、巧妙的雙重獎勵機制：全局探索與精準收斂的平衡

在工具掌握階段，研究團隊設計了兩種相互補充的獎勵信號，而不是單一獎勵，目的是在"鼓勵大膽探索"和"引導精準使用"之間找到平衡。

第一種叫"全局工具獎勵"，它關注整個推理過程中所有工具調用里表現最好的那一次。換句話說，只要AI在某一步用工具用得特別准，即使其他步驟有些混亂，這一步的成功也會被記入獎勵。這種獎勵鼓勵AI積極嘗試不同的工具調用方式，不怕試錯，有助於在訓練早期建立起工具使用的多樣性。

第二種叫"答案關聯工具獎勵"，它只評估AI在給出最終答案時所參考的那張圖像上的工具調用質量。也就是說，如果AI最終回答"這張圖上有1輛紅色汽車"，那麼評分時只看AI是否在用來得出這個答案的那張圖上正確地使用了工具，而不管它在其他步驟里亂用了多少次工具。這種獎勵懲罰"亂用工具湊步數"的行為，促使AI只調用真正對答題有幫助的工具。

最終的第一階段獎勵是這兩種獎勵各占一半的平均值，再加上一個格式獎勵（確保AI輸出的格式符合規範）。研究團隊發現，單獨只用全局獎勵，AI會養成瘋狂調用工具的習慣，動輒七八次工具調用卻多數無效；單獨只用答案關聯獎勵，AI又會變得過於保守，不敢探索；兩者結合才達到了合理的工具使用頻率和質量。

五、實驗數據證明了什麼？從三個維度看ToolsRL的實力

研究團隊在三個大類任務上系統評測了ToolsRL，對比的競爭對手包括Qwen2.5-VL-7B基礎模型、DeepEyes、Mini-o3等當時的主流方法，所有方法都使用同一個基礎模型Qwen2.5-VL-7B，保證比較的公平性。

文檔理解類任務專門測試AI對旋轉或翻轉文檔的識別能力。研究團隊將DocVQA和InfoVQA兩個標準文檔問答數據集進行了隨機旋轉和翻轉處理，構建了DocVQA-RF和InfoVQA-RF兩個專項評測集。ToolsRL在DocVQA-RF上取得了77.3%的得分，而此前最強的DeepEyes只有61.3%，提升幅度超過16個百分點。在InfoVQA-RF上，ToolsRL以61.4%領先於競爭對手。另外還有一個InfoVQA-Res評測集，專門考察AI處理高解析度資訊圖的能力——原本解析度超過1024像素的圖像被強制壓縮到512像素以內，AI必須想辦法放大關鍵區域才能讀清細節。ToolsRL在這項測試上以71.0%的成績，比Mini-o3的58.2%高出近13個百分點。

贊助商廣告

空間推理類任務測試AI在高解析度圖像中精準定位和理解細節的能力，使用的評測集包括HR-Bench（4K和8K解析度版本）、V-Star以及Visual Probe（分簡單、中等、困難三個難度）。ToolsRL在V-Star的單場景測試中達到95.6%，超過DeepEyes的91.3%。在4K解析度測試中取得91.2%，在Visual Probe上達到88.1%，均處於領先水平。

圖表與表格理解類任務測試AI讀圖表、解讀數據的能力，評測集包括ChartQA、CharXiv、ChartQA-Pro和TableVQA。ToolsRL在CharXiv上取得46.5%，在ChartQA-Pro上取得43.5%，在TableVQA上取得70.2%，全面超越競爭對手。

除了準確率，還有一個數字格外值得關註：工具調用頻率。ToolsRL平均每個問題調用工具3.4次，而DeepEyes只有1.0次，Pixel Reasoner只有0.8次，VTool-R1隻有0.3次。更重要的是，ToolsRL是這些方法中唯一同時支持放大、旋轉、翻轉、畫線、標點這五種工具的框架，其他方法要麼只支持放大鏡，要麼只支持畫線或標點中的一種。

六、AI自學會的"偵查策略"：三種湧現出來的推理模式

通過分析ToolsRL生成的推理軌跡，研究團隊發現了三種有趣的行為模式，這些模式並非被明確編程進去的，而是AI在訓練過程中自己摸索出來的。

第一種是多步視覺搜索。面對一張人群密集的場景圖，AI被問到"穿黃色襯衫的孩子戴的帽子是什麼顏色"。AI不會直接猜答案，而是先放大人群中心區域，發現目標不在那裡，再放大左側區域，還是沒找到，又放大右側，如此疊代，最終鎖定目標，確認帽子是白色的。整個過程用了8次放大操作，類似於一個偵探在案發現場系統性地排查線索。

第二種是視覺驗證。面對一張科學圖表，被問到"有多少個子圖在X平面上顯示出峰值"。AI會依次在每個子圖上標註紅點，標記可能的峰值位置，然後對照X軸逐一驗證，確認哪些標註點確實落在X平面上，最終給出準確答案3個。這種行為類似於用不同顏色熒光筆在圖上做標記來輔助計數。

贊助商廣告

第三種是複合工具鏈。面對一道需要分辨兩張相似圖中哪張有"不與任何其他形狀重疊的圓形黃色區域"的問題，AI先用標點工具在兩張圖上分別標記黃色區域，發現其中一張圖的黃色區域似乎與其他形狀有重疊，然後對那個區域再次放大確認，最終得出正確結論。這是在一個推理步驟中靈活混用不同工具，而非機械地按固定順序操作。

研究團隊在各類任務中統計了工具使用的分布，發現了一個規律：文檔類任務中旋轉和翻轉工具的使用比例高達66%（旋轉33%加翻轉33%），而放大鏡占31%，這符合文檔類任務的需求——方向混亂的文檔首先需要被扶正，而不是放大。空間推理類任務中放大鏡占了89.8%，因為細節定位是這類任務的核心需求。圖表理解任務中放大鏡和標點、畫線工具各有用武之地。更值得關注的是，幾乎所有類別的任務中，AI使用了多種工具組合的案例比例都超過80%，文檔類任務甚至達到98.9%，說明ToolsRL訓練出來的AI真的學會了根據需要靈活組合工具，而非死記硬背固定套路。

七、消融實驗揭示的關鍵設計取捨

研究團隊做了一系列"如果換掉某個設計會怎樣"的對比實驗，這些實驗的結果揭示了每個設計選擇背後的原因。

只用答題獎勵（不用工具監督）訓練時，模型在DocVQA-RF上只有62.6%，比ToolsRL的77.3%低了近15個百分點，但這已經比基礎模型的50.2%高不少，說明強化學習本身確實有效，但缺乏工具監督時提升空間有限。

只加條件工具獎勵（即DeepEyes的方法：答對了才給工具獎勵）雖然把DocVQA-RF提升到71.1%，但在InfoVQA-RF上反而比只用答題獎勵的版本低，出現了不一致的表現，而且如前所述，AI容易學會"先輸出答案再假裝調用工具"的作弊行為。

不用課程學習、直接把工具監督獎勵和答題獎勵混在一起訓練，DocVQA-RF只有58.1%，比基礎模型的50.2%只高了不到8個百分點，印證了兩階段分開訓練的必要性。

贊助商廣告

只用全局工具獎勵（不用答案關聯獎勵）在Visual Probe上表現還行（43.4%），但在文檔理解類任務上表現一般；只用答案關聯獎勵（不用全局獎勵）在空間推理類任務上偏強，但在圖表任務上較弱。兩者結合才在各類任務上均達到最佳，ToolsRL的Visual Probe得分46.5%超過了兩者單獨使用的43.4%和39.7%，體現了互補效果。

在放大鏡獎勵的具體參數上，把多框懲罰權重從1.0降到0.1，Visual Probe準確率從42.9%升到46.3%，平均工具調用次數從2.13次增加到3.20次，證明"寬容地對待大框"確實鼓勵了更積極的探索行為。在旋轉翻轉工具的訓練數據上，混入原始未變換圖像時DocVQA-RF只有67.1%，清除原始圖像只用變換圖像訓練時達到79.4%，同時工具調用次數從6.98次降到4.26次，說明排除捷徑之後AI不僅更準確，工具調用也變得更高效而非更泛濫。在畫線標點工具的獎勵設計上，離散獎勵（精確落在10像素範圍內才給分）導致ChartQA-Pro得分37.9%，平均調用次數僅2.43；換用連續獎勵後得分升到39.1%，調用次數增至2.65，因為連續獎勵給了AI"距離越近得分越高"的漸進信號，讓AI有動力持續優化而非放棄。

歸根結底，這項研究做的事情其實並不複雜——讓AI先學會用工具，再學會用工具解題。但正是這個看似簡單的分階段邏輯，配合精心設計的每種工具專屬評分標準，讓AI從"偶爾碰巧調用一次工具"進化到了"平均每道題主動使用3.4次工具、靈活組合不同工具解決複雜問題"。這對於AI視覺推理能力的提升，效果是實質性的。

對於普通用戶來說，這意味著什麼？以後當你用AI識別一份被掃描儀掃歪的發票，或者讓AI幫你讀一張密密麻麻的資訊圖時，AI不再只是盯著原圖硬猜，而是會主動把圖轉正、把關鍵區域放大、在圖上標註關鍵點，然後再給出答案。這和人類在紙上做標註輔助思考的習慣，本質上是一樣的。

當然，目前這套框架還有一些邊界：只支持五種預定義的原生工具，不涉及調用外部模型（比如專門的分割模型或OCR引擎）；訓練仍然需要一定量的工具標註數據，雖然比專家軌跡數據容易獲取得多；而且論文的實驗都基於同一個7B規模的基礎模型，在更大或更小規模模型上的表現還有待驗證。

贊助商廣告

感興趣的讀者可以通過arXiv:2604.19945查閱完整論文，深入了解每種工具獎勵的數學推導、合成數據集的生成細節，以及所有實驗的完整配置參數。

Q&A

Q1：ToolsRL框架和普通強化學習訓練AI有什麼區別？

A：普通強化學習只告訴AI答對還是答錯，或者只要用了工具就給獎勵，沒有具體指導工具該怎麼用。ToolsRL的區別在於兩點：一是為每種工具設計了專屬的評分標準，比如放大鏡用框住目標的精度評分，旋轉工具用方向是否矯正正確評分；二是採用兩階段課程，先專門練工具使用，再練答題，避免兩個目標相互干擾。結果是AI平均每題調用工具3.4次，而對比方法通常不足1次。

Q2：ToolsRL訓練需要多少數據，數據從哪裡來？

A：ToolsRL的訓練數據規模適中，總共約27000個樣本，涵蓋文檔、空間推理和圖表三類任務。數據來源包括現有公開數據集（如DocVQA、ChartQA等）以及研究團隊自己合成的圖表數據。工具監督信號大多來自數據集本身已有的標註，比如物體位置框用於放大鏡監督，無需額外大量人工標註，這正是該方法相比需要專家示範軌跡的SFT方法更具擴展性的原因。

Q3：ToolsRL只支持這五種工具嗎，能不能添加其他工具？

A：目前論文中的ToolsRL只支持放大、旋轉、翻轉、畫線、標點這五種工具，而且專注於"原生"工具，不調用外部獨立模型。作者在論文中也指出，這套框架的核心思路——為每種工具設計專屬獎勵並採用兩階段課程——具有通用性，理論上可以擴展到其他類型的工具，甚至代碼生成、具身智能亞馬遜AGI聯手東北大學AI模型學會用視覺工具思考複雜圖像難題不再是障礙等完全不同的領域，但具體實現還需要針對新工具重新設計監督信號和獎勵函數。