斯塔萬格大學等機構另闢蹊徑：用一張圖片就能讓AI變聰明，這項技術把「調教AI」變成了一門藝術

這項由挪威斯塔萬格大學與NORCE挪威研究中心聯合開展的研究，於2026年6月以預印本形式發布，論文編號為arXiv:2606.11854。感興趣的讀者可通過該編號在arXiv平台上查閱完整論文。

贊助商廣告

**一、一個讓AI工程師頭疼的現實問題**

在人工智慧快速發展的今天，越來越多的AI助手已經能同時看圖、聽聲音、理解文字了。但在企業真正使用這些AI時，卻面臨一個棘手的問題——怎樣才能讓這些"通才"型AI專精於某個具體任務？

打個比方：你有一個學識淵博的助手，他什麼都懂一點，但你需要他成為一名專業的會計師。你可以花大價錢送他去培訓，改變他的思維方式（這相當於修改AI的內部參數，也就是所謂的"微調"）；你也可以給他一本《會計手冊》，讓他邊看邊工作（這相當於給AI提供提示詞）。兩種方法各有利弊。

AI領域目前主流的"再培訓"方式叫做LoRA（低秩自適應），原理是在AI大腦的各層神經網路之間插入一些額外的小模組，專門記錄新技能。另一種叫做"軟提示"（Soft Prompting），思路是在輸入資訊前面附加一段特殊的"編碼指令"。這兩種方式都能讓AI變得更專業，但都有一個共同的致命弱點：它們都需要修改AI原本已經精心優化好的內部計算結構。

這就像是你買了一台高度優化的賽車，卻非得在引擎里加裝一些改裝零件——賽車廠商當初設計這台車時根本沒考慮到這些零件，所以加裝之後整個系統效率大打折扣。

vLLM是目前工業界最常用的AI高速推理引擎，專門用於同時服務大量用戶。它的設計思想是把AI計算圖"預編譯"好，就像把一道菜的所有步驟提前規劃好、食材提前備好，服務時直接端上桌，速度極快。但當多個用戶各自需要不同的LoRA適配器時，系統就必須不斷地換零件、重新規劃計算步驟，內存碎片化，速度驟降，整個高效設計的優勢蕩然無存。

正是這個工程上的痛點，驅使斯塔萬格大學和NORCE研究中心的團隊去尋找一條全然不同的路。

贊助商廣告

**二、靈感：換個地方動刀子**

既然在AI內部動手腳會破壞精心優化的結構，那能不能從外部下手？

現代多模態AI（也就是能同時處理文字和圖片的AI）本來就有一個接收圖像的"視覺入口"。通常情況下，人們只是從這個入口送進去一張普通的照片，讓AI描述或理解圖片內容。但這個研究團隊發現，如果送進去的不是普通照片，而是一張經過精心"設計"的特殊圖片，是否能悄悄影響AI後續的文字回答？

更進一步，能不能通過不斷調整這張圖片的樣子，讓AI在特定類型的問題上表現越來越好——而AI自身的內部結構完全不變？

這個思路有點像給人類助手一張"秘密備忘卡"。他的大腦沒有任何改變，但每次工作前都能看到這張卡，從而在某類任務上發揮得更好。

這就是ART——Art-based Reinforcement Training（基於藝術的強化訓練）的核心理念。名字里的"Art"是雙關：一方面指代強化訓練（Reinforcement Training）的縮寫，另一方面，優化後的圖片本身會呈現出獨特的視覺藝術效果，猶如一件充滿資訊密碼的數字藝術品。

**三、ART的工作原理：教AI看懂一張"神秘圖片"**

理解ART的工作方式，需要先了解多模態AI是如何處理圖片的。當你給AI發一張圖片時，AI內部有一個叫做"視覺變換器"（Vision Transformer，簡稱ViT）的模組，它會把圖片切割成很多小方塊（稱為"圖像塊"），然後把這些小方塊轉換成一串數字向量，再和文字資訊合併在一起送入AI的語言處理部分。

整個圖片處理過程，從像素到數字向量，是完全可微分的——用數學語言說，就是可以通過"反向傳播"從輸出結果反推出輸入應該怎麼調整。這正是ART的關鍵所在。

ART的訓練過程可以分成兩個交替進行的步驟。第一步，讓AI使用當前這張"訓練圖片"來回答一批題目，根據答案的對錯給出分數，評估當前這張圖片的效果如何。第二步，根據這些分數，用數學方法計算出"圖片的每個像素應該怎麼調整才能讓AI下次答得更好"，然後對圖片進行微小的修改。如此反覆疊代，圖片會越來越"精準"，AI在特定任務上的表現也會越來越好。

贊助商廣告

AI的所有參數在整個過程中紋絲未動。被調整的只有那張圖片的像素值。

為了保證圖片在調整過程中始終是合法的圖片（像素值必須在0到255之間），研究團隊使用了一個數學技巧：把圖片儲存在一個叫做"logit空間"的中間表示里進行優化，需要時再轉換回普通的8位圖像。這就像你調整一個水龍頭時，用的是一個連續的旋轉角度，而不是直接操控水的流量——調節起來更順滑，結果更可控。

至於訓練目標，研究團隊選用了一種叫做DAPO的強化學習方法（它是DeepSeek 斯塔萬格大學等機構另闢蹊徑用一張圖片就能讓AI變聰明這項技術把調教AI變成了一門藝術團隊開發的GRPO算法的改進版）。DAPO的精妙之處在於：它不需要額外訓練一個"評委模型"來評分，而是直接用同一批題目的一組答案互相比較高下，誰答得好誰得分高，用這種相對排名來計算每張圖片的好壞。這樣大幅節省了顯卡內存，讓整個訓練在單張GPU上就能跑起來。

**四、實驗設計：公平較量的三塊擂台**

為了嚴格驗證ART的效果，研究團隊精心選擇了三種差異明顯的測試任務，就像用三個截然不同的工種來考驗同一位候選人。

第一塊擂台是GSM8K，這是一套小學數學應用題集，每道題需要多步算術推理。這類題對人來說不算太難，但對小型AI而言需要清晰的邏輯鏈條，是衡量AI基礎推理能力的經典標準。評分方式非常嚴格：只有最終數字完全正確才算對，差一點都不行。

第二塊擂台是GPQA，這是一套研究生級別的科學多選題，由領域專家撰寫，專門設計成讓谷歌也查不到答案的難題——意在測試AI是否真的"理解"，而非死記硬背。為了防止AI在訓練中見過這些題目（數據污染），研究團隊把題庫一分為二，一半用來優化圖片，另一半用來測試效果。

第三塊擂台是ToolMind，這是一套結構化工具調用任務：給AI一個工具庫和一個用戶需求，AI需要像程序員一樣生成格式嚴格的XML函數調用代碼，函數名和所有參數都必須正確。這模擬了真實場景中AI助手調用API的能力。

贊助商廣告

參與比較的選手陣容非常完整。沒有任何圖片的純文字基線（類比於什麼輔助都沒有的原始狀態），隨機圖片前綴（隨機送入一張256×256的彩色噪聲圖），隨機文字前綴（隨機塞入64個文字詞元，數量與圖片對應的詞元數完全相同），固定初始種子圖片（有意義但未經優化的圖片，數學題用一本數學書圖片，科學題用大腦圖片，工具題用扳手圖片），LoRA微調（工業界標準的權重調整方案，在相同的強化學習框架下訓練），以及ART本身（從種子圖片出發，經過100步優化的成品）。

所有比較都在英偉達斯塔萬格大學等機構另闢蹊徑用一張圖片就能讓AI變聰明這項技術把調教AI變成了一門藝術 A100 GPU上進行，測試的模型是兩個規模不同的Qwen3.5：0.8億參數版（0.8B）和20億參數版（2B）。

**五、意外發現：隨機圖片竟然也有奇效**

在深入討論ART的效果之前，有一個令研究團隊頗感驚喜的發現值得先說。

給0.8B小模型隨機貼上一張毫無意義的噪聲圖片，GSM8K準確率從39.65%跳升至54.59%，提升了將近15個百分點。ToolMind的準確率更是從36.65%猛升至63.10%，幾乎翻了一倍。這張圖里什麼有用資訊都沒有，只是隨機像素而已。

相比之下，塞入同樣數量（64個）的隨機文字詞元，效果截然相反：GSM8K直接從39.65%暴跌到25.25%，ToolMind同樣大幅下降。

這個對比揭示了一個深刻的現象：對於這類小型多模態模型，圖像輸入和文字輸入對AI的影響機制是根本不同的。隨機文字打亂了AI原本的文字推理節奏，就像在菜譜中間插入了一堆亂碼；而隨機圖像則像是打開了一個平時閒置的"視覺引擎"，激活了本來處於休眠狀態的視覺處理模組，反而為AI增添了大量額外的計算能力——0.8B模型的視覺模組含有大約1億個參數，相當於給AI憑空加了一個小型助手。

這個效應在更大的2B模型上明顯減弱（GSM8K僅提升3.71%，ToolMind僅提升0.60%），這說明當語言解碼器本身的參數量足夠大、能力足夠強時，它對視覺噪聲的"依賴感"就沒那麼強了。

贊助商廣告

**六、ART優化後的實際戰績**

從固定種子圖片出發，經過100步像素優化，ART的圖片在多個任務上帶來了統計顯著的性能提升。

在0.8B模型上，ART將GSM8K準確率推至58.53%，不僅比純文字基線高出18.88個百分點，還比未優化的隨機圖片高出約4個百分點。ToolMind的成績更加突出，ART達到73.80%，比純文字基線高出37.15個百分點，也比隨機圖片高出約10.7個百分點。這些差距都超出了統計置信區間，是可靠的真實提升。

與LoRA微調的正面比較同樣有說服力。在0.8B模型上，同樣經過100步相同強化學習訓練的LoRA，GSM8K只達到49.51%，不僅輸給了ART的58.53%，甚至還不如什麼都沒訓練的隨機圖片前綴（54.59%）。這意味著對於極小型模型，直接優化視覺輸入比優化語言解碼器的權重更有效——視覺通道天然具備更強的資訊注入能力。ToolMind上兩者非常接近，ART以73.80%微微領先LoRA的69.50%。

在2B模型上，兩種方法的差距收窄，ToolMind上LoRA（69.05%）略微高於ART（67.15%），但兩者的置信區間有重疊，差異在統計上並不確定。GSM8K方面，2B模型本身已經很強，ART和固定種子圖片都達到81.20%，接近天花板，進一步優化的空間有限。

唯獨GPQA是ART的"軟肋"。在這個需要高精度科學推理的任務上，增加任何圖片前綴都輕微拖累了性能（0.8B模型從23.44%降至20.15%），不過由於測試集只有273道題，置信區間很寬，這個差距在統計上並不算確鑿。更重要的是，不論是ART還是LoRA，在這個任務上的得分都接近隨機猜測四個選項的水平（25%），這說明這兩個規模的模型本身對這類研究生級別的科學推理問題能力有限，任何微調手段在這裡都無法施展拳腳。

**七、圖片裡藏著什麼：一種面向AI的隱寫術**

ART訓練後的圖片長什麼樣？從圖片上，你會看到一個奇特的視覺現象：種子圖片的大致輪廓和色調依然保留（數學書還是數學書，大腦還是大腦，扳手還是扳手），但整張圖片被密密麻麻的高頻紋理"覆蓋"了——那些細密的結構性"噪聲"清晰可見，像是在圖片上刻滿了只有機器才能讀懂的符文。

贊助商廣告

研究團隊把這種現象稱為"面向AI的隱寫術"。隱寫術（Steganography）這個詞來自古希臘語，意為"隱蔽的書寫"，傳統上指把秘密資訊藏在普通圖片、音頻或文本中，讓人類肉眼難以察覺。而ART圖片裡的"秘密資訊"不是藏起來的，它以肉眼可見的方式鋪滿整張圖——只不過人類看不懂，只有特定的AI視覺模組才能解讀出其中編碼的任務偏好。

為了量化圖片裡儲存了多少資訊，研究團隊使用了一個簡單而優雅的代理指標：PNG文件大小的增長。PNG是一種無損壓縮格式，圖片內容越複雜、越隨機，壓縮效率越低，文件就越大。訓練前的數學書種子圖片（math.png）只有8.5 KB，經過0.8B模型優化後，文件大小暴漲至98.0 KB，增幅超過1047%。GPQA的大腦圖片從20.0 KB增至72.1 KB，工具圖片從44.3 KB增至75.8 KB。每一張圖片在訓練後都變得"更複雜"了，這是梯度優化在像素層面寫入資訊的直接證據。

更令人印象深刻的是：這些資訊是在嚴苛的量化壓縮條件下存活下來的。優化過程中，Xraw參數以32位浮點精度儲存，但最終部署時被壓縮成8位整數圖像（每個顏色通道只有256個可能取值）。研究團隊報告的所有性能數字，都是在重新加載這張8位PNG圖片後測得的，和日常使用完全一致。這說明任務資訊在32位到8位的劇烈量化中依然頑強存活，編碼是魯棒的，而非脆弱的高精度擾動。

**八、速度上的優勢：省時省力**

除了效果，研究團隊還測量了訓練和推理的實際耗時。

在訓練速度上，ART的優勢相當明顯。在GSM8K任務上，ART訓練100步只需1093.6秒，LoRA則需要2008.1秒，ART快了將近一倍。在ToolMind任務上差距更大，ART僅需1158.6秒，LoRA則高達3797.4秒，ART快了三倍多。原因很直接：LoRA需要在每次訓練步驟中對模型的語言解碼器權重計算梯度並更新，這涉及大量參數；而ART的模型完全凍結，需要計算梯度和更新的只有一張圖片的像素，工作量遠小於前者。

贊助商廣告

推理速度方面，結果頗為有趣。在ToolMind任務上，ART推理每200道題只需83.9秒，而純文字基線需要154.8秒，LoRA更是需要302.7秒。研究團隊推測，這可能是因為ART的圖片同時"教會"了模型更簡潔地輸出答案，優化了輸出序列的長度。如果確實如此，這意味著ART不僅提升了準確率，還壓縮了每次推理的計算量，是一舉兩得的收益。

**九、ART的適用邊界與未來方向**

任何技術都有其適用範圍，ART也不例外。研究團隊坦誠地指出了幾個已知的局限。

目前所有實驗都只在Qwen3.5架構的兩個尺寸（0.8B和2B）上進行，其他架構（如LLaVA、InternVL等）的情況尚不清楚。不同的視覺編碼器結構和視覺-語言對齊方式，可能會讓隨機圖片的"激活效應"大小不同，也可能讓像素優化的收益不同。

GPQA任務的失利則揭示了更根本的局限：當任務要求的核心能力（深度科學推理）本身超出了當前模型規模的天花板時，無論通過何種方式注入資訊，都無法彌補模型容量的不足。LoRA在GPQA上表現稍好，是因為它直接修改了語言解碼器權重，能以更高的資訊密度儲存任務偏好；而視覺通道的容量相對有限，更適合編碼"推理風格"或"輸出格式"類的引導，而非深層知識本身。

研究團隊還列出了幾個值得深入探索的方向。其中一個是"跨模型遷移性"：用0.8B模型優化出來的圖片，直接送給2B模型用，效果會如何？如果視覺資訊能在不同規模的模型間遷移，那意味著一張圖片可以服務於多個模型，價值將大幅提升。另一個方向是與軟提示的直接對比：在相同的參數預算下（同樣64個詞元的資訊容量），優化後的圖片和優化後的文字嵌入向量，究竟哪種資訊注入方式更有效？此外，能否把多張針對不同任務優化的ART圖片疊加組合，就像LoRA權重合併一樣？這些問題都值得未來進一步研究。

**十、結語**

歸根結底，ART做了一件在直覺上既簡單又出人意料的事：用一張圖片來"調教"AI，而不去動AI本身的任何東西。

贊助商廣告

這個方案的聰明之處在於它順勢而為。現代多模態AI天生就有一扇"視覺之門"，而ART所做的，不過是精心雕琢那把送進門的"鑰匙"。鑰匙換了，鎖（AI模型）紋絲未動，但開出來的房間（任務表現）卻大不相同。更妙的是，這把鑰匙就是一張普通的PNG圖片，放在任何標準的多模態請求里，整個基礎設施都感知不到任何異常，完全不需要為它專門改造管道。

這項研究的意義或許不僅僅在於又多了一種微調方法，更在於它提醒我們：AI系統中未被充分利用的"側門"可能蘊藏著巨大潛力，而那些看起來固若金湯的預編譯優化結構，未必需要從內部撬開才能"馴化"。

有興趣深入了解所有技術細節的讀者，可以通過arXiv編號2606.11854查閱完整論文，裡面還包含了完整的算法偽代碼和詳細的實驗配置參數。

---

Q&A

Q1：ART方法和LoRA微調在實際效果上有什麼區別？

A：ART在小型模型（0.8B參數）的數學題和工具調用任務上超過了LoRA，GSM8K數學任務ART達到58.53%而LoRA只有49.51%，工具調用任務ART達到73.80%而LoRA為69.50%。但在需要深度科學推理的研究生級別題目（GPQA）上，LoRA稍占優勢，因為LoRA能以更高密度直接向語言解碼器注入知識。兩者在更大的2B模型上差距明顯收窄。

Q2：ART訓練出來的圖片能在不同AI模型上通用嗎？

A：目前的實驗還沒有驗證這一點，研究團隊將"跨模型遷移性"列為重要的未來研究方向。理論上，如果不同規模的模型使用相同的視覺編碼器結構，遷移是有可能的。用0.8B模型優化的圖片能否直接在2B模型上發揮同等效果，還需要實驗驗證。

Q3：為什麼隨機圖片就能讓小型AI變聰明，文字卻不行？

A：這與多模態AI的架構設計有關。隨機圖片會激活模型中平時處於閒置狀態的視覺處理模組（Vision Transformer），0.8B模型的視覺模組約含1億個參數，相當於為AI開啟了額外的計算資源。而隨機文字直接插入語言處理流程，打亂了原本的推理節奏，反而造成干擾。兩者對AI的影響機制根本不同，前者是"加了一個幫手"，後者是"添了一個攪局者"。

贊助商廣告