這項由復旦大學可信具身智能
研究所、復旦大學上海多模態具身智能重點實驗室、騰訊微信視覺團隊以及華南理工大學共同開展的研究,以預印本形式發布於2026年6月23日,論文編號為arXiv:2606.24484v1,感興趣的讀者可通過該編號查閱完整原文。
你有沒有見過海報上那種字母里藏著火焰、字體扭曲成波浪形、筆畫裡嵌入了花紋圖案的"藝術字"?這類文字在商場招牌、遊戲封面、雜誌封面上隨處可見,設計師們把它們叫做"WordArt",也就是藝術文字。這類字好看歸好看,但對於AI來說,想把它們認出來簡直是一場噩夢。
為什麼呢?普通的文字識別,就像讓人認出標準黑體印刷的報紙文字,整整齊齊、規規矩矩。但藝術字完全不一樣——字母可能被拉伸成奇怪的形狀,填充了複雜的紋理圖案,排列成弧形或豎排,甚至字母輪廓里還藏著山川湖海的圖案。這對AI來說,就好比讓一個只受過閱讀普通教科書訓練的學生,突然去解讀一幅書法作品,再熟悉的文字也會看得眼花繚亂。
正是為了解決這個難題,來自復旦大學和騰訊的研究團隊構建了一套全新的系統,從"用什麼數據訓練AI"和"用什麼模型結構識別"兩個角度同時出發,讓AI終於能更好地"讀懂"這些花里胡哨的藝術字。他們把整套研究命名為WATER,即WordArt-oriented scene TExt Recognition(面向藝術字的場景文字識別)。
一、藝術字識別為何如此難:一個被長期忽視的角落
要理解這項研究解決的是什麼問題,先要明白為什麼藝術字識別一直是個特別棘手的挑戰。
普通的文字識別技術,比如你手機上的掃描票據功能、銀行自動讀取支票上的數字,已經做得相當不錯了。這些技術之所以好用,是因為普通文字的樣式比較固定——字體大多是印刷體,顏色單一,背景乾淨,字母排列整齊。研究人員多年來積累了大量這類數據,訓練出來的AI模型表現自然好。
但藝術字完全是另一回事。設計師在創作藝術字時,會把字母當成畫布,在裡面填充圖案、漸變色、紋理,甚至把字母做成立體的、透明的、帶陰影的。字母可能沿著圓弧排列,或者以豎排方式堆疊,或者每個字母都朝著不同的方向傾斜。更麻煩的是,這些複雜的視覺裝飾本身就是一種"干擾",讓AI很難判斷眼前看到的究竟是字母的筆畫,還是背景圖案的一部分。
當前最頂尖的文字識別AI,在標準測試中能達到接近99%的準確率,但一旦換成藝術字測試,準確率會驟然下滑到70%多,甚至更低。就連最新最強的那種能看圖說話的大型AI(也就是視覺語言模型),在藝術字識別上的表現也只有70%-80%左右,遠遠談不上實用。
造成這種困境的根本原因有兩個。第一是數據太少——目前專門針對藝術字的訓練數據極其匱乏,最常被引用的藝術字數據集"WordArt"只有區區4805張訓練圖片,用這麼點數據根本沒法訓練一個能應對現實世界各種藝術字風格的AI。第二是現有AI模型的設計本來就不是為藝術字準備的,它們把所有輸入圖片都強制縮放到同一個尺寸,比如32像素高、128像素寬,這對正常橫排文字沒什麼問題,但碰到正方形的、豎長的、甚至圓弧形的藝術字,這種強制縮放會把字形扭曲得面目全非,識別當然就出了問題。
二、兩條路造出200萬張練習題:WATER-S數據集的誕生
既然數據稀缺是核心瓶頸,研究團隊的第一步自然是想辦法"造數據"。他們走了兩條完全不同但互補的路,最終造出了共200萬張帶標註的藝術字圖片,組成了名為WATER-S的合成數據集。
第一條路,可以理解為"工匠製作"路線。研究團隊首先從各大開源字體網站和設計資源平台,收集了11250款藝術風格字體,這些字體涵蓋了手寫體、卡通體、裝飾體、哥特體等各種風格,並且每一款都通過了版權審核,可以用於學術研究。然後,他們基於兩個經典的文字合成工具(SynthText和SynthTIGER)開發了一個專門針對藝術字的渲染引擎,命名為SynthWordArt。
這個引擎的工作方式就像一個自動化的海報設計師:給它一段文字內容、一款字體、一張背景圖,再告訴它用什麼樣的排版布局,它就能自動渲染出一張藝術字圖片。與普通文字合成工具不同的是,SynthWordArt不僅支持普通的橫排布局,還加入了曲線排列、多方向排列、透視變形等多種排版方式,並且大約有20%的圖片是弧形文字,30%是多方向文字,其餘的是普通水平布局但帶有各種藝術字體風格。渲染所用的文字內容也不是從詞典里隨機挑單詞,而是直接復用了從真實場景中收集來的文字標籤,讓文字內容的分布更貼近現實。通過這條路線,團隊生成了100萬張圖片,組成子數據集WATER-T。
第二條路,則像是"請AI創作"路線。這條路的起點是一個核心問題:工具渲染出來的圖片雖然標註準確、布局可控,但看起來總有點"機器味",缺乏真實設計作品裡那種人的審美感和整體風格協調感。為了讓數據更接近真實設計師的作品,研究團隊決定藉助當下最先進的AI圖像生成技術來合成數據。
但AI生成圖像的效果好不好,很大程度上取決於給它的"提示詞"寫得夠不夠好。如果只是簡單描述"一張藍色背景的藝術字圖片",生成的結果肯定千篇一律、缺乏創意。為此,研究團隊設計了一個巧妙的"提示詞挖掘"流程。他們把現有的31335張真實藝術字圖片一張張餵給騰訊的Qwen3-VL-8B(一款能看圖說話的大型AI),讓它為每張圖片生成一段詳細描述——不是描述圖片裡寫的是什麼字,而是描述這張圖片的視覺風格、材質感、排版方式、背景氛圍。描述中,具體的文字內容被替換成了一個占位符"
有了這批提示詞,團隊把真實文字內容隨機替換進占位符,然後交給一款開源的圖像生成模型Z-Image-Turbo來生成圖片,最終得到了另外100萬張風格更多樣、更貼近真實設計審美的藝術字圖片,組成子數據集WATER-Z。
這兩個子數據集各有優勢,也各有短板,合在一起才是最完整的。WATER-T的優勢是標註100%準確,文字內容和字體都完全可控;WATER-Z的優勢是風格更豐富、視覺更自然,更接近真實設計場景的審美,但由於AI生成圖片本身存在一定誤差,大約有12.56%的圖片裡文字內容和標註不完全吻合。研究團隊也專門做了實驗,發現即使不過濾這些有噪聲的樣本,模型依然能從中學到有用的東西,強行用AI"評分過濾"反而可能把一些難度高但標註正確的樣本也誤刪掉。兩個子數據集合併後,就是完整的WATER-S,共200萬張圖片。
三、為AI搭一副"不變形"的眼鏡:WATERec模型的設計
有了數據,還需要一個合適的模型來使用這些數據。研究團隊在這方面的思考是:現有文字識別AI的結構,本質上是為規規矩矩的橫排文字設計的,直接拿來處理藝術字會有兩個根本性的問題。
第一個問題是輸入變形。幾乎所有現有的文字識別模型,都會把輸入圖片強制縮放到一個固定尺寸,比如32×128像素(高32、寬128)。對於普通的橫排文字來說,這個比例很合理。但藝術字的形狀千變萬化,有的接近正方形,有的是豎長條,有的是寬扁形。把一張正方形的藝術字圖片強制拉伸成32×128,字形會被嚴重變形,就好比把一張圓形的照片硬塞進一個長方形的相框,人臉會被拉成奇怪的形狀,識別自然就出錯了。雖然已經有改進版本的模型(比如SVTRv2)提出用幾個預定義的尺寸模板來稍微緩解這個問題,但預定義模板終究是有限的,無法覆蓋藝術字的所有形狀。
第二個問題是解碼方式。文字識別最後一步,是從圖像特徵里把文字內容"讀"出來。常見的做法有兩類:一類是並行解碼,就是一次性預測所有字符;另一類是逐步解碼,就是像人讀書一樣,一個字一個字地依次輸出。藝術字常常有非常規的閱讀順序(比如豎排、螺旋形排列),對於這類文字,逐步解碼的方式能更好地利用已經讀出的字符來輔助預測下一個字符,準確率更高。
基於這兩個判斷,研究團隊設計了WATERec這套新模型。它的核心思路用一句話概括就是:允許輸入圖片保持原始比例,同時用逐步解碼的方式輸出文字。
在輸入處理上,WATERec不再強制把圖片縮放到固定尺寸,而是在保持原始寬高比的前提下,把圖片縮放到合適的大小,使得生成的視覺"詞塊"(把圖片切成小塊後得到的單元,每塊4×4像素)的數量在64到256之間。不同形狀的圖片會產生不同數量的詞塊,高而窄的圖片詞塊少,寬而扁的圖片詞塊多,但比例關係得到了保留,字形不會被扭曲。
在感知空間位置上,WATERec使用了一種叫做"旋轉位置編碼"(RoPE)的技術。這個技術的作用是讓AI理解"這個詞塊在圖片裡的什麼位置"。與以前常用的位置編碼方式不同,RoPE不需要提前固定圖片的尺寸,它通過給每個詞塊的計算引入與坐標相關的旋轉操作,自然地讓模型理解相對位置關係。這就好比不是給每個座位貼固定編號,而是用"我在你左邊三格、上面兩格"這樣的相對描述來定位,這樣換了更大或更小的房間,關係描述依然有效。
在解碼輸出上,WATERec採用的是自回歸(AR)解碼器——一個字一個字地依次生成,每生成一個字都能參考前面已經生成的內容,就像一個人在讀一段文字時,前面看到的字會幫助他理解後面不清晰的字。整個模型採用6層視覺編碼器加2層解碼器的輕量化設計,參數量約為2600萬,在保持較快推理速度的同時實現了很高的準確率。
四、真實數據也要好好打掃:WATER-R訓練集的整理
除了合成數據,研究團隊還對現有的真實藝術字數據進行了系統整理,構建了名為WATER-R的真實數據訓練集。這個訓練集來源於三個現有數據集的合併:Union14M-L(一個大規模場景文字數據集)、WordArt數據集的訓練部分,以及WAS-R數據集。
整理過程中最關鍵的一步是"去重"。研究團隊對合併後的訓練集和所有測試集之間做了嚴格的哈希去重,確保訓練數據里不包含任何出現在測試集中的圖片。這一步看起來理所當然,但在實際操作中很多研究往往忽略了這一點,導致測試結果虛高。經過嚴格去重後,WATER-R包含了3,225,130條文字實例,是一個數量可觀的真實數據基礎。
五、實驗結果說話:提升了多少,在哪裡提升
研究團隊進行了全面的實驗,用幾個不同的測試集來評估各種方法的表現。藝術字測試主要用的是WordArt數據集的測試部分,共1511張圖片,簡稱A-Bench。此外還用了六個常規場景文字測試集(統稱C-Bench),以及Union14M的七個細分場景測試集(統稱U-Bench),其中包括曲線文字、多方向文字、藝術文字、無上下文文字、顯著性文字、多詞組文字和通用場景。
在只用WATER-R真實數據訓練時,WATERec在A-Bench上的準確率就已經達到了88.55%,超過了同類CTC解碼模型SVTRv2(86.56%)和另一款自回歸模型SVTRv2-AR(87.36%)。在U-Bench的平均分上,WATERec也以88.14%領先SVTRv2的86.14%和SVTRv2-AR的87.63%。
加入合成數據之後,提升更為明顯。單獨加入100萬張WATER-T,A-Bench準確率從88.55%提升到89.81%;單獨加入100萬張WATER-Z,提升到89.41%。兩者組合成100萬張混合數據(各50萬),準確率達到89.94%,已經優於單獨使用100萬張任一數據集,說明兩個子數據集確實具有互補性。當加入200萬張WATER-S時,準確率進一步攀升到90.40%,這是研究團隊所知的第一個在WordArt-Bench上超過90%的結果。
研究團隊還測試了繼續增加到300萬張合成數據的效果,發現提升變得非常有限,甚至某些子測試集出現了輕微下滑。這告訴我們,合成數據並非越多越好——當合成數據量大約是真實數據量的三分之二時(200萬合成對應320萬真實),效果最佳;超過這個比例,合成數據和真實數據之間的分布差距會開始對模型產生輕微的負面影響。
研究團隊還把WATER-S加到其他三個不同架構的模型上測試泛化性,分別是CTC解碼模型SVTRv2、並行解碼模型ABINet,以及自回歸模型SVTRv2-AR。結果顯示,加入WATER-S之後,這三個模型在A-Bench上的準確率分別提升了+2.12%、+2.39%、+2.78%,說明這套合成數據對各種模型架構都有普遍性的幫助,而非只適配某一種特定模型。
研究團隊也在同一組測試集上評估了當前主流的視覺語言大模型的表現。通用視覺語言模型(Qwen3-VL-8B、InternVL3.5-8B、Nemotron-VL-8B)在A-Bench上的最高準確率只有72.01%。專門針對OCR任務優化的模型或工具(GOT-OCR 2.0、PaddleOCR-VL、HunyuanOCR、DeepSeek-OCR、DeepSeek-OCR2、PP-OCRv5)表現好一些,最高的HunyuanOCR達到了81.54%,但依然遠低於WATERec的90.40%。
研究團隊還嘗試了用LoRA微調的方式,將Qwen3-VL-8B在WATER-R數據上進行專項訓練,準確率從72.01%提升到82.59%;再加上WATER-S數據,進一步提升到84.78%。這說明WATER-S數據對大型語言模型的微調同樣有幫助,但即使經過專項微調,擁有80億參數的大模型仍然輸給了只有2600萬參數的輕量級專業模型WATERec。專業的事情,專業的工具做,這個結論在這裡得到了很好的印證。
六、拆開模型看看:每個設計選擇貢獻了多少
為了更清楚地理解WATERec里每個設計決策的價值,研究團隊還進行了詳細的消融實驗——也就是把模型的各個部分逐一拆除或替換,看看性能如何變化。
在位置編碼的選擇上,研究團隊比較了四種方案:不用任何位置編碼(NoPE)、可學習的絕對位置編碼(APE)、固定的正弦餘弦位置編碼(SPE),以及旋轉位置編碼(RoPE)。實驗結果顯示,在任意形狀輸入模式下,完全不用位置編碼會導致模型性能大幅崩潰(A-Bench準確率降至49.57%),說明位置資訊對模型理解文字布局至關重要。APE和SPE的效果差不多,A-Bench準確率分別是87.69%和87.29%。RoPE的表現最好,達到88.55%,而且由於它天然支持可變長度的序列,在各種形狀的輸入圖片上都表現穩定。
在詞塊數量範圍的設置上,研究團隊比較了固定256個詞塊(相當於固定尺寸輸入)、允許1到256個詞塊的完全自由範圍,以及64到256個詞塊的適中範圍。完全固定尺寸(不啟用任意形狀模式)的A-Bench準確率是86.83%;啟用任意形狀但詞塊下限設為1時(意味著非常小的圖片只會被切成極少的詞塊),某些小圖片的識別效果變差,A-Bench為88.29%;把下限設為64(相當於最小輸入圖片為32×32像素)時效果最佳,達到88.55%。研究團隊還測試了把上限擴展到512個詞塊的版本,A-Bench進一步提升到88.82%,但推理速度會從361幀/秒降至191幀/秒,考慮到效率平衡,最終選擇了64到256的範圍作為默認配置。
研究團隊還通過可視化編碼器生成的特徵圖來直觀展示效果差異。對於一張豎長的藝術字圖片,使用固定尺寸模式的模型會先把圖片橫向拉伸,特徵圖顯示文字的紋理和形狀被嚴重扭曲,模型很難從中提取有效特徵。而使用任意形狀模式的WATERec保持了圖片的原始比例,特徵圖清晰地呈現出文字的結構,模型能夠準確抓取每個字符的輪廓。
七、這套方法能用於其他語言嗎:多語言支持的初步驗證
研究團隊還專門驗證了整套合成數據生成流程是否能遷移到英語以外的語言。理論上,無論是工具渲染路線還是AI生成路線,替換掉底層的文字內容來源(即換一份對應語言的文字語料庫),就能生成其他語言的藝術字數據。
為此,他們生成了中文、法文、俄文、德文、日文、阿拉伯文等多個語言版本的藝術字樣例,並專門針對中文進行了小規模的系統性驗證。研究團隊從BCTR-Test測試集中抽取了101張中文藝術字圖片作為測試集,用真實中文場景文字數據(BCTR-Train)訓練WATERec後準確率為87.13%,加入中文版本的WATER-S數據後準確率提升到92.08%,而通用大模型Qwen3-VL-8B在同一測試集上只有82.77%。這組數據說明,這套方法的設計思路並非英語專屬,而是可以相對直接地遷移到其他語言的藝術字識別任務。
說到底,這項研究做了一件很實在的事:把"AI讀不懂藝術字"這個一直被忽視的小角落,系統性地掃了一遍。數據不夠就造數據,而且造了兩種不同風格的數據互補著用;模型設計有缺陷就重新設計,允許圖片保持原始形狀進入模型,不再強行把各種奇形怪狀的藝術字統一壓扁。這種"兩手都要硬"的做法,讓A-Bench準確率突破了90%,打敗了體量大得多的通用AI大模型。
對於普通人來說,這項研究的意義在於,未來當你用手機掃描一張設計感十足的海報、名片或者商品包裝時,識別那些花式藝術字的準確率會更高;對於設計師和商家來說,自動識別藝術字意味著更多數字化和搜索功能成為可能;而對於研究者來說,這套數據生成流程是開放的,無論是想研究更多語言的藝術字,還是想用更強的生成模型來替換其中的圖像合成環節,都可以在這套框架上繼續擴展。
當然,從研究團隊展示的失敗案例來看,藝術字識別還沒有到"完全解決"的程度。模型有時會把手寫體裡的"l"認成"1",把"O"認成"0",把字母邊緣的裝飾誤讀成額外的字符。這些錯誤,很多時候連人眼也需要仔細辨認才能判斷。所以這個問題還遠沒有終點,但至少有了一個很好的新起點。
有興趣繼續深入了解的讀者,可以通過編號arXiv:2606.24484v1查找完整原文,研究團隊也已將代碼和數據集開放在GitHub上,相關搜索不難找到。
Q&A
Q1:WATER-S合成數據集是怎麼生成的,為什麼要用兩種不同的方法?
A:WATER-S由兩個子數據集組成。WATER-T通過工具渲染生成,使用11250款藝術字體,字符內容和位置完全可控,標註100%準確。WATER-Z通過AI圖像生成模型生成,先用Qwen3-VL-8B從真實藝術字圖片中提取風格描述,再由Z-Image生成圖片,風格更多樣自然但存在約12.56%的標註誤差。兩者風格互補,合併使用效果優於任何單一來源。
Q2:WATERec模型和普通文字識別模型相比,主要區別在哪裡?
A:WATERec最大的不同是支持任意寬高比的圖片輸入,不會強制把圖片縮放到固定尺寸,避免了藝術字字形被拉伸變形的問題。此外,它使用旋轉位置編碼(RoPE)來感知不同形狀圖片中詞塊的空間位置,以及逐字符自回歸解碼器來處理複雜閱讀順序的文字,這兩點共同提升了對藝術字的識別能力。
Q3:WATERec和GPT這類大型AI相比,誰的藝術字識別能力更強?
A:專門訓練的WATERec更強。在WordArt-Bench測試集上,WATERec結合真實數據和200萬合成數據後達到90.40%準確率;而通用視覺語言大模型如Qwen3-VL-8B僅有72.01%,專為OCR優化的HunyuanOCR最高也只有81.54%。即使將Qwen3-VL-8B在同樣的數據上進行專項微調,也只能到84.78%,仍低於參數量少300多倍的WATERec。






