這項由香港理工大學領導的研究發表於2026年,論文編號為arXiv:2604.08641,有興趣深入了解的讀者可以通過該編號查詢完整論文。
你有沒有看過一幅抽象畫,然後花了好幾分鐘盯著它,試圖弄清楚畫家想說什麼?那種"它到底在表達什麼"的感覺,正是藝術最迷人的地方。現在,當AI開始創作藝術作品時,一個新的問題出現了:我們怎麼判斷AI的作品是不是真的"好藝術",而不只是看起來漂亮的圖片?香港理工大學的研究團隊正是為了回答這個問題,開展了這項研究。
一、被忽略的問題:AI藝術評審員只會看臉
當我們想判斷一幅AI生成的畫好不好時,通常的做法是什麼?現有的評分工具大多在做一件事:把AI生成的圖片和輸入的文字說明對比,看看"畫出來的東西"和"說要畫的東西"像不像。比如,你告訴AI畫一隻貓,它畫了一隻毛茸茸的橘貓,評分系統就說:不錯,很像貓,高分。
但藝術本來就不是這麼運作的。
畢加索的《格爾尼卡》畫的是戰爭,但畫裡幾乎沒有任何逼真的戰爭場景——扭曲的人體、破碎的幾何形狀、黑白灰的色調,這一切共同傳達出一種震撼人心的反戰情緒。如果用現有的AI評分工具來打分,它可能會覺得這幅畫"不夠逼真",甚至給低分。這就是問題所在:藝術的意義,往往不藏在表面,而藏在象徵、隱喻和聯想里。
研究團隊發現,現有的AI藝術評估體系存在兩個根本性的缺陷。第一個缺陷是,藝術意義無法被簡化為表面外觀。真正有力量的藝術往往通過非字面的方式傳達意思——通過並置、抽象、隱喻,讓觀者自己去感受和解讀。如果評分系統只看"畫面像不像",就會把藝術質量等同於視覺保真度,獎勵那些漂亮但空洞的圖片。第二個缺陷是,藝術意圖無法被簡化為文字提示的字面含義。當一個人對AI說"畫一幅有格爾尼卡精神的作品",這句話不是在描述具體的視覺元素,而是在傳遞一種情感基調、一種反戰立場、一種藝術風格的影響。現有的評分工具直接比對文字和圖像,完全跳過了這個"理解意圖"的關鍵步驟。
二、符號學:理解藝術語言的古老鑰匙
研究團隊沒有試圖修補現有工具的小漏洞,而是回到了一個更根本的問題:藝術意義到底是怎麼傳遞的?他們找到的答案來自一門叫做"符號學"的學科——一門研究"意義是如何通過符號傳達"的科學。
符號學裡有一位重要的思想家叫皮爾斯(Charles Sanders Peirce),他提出了一個三角關係模型:任何意義的傳達,都涉及三個要素——符號(你看到的東西)、對象(符號所指代的現實或概念)、解釋項(你心裡產生的理解和感受)。
舉個具體的例子:一幅畫裡有一隻白鴿(這是符號),它指代的是"和平"(這是對象),而你看到它產生的感受是"渴望和平、厭惡戰爭"(這就是解釋項)。這三者之間的關係,就是符號的意義。
更有意思的是,皮爾斯把符號與對象之間的關係分成了三種類型。第一種叫"圖像性"(iconic),指符號通過視覺相似來傳達意義,比如一幅人物肖像和真人長得像;第二種叫"象徵性"(symbolic),指符號通過約定俗成的文化慣例來傳達意義,比如紅色代表危險或熱情;第三種叫"索引性"(indexical),指符號通過因果關係或物理聯繫來傳達意義,比如煙霧指向火焰,畫家的筆觸風格指向創作狀態。
研究團隊指出,現有的AI藝術評分系統幾乎完全活在"圖像性"的世界裡——它們只會比對視覺相似度,對"象徵性"和"索引性"這兩種更深層的意義傳達方式完全視而不見。這就好比你學英語只會認字母,卻完全不懂單詞的含義和句子的語法,自然讀不懂文章。
三、人與AI的藝術對話:一場接力賽
研究團隊用符號學的視角,重新描述了人與AI生成藝術之間的整個互動過程,他們稱之為"人類-生成藝術交互"(Human-GenArt Interaction,簡稱HGI)。
這個過程是一場接力賽,每一棒都涉及意義的傳遞和轉化。第一棒是創作者:人類用戶心裡有一個想表達的意圖(比如"我想表達戰爭的殘酷和對和平的渴望"),但這個意圖是藏在心裡的,AI看不見。於是用戶把它轉化成一段文字提示,這段文字就是符號,承載著用戶的意圖。第二棒是AI模型:AI讀取這段文字,用自己的方式理解它,然後生成一幅圖像。這個過程本身就是一次"符號解讀"——AI把文字符號轉化成視覺符號。第三棒是觀看者:最後,一個人看到這幅AI生成的圖像,根據自己的知識、文化背景和審美經驗,理解這幅畫想表達什麼,形成自己的解讀。
在這三棒接力中,每一次傳遞都可能發生偏差——用戶的意圖可能沒有被AI正確理解,AI生成的圖像可能沒有把象徵意義傳達給觀看者。研究團隊把最終觀看者理解到的意義和最初創作者的意圖之間的差距,稱為"符號鴻溝"(Semiosis Gap)。
現有的評分工具實際上只在比較第一棒(文字提示)和第二棒(生成圖像)的表面相似度,完全沒有評估"意義有沒有真正傳達到位"這個核心問題。
四、SemJudge:一個真正懂藝術的AI評審
基於這套符號學理論,研究團隊開發了一個新的評估工具,叫做SemJudge。這個工具的核心是一種叫做"層次符號圖"(Hierarchical Semiosis Graph,簡稱HSG)的結構。
HSG的工作原理可以用一個偵探故事來理解。當一位偵探調查案件時,他不會只看表面現象——他會把所有線索整理成一張關係網路圖:這個證物指向哪個嫌疑人,這個嫌疑人和那個案發地點有什麼關聯,多條線索交匯指向什麼結論。HSG對一幅藝術作品做的,正是類似的事情。
具體來說,HSG把一幅圖像(或者一段文字提示)分解成多個意義單元。對於整幅畫,HSG會建立一個"根符號",包含對整體畫面的描述(符號)、畫面所指代的主題或概念(對象)以及它應該讓觀看者產生的感受或理解(解釋項)。在根符號之下,HSG會進一步分解出若干"子符號",每個子符號對應畫面里的一個具體視覺元素——比如一個特定的人物形象、一個顏色區域、一種藝術風格——並同樣分析它的對象和解釋項,以及它與整體主題的關係。
以論文中展示的一個例子為例:一幅以畢加索分析立體主義風格描繪"天使報喜"(聖經中天使告知瑪利亞將誕生耶穌)的抽象畫。HSG會這樣分析:整幅畫的全局符號是"用立體主義風格描繪的宗教場景",對象是"天使報喜這一聖經事件",解釋項是"精神莊嚴感和對古典宗教題材的現代抽象再詮釋",連接符號與對象的基礎是圖像性與象徵性並存的關係。在子符號層面,左側有翅膀結構的破碎人形指向"大天使加百列",通過圖像性(翅膀、人形)和象徵性(天使作為信使)來傳達意義;上方白色鳥形指向"聖靈和神聖之光",通過象徵性(鴿子代表聖靈)來傳達;整體的尖銳角度和交叉平面指向"畢加索的分析立體主義風格",通過索引性(筆觸和碎片化指向藝術家的技法)來傳達。
這個分析框架讓評估工具不再只是"看臉",而是真正追蹤了意義的傳遞路徑:提示詞想表達什麼?圖像用什麼視覺手段傳達這個意思?這些手段是通過外形相似、文化約定還是因果聯繫來工作的?最終,觀看者能不能從中重建出原始意圖?
SemJudge的工作流程分三個階段。首先,它分析用戶的文字提示,構建一個提示詞的HSG,理解用戶的真實意圖。然後,它分析兩幅需要比較的AI生成圖像,分別構建它們的HSG,追蹤每幅圖像中的意義傳遞路徑。最後,它把提示詞的HSG和兩幅圖像的HSG進行對比,判斷哪幅圖像更好地實現了用戶的意圖傳達,並給出具體的、有證據支持的理由——包括指向畫面中具體區域的邊界框標註,以及指向提示詞中具體文字片段的引用。
五、SemiosisArt:專門測試藝術理解力的新考卷
為了驗證SemJudge的效果,研究團隊還專門構建了一個新的數據集,叫做SemiosisArt。這個數據集的特別之處在於,它專門針對那些依賴象徵性和索引性意義傳達的藝術任務,而不是那些只需要"畫得像"的任務。
現有的AI藝術評估數據集大多偏向圖像性任務——比如"畫一隻在草地上奔跑的金毛犬",這類任務的好壞評判標準相對簡單直觀。而SemiosisArt收錄的是那些需要深度文化理解和符號解讀的任務,比如"用德國浪漫主義風格創作一幅三聯畫,從左到右依次描繪浮士德的三個場景:與魔鬼的契約、格雷琴的悲劇和海倫的插曲",或者"用奧斯曼伊茲尼克瓷磚藝術風格描繪魯米《瑪斯納維》中的敲門寓言"。
數據集的構建過程頗為嚴謹。研究團隊與12位專家合作,將任務錨定在有明確文化傳統和解讀慣例的經典母題上,涵蓋基督教、伊斯蘭教、印度教、東亞文化(包括中國、佛教、日本)等傳統,以及藝術史上的"虛空派"畫、三聯畫等形式,還有現代視覺傳統如資訊圖表、漫畫和原生藝術。這樣做的目的是降低解讀的主觀隨意性——有文化傳統背書的符號,其意義相對穩定,不同背景的人更容易形成共識。
在質量控制方面,研究團隊還眾包了38155條非專家判斷,用於篩選那些主觀性過強、難以形成共識的任務。最終,數據集包含187個提示任務,16個生成模型產生的935幅圖像,1870個兩兩比較的判斷任務,以及600個細粒度的視覺問答題目,整體標註一致性(科恩Kappa係數)達到0.58——考慮到藝術評判本身的高度主觀性,這個數字實際上相當可觀。
數據集中還有一個有趣的維度:研究團隊讓專家對每個任務標註其"淨圖像性分數",也就是這個任務主要依靠視覺相似度來評判(高圖像性),還是主要依靠象徵和文化理解來評判(低圖像性)。比如"用卡拉瓦喬風格畫一個戲劇性的明暗對比人物"就是高圖像性任務,而"用畢加索分析立體主義風格描繪天使報喜的神學母題"就是低圖像性任務。
六、實驗結果:數字說明了什麼
研究團隊把SemJudge和一大批現有工具放在一起,在SemiosisArt數據集上進行了系統性比較,結果相當清晰地展示了不同工具之間的差距。
現有的基於視覺相似度的評分工具,表現令人失望。CLIPScore(一個廣泛使用的文圖匹配評分工具)與專家判斷的相關性極低;PickScore(一個根據用戶偏好訓練的評分模型)在某些指標上好一些,但整體仍然偏低;各種圖像質量評分和審美偏好評分工具,與專家判斷幾乎沒有相關性,有些甚至呈現負相關——也就是說,這些工具認為"好"的作品,專家反而覺得差。
加入了結構化分析的工具表現略好一些,比如VIEScore(通過問答評估圖像生成質量)和ArtCoT(用多模態大模型
進行藝術形式分析),但與專家判斷的相關性仍然有限。即使這些工具使用了和SemJudge相同的底層語言模型,表現也明顯落後於SemJudge——這說明差距不在於模型本身有多強,而在於評估框架有沒有真正抓住意義傳達這個核心。
SemJudge的表現則顯著不同。以Kendall's Tau(一種衡量兩組排名一致性的指標)為例,SemJudge(使用Qwen-9B模型)達到了0.533,而最好的競爭方法只有約0.3;使用更大的Gemini-Flash模型後,SemJudge的Kendall's Tau進一步提升至0.746。在Spearman相關係數上,SemJudge(Gemini-Flash)達到了0.964,已經非常接近人類非專家判斷者之間的相關性(0.924),甚至在某個指標上超過了非專家水平,向專家水平(93.2%準確率)靠攏——SemJudge(Gemini-Flash)在視覺問答任務上的準確率達到92.4%。
更直接地驗證了"圖像性偏見"這一核心理論預測的是一組專門的統計測試。研究團隊對每個評估工具都計算了一個叫做"圖像性偏見指數"的指標(用Δ表示):當一個工具與人類判斷一致時,那些案例是不是傾向於具有更高圖像性(視覺相似度更高)?如果是,說明這個工具有圖像性偏見,只在"容易"的、主要靠看外形就能判斷的案例上和人類意見一致,一遇到需要理解象徵意義的案例就判斷錯了。
結果正如理論預測:ImageReward的Δ為0.086,PickScore的Δ為0.126,DSG的Δ為0.087,ArtCoT的Δ為0.182,所有這些工具都具有統計學顯著的圖像性偏見。而SemJudge的Δ為-0.010,不顯著異於零——這意味著SemJudge與人類判斷的一致性,並不依賴於案例是否具有高圖像性,它在象徵性和索引性的藝術案例上同樣表現穩定。
七、人類評價:不只是數字,還有質量
除了與人類判斷的相關性這個定量指標,研究團隊還專門做了一個用戶研究,讓70位參與者從四個維度評價不同工具生成的藝術解讀文本的質量。
第一個維度是"因果一致性"(僅專家評價):工具給出的判斷理由,是不是真正抓住了專家認為重要的決定性因素,而不是在胡亂歸因?第二個維度是"深度":解讀是不是超越了表面的物體識別和風格描述,達到了真正的意義層面(象徵主義、隱喻、神學傳統等)?第三個維度是"啟迪價值":看了這個解讀之後,你對這幅畫"作者在表達什麼"的理解,有沒有比只看圖像和提示詞時更深?第四個維度是"證據支撐":解讀中的關鍵判斷,有沒有具體指向畫面的某個區域或提示詞的某段文字作為依據?
在所有四個維度上,SemJudge都以統計顯著的優勢(p
八、HSG到底有多重要:消融實驗的發現
研究團隊還做了一系列消融實驗,專門測試HSG這個結構化分析框架本身的貢獻,把它與單純增大語言模型規模的效果區分開來。
實驗結果揭示了幾個很有意思的規律。固定使用同一個語言模型時,引入標準HSG結構能明顯提升表現,Kendall's Tau從0.48提升到0.55;但如果把HSG做得過於複雜(允許更多子符號和更詳細的描述),弱一些的語言模型反而難以準確地生成如此複雜的HSG,導致效果反而略有下降。這說明HSG的複雜度需要與底層模型的能力相匹配。
更有意思的發現是關於"強HSG提升弱模型"的效果。研究團隊用一個強大的模型(Gemini-Flash)來構建HSG,然後把這個高質量的HSG餵給一個很小的模型(Qwen-2B)來做最終判斷。結果顯示,即使是這個很小的模型,有了高質量HSG的幫助後,表現也從幾乎隨機猜測(Kendall's Tau為-0.04)躍升到了0.27——儘管還比不上直接用大模型,但提升幅度相當顯著。這說明,評估質量的主要瓶頸往往不在於最終判斷階段用多大的模型,而在於能不能先構建出一個質量足夠好的意義理解框架。
在視覺問答任務上,HSG的效果更加突出。用Gemini-Flash構建HSG後,即使是Qwen-4B這樣相對小的模型做判斷,視覺問答準確率也能從56.8%大幅提升至86.8%,接近直接用Gemini-Flash做整個流程的92.4%。這與人類用戶研究的結果高度一致:HSG結構對藝術解讀的深度和準確性幫助最大。
歸根結底,這項研究做的事情,是把一個長期被忽視的問題擺到了檯面上:AI生成藝術的評估,不能只停留在"畫得像不像"的層面。藝術是一種意義的傳遞,而意義的傳遞遠比視覺相似複雜得多。研究團隊用一套來自符號學的理論框架,不僅解釋了為什麼現有工具會系統性地誤判藝術質量,還給出了一套可操作的解決方案,並通過大量實驗驗證了這套方案的有效性。
當然,這項研究也有它的局限性。SemiosisArt數據集雖然跨越了多種文化傳統,但對文化少數群體和當代概念藝術的覆蓋仍然不足——這兩類藝術形式的評判標準本身在理論上就難以達成共識,構建可靠的標註數據集難度極大。此外,SemJudge在預測邊界框時的表現還不夠精確,這是多模態大模型在空間理解方面的普遍弱點,未來可以通過引入專門的視覺定位模組來改善。
由此可見,這項研究不只是在改善一個技術工具,它實際上是在推動一個更大的轉變:讓AI不只是生成"好看"的圖片,而是開始理解和表達複雜的人類經驗。有興趣深入探索的讀者,可以通過arXiv:2604.08641查閱完整論文,項目代碼和數據集也已在GitHub(songrise/SemJudge)上開源。
Q&A
Q1:符號學中的圖像性、象徵性和索引性在藝術評估中分別指什麼?
A:圖像性指通過視覺相似傳達意義,比如肖像畫和真人長得像;象徵性指通過文化慣例傳達意義,比如白鴿代表和平;索引性指通過因果關聯傳達意義,比如畫家獨特的筆觸風格透露其創作狀態。現有AI評分工具主要只識別圖像性,對後兩者幾乎無法評估,這正是它們與人類審美判斷產生系統性偏差的根本原因。
Q2:SemJudge和傳統AI藝術評分工具的核心區別是什麼?
A:傳統工具直接比較文字提示和生成圖像的視覺相似度,相當於只看外形打分。SemJudge則先構建層次符號圖(HSG),分析提示詞和圖像各自的意義結構——包括表達了什麼概念、通過什麼方式傳達、與整體主題關係如何——再對比兩者的意義傳遞路徑是否一致,判斷藝術意圖是否真正實現。
Q3:SemiosisArt數據集和已有的AI藝術評估數據集有什麼不同?
A:現有數據集大多是"畫只貓"這類主要靠外形判斷的圖像性任務。SemiosisArt專門收錄需要深度文化和符號理解的任務,比如描繪特定宗教故事或哲學概念,涵蓋基督教、伊斯蘭教、印度教、東亞等多種文化傳統,並通過專家標註和大規模眾包質量控制,確保評判標準有跨文化共識基礎而非個人主觀偏好。






