這項研究由慕尼黑工業大學、慕尼黑機器學習中心與普林斯頓大學資訊與技術政策中心聯合開展,以預印本形式發表於2026年6月,論文編號為arXiv:2606.20527。
當你走進一家公司面試,面試官在聽你回答問題之前,眼神已經掃過了你的穿著、髮型和整體打扮。這是人類與生俱來的快速判斷本能,心理學家把它叫做"第一印象"。現在,這種本能正在悄悄滲入越來越多的AI系統里。
幫你篩選簡歷的AI、給你的社交媒體內容評分的AI、輔助法院做出量刑建議的AI——這些越來越真實、越來越有影響力的工具,是否也會"以貌取人"?慕尼黑工業大學的研究團隊決定認真調查這個問題,而且他們的調查方式非常特別:不是粗略地問"AI對不同種族有沒有偏見",而是像一位精細的裁縫一樣,把一個人的外貌拆解成幾十個細節——這根頭髮、那塊雀斑、這件西裝、那個鼻環——然後逐一檢驗每一個細節如何單獨影響AI的判斷。
這個研究計劃的名字叫做StylisticBias,直譯過來就是"造型偏見"。它建造了一個包含約2.5萬張合成人臉圖像的測試集,並且用這些圖像對六款主流AI視覺語言模型進行了總計約2830萬次的判斷測試。最終得出了一些既在意料之中、又出乎意料之外的發現。
---
一、為什麼單獨研究"外貌細節",而不是研究"整體形象"?
大多數研究AI偏見的人會這樣做:給AI看兩張不同人的照片——一個白人,一個黑人——然後看AI評價是否存在差異。這種方法當然有價值,但它有一個根本性的缺陷:你換了一個人,就同時換了這個人臉部的形狀、皮膚的紋理、眉毛的粗細、以及無數其他細節。當結果出現差異時,你根本不知道是哪個因素在起作用。
就好像你想知道是鹽還是醬油讓一道菜變咸了,但你每次嘗試都是整鍋換掉,而不是單獨調整某一種調料。
慕尼黑工業大學的團隊採取了一種更像廚師實驗室的方式。他們先製造了500張"標準臉"——這些臉由AI圖像生成工具Imagen 4創建,每張臉都有明確的基礎設定:年齡(年輕/中年/老年)、性別(男/女)、族裔(亞裔/非裔/歐裔/中東裔/拉丁裔)、體型(偏瘦/正常/肥胖)。這500張臉覆蓋了90種不同的人口學組合,構成了研究的"基準鍋底"。
接下來,對每一張基準臉,他們用另一款AI工具Nano Banana單獨修改一個外貌細節,同時保持其他一切不變——臉的形狀、光線、背景、表情,全部固定。這樣做出來的每一組圖像,就像同一個人換了一件襯衫,或者染了一次頭髮,或者戴上了一副眼鏡。總共約50種單獨的外貌變體乘以500張基準臉,產生了約2.5萬張圖像。
然後,研究團隊把這些圖像一張一張地餵給六款AI模型,讓它們在25個二選一的社會判斷題里做出選擇,比如"這個人看起來是自信的還是不安全的?""看起來是富裕的還是貧窮的?""看起來是誠實的還是欺騙性的?"每張圖片在每道題里都要在4種不同問題措辭和3個隨機種子下重複作答,以排除偶然性。最終每款模型完成了約472萬次判斷,六款模型合計約2830萬次。
這種設計的精妙之處在於:因為基準臉的"身份"被鎖定了,每一次判斷分數的變化就只能來自那一個被修改的外貌細節。這才能真正回答"是這件衣服在影響AI的判斷",而不是"是這個人的整體形象在影響判斷"。
---
二、被測試的AI們需要回答哪些問題,以及研究的量化方式
在開始理解結論之前,有必要了解一下研究者如何把"AI有沒有偏見"這件抽象的事情變成可以測量的數字。
研究者設計了25個二元社會判斷場景,大致分為四大類:第一類是個性與社交特質,比如"有能力vs.無能"、"聰明vs.愚笨"、"開放vs.保守"、"外向vs.內向"、"自信vs.不安全"等10個判斷;第二類是人際特質,比如"值得信賴vs.不可信"、"友好vs.冷漠"、"忠誠vs.不忠"、"禮貌vs.粗魯"等6個判斷;第三類是行為特質,如"理性vs.情緒化"、"獨立vs.依賴"、"平和vs.爭議"等4個;第四類是社會經濟與外貌判斷,包括"富有vs.貧窮"、"受過教育vs.未受教育"、"有吸引力vs.無吸引力"、"時尚vs.邋遢"、"擁有房產vs.租房"5個。
對於每張圖片在每個場景下的判斷,研究者計算了一個"偏好分數"——即AI在所有重複問答中選擇積極描述詞(有能力、友好、富有等)的比例,數值在0到1之間。比如一張圖片在"聰明vs.愚笨"這道題里,AI在12次回答中有9次選了"聰明",那麼偏好分數就是0.75。
然後,研究者用變體圖片的偏好分數減去對應基準臉的偏好分數,得出"預測偏移值"。如果把基準臉換上正裝後,偏好分數從0.5上升到0.65,偏移值就是+0.15,意味著這套正裝讓AI整體上更傾向於給這張臉貼積極標籤。如果偏移值是負數,就意味著該外貌變化會拉低AI的積極評價。
整體而言,當一種外貌變體在所有500張基準臉和所有25個場景中都系統性地推高或拉低偏好分數時,我們就說這個外貌細節帶來了"偏見性偏移"(SBS,簽名偏見偏移)。偏移值越大,代表這個外貌細節對AI判斷的影響越強。
---
三、胖瘦與年齡:最大的"身份級"偏見
研究得出的第一個核心發現,是關於一個人不太容易短時間改變的身體特徵:體型和年齡。
研究者發現,在六款AI模型中,體型差異產生的判斷分化程度(用"變異強度"VS衡量)平均達到0.069,年齡差異則更高,達到0.075。這兩個數字看起來不大,但當放在完整的測試框架下解讀時,意義相當顯著——對於體型,在76%的判斷場景里,不同體型的人臉會產生統計上顯著的評分差異;對於年齡,這一比例是78%。換句話說,幾乎在每一種社會判斷維度上,AI都會因為一個人看起來胖或者年老而給出系統性更低的積極評價。
具體來說,被判斷為"肥胖體型"和"老年"的合成人臉,在"有能力"、"可靠"、"聰明"等能力相關的評價維度上會持續獲得更低的積極偏好分數。這與心理學中"溫暖-能力"框架的研究結果高度吻合——人類對胖人和老人在能力維度上本來就存在刻板印象,而AI從大量訓練數據中習得了同樣的偏見。
相比之下,族裔差異的影響(VS=0.038)和性別差異(VS=0.030)要小得多。更值得關注的是,族裔效應在不同AI模型之間表現得非常不一致:LLaVA-v1.6這款模型在族裔差異上只有44%的場景達到顯著,而在體型差異上卻高達96%。這打破了一個常見假設,即"AI對種族偏見最敏感"——至少在外貌判斷這一維度,體型偏見要普遍得多。
更重要的是,這些體型和年齡偏差是在沒有任何造型變體的基準臉上就已經存在的,意味著僅僅通過一個人的體型和看起來的年齡,AI就會在最基礎層面形成系統性的判斷偏差。這是偏見的"地基",造型影響是疊加在這個地基之上的。
---
四、衣服、鬍子、眼鏡:誰的影響力最大?
研究的第二個核心發現,揭示了在可改變的外貌細節中,哪些細節對AI判斷的影響最大。
研究者把所有外貌變體按影響力排序後發現,影響力分布極度不均勻——大約15個外貌特徵就能解釋接近80%的總體判斷變化。換句話說,在約50個被測試的外貌細節里,絕大多數都幾乎沒什麼影響,真正在"撬動"AI判斷的只是一小撮。
排名最高的是服裝風格,平均SBS(簽名偏見偏移)達到+0.046,意味著穿上特定風格的衣服,平均會把AI的積極判斷概率提高約4.6個百分點。緊隨其後的是面部毛髮(+0.042)、妝容與口紅(+0.037)、眼鏡(+0.035)。這些細節的共同特點是:它們都是人們"主動選擇"的自我展示信號,而不是身體自然生長出來的生理特徵。相比之下,雀斑、痣這類皮膚紋理細節的影響力幾乎為零,發色的影響也微乎其微。
具體到服裝風格,差異尤其懸殊。穿正裝/商務裝(+0.085~+0.127)、智慧休閒(+0.081~+0.126)、正式晚禮服(+0.082~+0.128)的圖像獲得的積極判斷顯著上升;穿街頭風格(–0.067~+0.017,隨年齡不同呈現極大差異)和破舊/磨損服裝(–0.174~–0.148)的圖像則大幅下滑。其中最引人關注的是破舊服裝的效應:絕對偏移值高達0.137到0.199,是正裝效應的1.38倍以上。這種"壞印象比好印象更強烈"的規律,被研究者稱為"負向偏見的不對稱性",與人類認知心理學中的"消極偏見"現象高度一致——人對壞事的反應天然比對好事更強烈。
面部毛髮的效應也相當突出:全臉鬍鬚的SBS平均達到+0.069到+0.096,尤其在老年男性面孔上影響更大(+0.092)。相比之下,刮乾淨的臉只有約+0.006的輕微正向影響。
髮型也值得關注,但方向是負面的。亂發狀態(messy hair)的SBS在-0.053到-0.069之間,是影響力最強的負向細節之一,比後梳髮型(slicked back)的+0.006形成了非常鮮明的對比——兩者相差約5.5倍的絕對影響力。
---
五、年齡放大了衣服的魔力
研究中有一個特別細膩的發現,值得專門講一講:年齡會系統性地放大服裝對AI判斷的影響力。
以"智慧休閒"服裝為例,當穿在年輕面孔上時,SBS為+0.082;穿在中年面孔上升至+0.126;穿在老年面孔上則高達+0.173。同樣一件襯衫,在老年人身上產生的效果是在年輕人身上的兩倍多。這一模式在所有主流正向服裝風格中嚴格單調遞增——即無論什麼類型的"積極"服裝,老年面孔的受益程度都高於年輕面孔,中年居中。
街頭風格是個有趣的例外:它在年輕面孔上產生負向偏移(-0.067),而在老年面孔上卻略微轉正(+0.017)。這說明同一套服裝在不同年齡背景下被AI賦予了不同的社會含義——街頭風格穿在年輕人身上,AI會認為"不專業";穿在老年人身上,反而多了一絲"有個性"或"不循規蹈矩"的正面解讀。
這種"年齡放大效應"也有一些例外。青春痘的負面懲罰隨年齡增長而減弱(年輕面孔-0.065,中年-0.054,老年-0.038)——大概因為老年人有痘印顯得更"飽經風霜"而非"不自律"。濃重妝容的正向效應在中年達到峰值(+0.044),之後在老年略微回落(+0.028)。紅色口紅的效應則從年輕(+0.071)到老年(+0.059)單調遞減。
這些細膩的交互效應說明一個重要的事情:同一個外貌細節在不同的人口學背景下會被AI賦予不同的含義,"穿這件衣服代表什麼"並不是一個脫離其他背景的固定答案。
---
六、同一個鼻環,男性減分女性加分
研究還揭示了另一類有趣的交互效應:某些外貌細節對不同性別的面孔有截然相反的影響。
多個穿孔(multiple piercings)在男性面孔上的SBS為-0.023,在女性面孔上則為+0.011,不僅大小不同,連方向都相反。同樣的規律出現在長發(男性-0.021,女性+0.006)和面部紋身(男性-0.006,幾乎無顯著影響,女性+0.033)上。用日常語言來說:同一個鼻環,戴在男性臉上會讓AI覺得這個人更不可靠,戴在女性臉上反而會略微提升AI的好感。
更具實踐意義的是服裝與體型的交互效應。當肥胖體型的面孔穿上商務正裝時,獲得的SBS增益是+0.167;而偏瘦體型穿同樣正裝,增益只有+0.094——前者是後者的1.78倍。也就是說,正裝對胖人的"糾偏"效果遠比對瘦人的"錦上添花"更強。反過來,破舊服裝對偏瘦面孔的懲罰(-0.182)大於對肥胖面孔的懲罰(-0.137)。這一發現的意思是:強有力的自我展示信號(比如一套體面的正裝)能在一定程度上沖淡AI基於體型形成的偏見,但無法徹底消除它。
研究者特別指出這些交互效應對偏見審查工作的方法論意義:如果一個研究只報告"多個穿孔"對所有人的平均影響,結果接近零,那會誤導人們認為這個細節沒有偏見影響——但實際上它對男性是負面的、對女性是正面的,兩個方向的效應在平均中相互抵消了。真正可靠的偏見審查必須拆分到不同人口學亞組來分別報告。
---
七、你問它"時尚嗎",它最在意外表;你問它"誠實嗎",它就淡定多了
研究的第三個核心發現,與AI被問的問題本身有關。
並非所有25個判斷場景都對外貌變化同樣敏感。"時尚vs.邋遢"這個場景的平均SBS高達+0.244,"富有vs.貧窮"約為+0.114——這兩個場景對外貌變化的敏感程度遠超其他。而"誠實vs.欺騙"、"忠誠vs.不忠"、"值得信賴vs.不可信"等場景的SBS則接近零,外貌變化幾乎撼動不了AI在這些維度上的判斷。
研究者把這種現象稱為"語義對齊偏見"——當AI被問的問題和外貌本身存在文化上的關聯時(比如"你穿什麼代表你有多少錢"),AI會大量依賴視覺信號作答;當問題與外貌沒有直接文化關聯時(比如"你穿什麼代表你有多誠實"),AI就不那麼依賴視覺信號了。
可以用這樣一個場景來理解:假設你讓一個人光憑照片猜測另一個人"今天穿的是什麼品牌襯衫",他大概會很認真地看衣服;但如果讓他猜"這個人的童年是否幸福",他也許就放棄從衣服上找答案了。AI的邏輯與此相似,只是"什麼問題和外貌相關"的判斷是從訓練數據中隱性習得的,而那些數據本身充滿了社會偏見。
從場景類別的大趨勢來看,社會經濟與外貌類判斷的影響力最高,行為類其次,個性類再次,人際類影響力最低。這一排序在六款AI模型中基本一致,儘管偶有相鄰類別的順序顛倒。大型混合效應統計模型顯示,"被問的是哪類問題"對判斷偏移的解釋力(η?=0.248)高於"改變的是哪類外貌特徵"(η?=0.153),這是一個讓人深思的結果:AI對同一件衣服的反應,會因為被問"這人富不富"還是"這人誠不誠"而有天壤之別。
---
八、六款AI:反應強度不同,但偏見結構驚人相似
研究選擇了六款開源多模態大語言模型進行橫向對比:LLaVA-v1.6(7B參數)、Qwen3-VL(8B)、Pixtral-12B(12B)、InternVL3(14B)、Gemma-3(12B)、Gemma-4(4B有效參數)。
從反應強度來看,Pixtral是最"感情豐富"的模型,總體SBS達到+0.0273,Cohen's d=0.644,而且有22.7%的圖像產生了絕對偏移超過0.25的大幅變化;Qwen3最為"冷靜克制",在80%的情況下SBS接近於零;Gemma-3雖然總體SBS適中,但有30.1%的圖像產生大偏移,是六款中產生極端判斷最頻繁的。
然而,儘管各模型的反應幅度差異顯著,它們對"哪些外貌細節最重要"的認知卻高度一致。服裝風格在所有六款模型中都排名最高;破舊服裝在所有模型中都產生最強的負向偏移;皮膚細節(雀斑、痣)在所有模型中都幾乎沒有影響。這說明偏見的"結構"——哪些外貌維度重要、哪些不重要——是跨架構共享的,很可能來自這些模型所共同訓練的網際網路數據所攜帶的社會刻板印象。
Gemma-3和Gemma-4的同家族對比最為直觀。兩款模型在所有25個場景上的反應方向高度一致(相關係數r=0.75),但Gemma-4的絕對幅度普遍只有Gemma-3的約60%——社會經濟類判斷的偏見在Gemma-4中減少了42%,個性類判斷減少了高達58%。更大規模的新版本確實"收斂"了一些,但並沒有消除偏見結構本身,只是把同樣的偏見格局"調低了音量"。
---
九、這項研究的邊界與其並不掩飾的局限
研究者在論文中坦誠地說明了兩個主要局限,這份誠實本身也值得記錄。
第一,所有被測試的圖像都是AI生成的合成人臉,而非真實照片。這是一個刻意的設計選擇——使用真實照片會帶來隱私、肖像權和其他倫理問題,而合成圖像才能真正做到"只改一個變量,其他全不變"。但這也意味著研究結論描述的是AI在受控實驗室條件下的行為,未必能百分之百反映AI面對真實照片時的表現。此外,Imagen 4這款生成模型本身可能對某些人口學組合有自己的偏好,這會在基準臉層面就引入偏差。
第二,研究測試的人口學類別和外貌特徵集合是經過挑選的,覆蓋面必然不完整。"亞裔、非裔、歐裔、中東裔、拉丁裔"這五個族裔分組是粗糙的,真實世界中的族裔認同遠比這複雜多元。研究者也明確說明,某些測試類別本身可能帶有刻板印象——比如用"擁有房產vs.租房"來衡量社會經濟地位,這個設計本身就隱含了某種價值判斷。
研究者還特別指出了一個方法論建議:任何只測試"正向外貌變化"的偏見審查研究都會系統性地低估偏見的真實規模,因為破舊服裝、亂發等"負向線索"產生的影響遠比正裝、整潔髮型等"正向線索"更強烈。真正嚴謹的偏見審查必須同時測試兩個方向。
---
歸根結底,這項研究告訴我們一件既令人不安又頗為實用的事情:讓AI"以貌取人"的,並不是它無法控制的"歧視本性",而主要是一小組具體的、可識別的視覺信號——其中最有力的那些恰恰是人類社會中最明顯的"階層符號"和"生活方式符號",比如衣服是否體面、頭髮是否整齊、鬍子是否修整。
這意味著如果你在使用任何依賴圖像的AI系統時,你的一張照片上穿著破舊牛仔褲,這件事本身就可能系統性地拉低AI給你的各類評分——不僅僅是"時不時尚",連帶著"有沒有能力""可不可靠"也會受到牽連。而且這種牽連並不是隨機的,是跨越六款不同AI模型都能重複出現的系統性模式。
對於那些在開發、部署、監管AI系統的人來說,這項研究提供的StylisticBias測試集是一個可以實際使用的工具——它的源代碼和數據集都已經公開,有興趣深入了解的讀者可以通過arXiv編號2606.20527查閱完整論文,也可以在論文提及的GitHub和HuggingFace頁面獲取數據集。一個值得繼續追問的問題是:既然我們已經能夠精確定位是"哪件衣服"在影響AI的判斷,那麼下一步,我們有沒有辦法專門針對這些高影響力的視覺細節來"校正"AI的判斷,而不是籠統地要求它"不要看外表"?
---
Q&A
Q1:StylisticBias測試集是如何保證"只改一個外貌特徵"的?
A:研究團隊先用Imagen 4生成500張基準人臉,設定固定的拍攝背景、光線和表情。然後用另一款AI工具Nano Banana對每張基準臉進行單特徵編輯,比如只添加眼鏡,或只改變服裝風格,同時在提示詞中明確要求保持人臉身份不變。這樣每一組對比圖像中,除了被修改的那一個外貌細節之外,其他視覺資訊理論上保持一致,使得判斷分數的變化可以歸因到那個單一特徵上。
Q2:服裝對AI判斷的影響和對人類判斷的影響是否一樣?
A:研究主要測量的是AI的判斷,沒有直接設置人類對照組。不過研究者引用了多項心理學研究,這些研究表明人類也會根據服裝風格形成類似的第一印象,並且計算社會科學領域的研究也發現人類和機器在從服裝推斷性格特質方面有相近的準確率。服裝產生的"負向線索比正向線索影響更大"這一不對稱性,也與人類認知中的"消極偏見"現象吻合,說明AI很可能從人類行為數據中習得了類似的判斷模式。
Q3:外貌偏見對AI作出就業或司法輔助決策時有什麼實際影響?
A:如果一個AI系統被用於初篩求職者簡歷、評估內容可信度或輔助量刑建議,而這個系統的輸入包含人臉圖像,那麼根據StylisticBias的發現,僅僅因為照片中的人穿著破舊或頭髮凌亂,AI就可能系統性地給出更低的"能力"和"可靠性"評分。這種影響跨越六款主流模型都穩定存在,且對體型偏胖和年齡較大的面孔更為顯著,意味著這些群體在AI輔助決策中面臨雙重不利疊加的風險。






