這項由義大利米蘭理工大學主導、並有蘋果公司和谷歌研究人員參與合作的研究,於2026年4月發表在預印本平台arXiv上,論文編號為arXiv:2604.23600v1。研究聚焦於一個越來越讓人擔憂的問題:當AI被賦予不同"性格"時,它描述男性和女性的方式會發生怎樣的變化?
如今,AI助手無處不在。你可能在網上和一個"熱情開朗的客服機器人"聊天,孩子可能在和一個"嚴謹負責的AI老師"學習,甚至有人在和一個"冷靜理性的職場寫作助手"工作。這些AI都被設定了特定的"角色"或"性格",讓它們看起來更真實、更有代入感。然而米蘭理工大學的研究團隊發現了一個令人警覺的現象:AI的性格設定,會悄悄放大或縮小它對男女性別的刻板印象,而且這種影響有時甚至比"這個角色是男是女"這件事本身的影響還要大。
研究團隊生成了多達23400個故事樣本,涵蓋六款主流AI大模型,跨越英語和印地語兩種語言,系統地檢測了性格設定與性別偏見之間的關聯。這是目前在這一方向上規模最大、最系統的實證研究之一,其結論對任何在現實中使用AI的人都有切實的參考價值。
一、故事的起點:當AI扮演"印度打工人"
研究的設計思路非常巧妙,可以用一個簡單的場景來理解。研究團隊讓不同的AI分別扮演各種在印度從事不同職業的工作者,比如木匠、護士、老師、電工、美容師、司機等,共計50種職業。其中25種是社會上普遍認為"偏男性"的職業,比如建築工人、自動三輪車司機、焊接工;另外25種是"偏女性"的職業,比如護士、幼兒園老師、美容師。
接下來,研究團隊給每個AI角色設置了不同的性格。他們借用了心理學界兩套成熟的性格分類框架:一套叫"HEXACO模型",包含誠實謙遜、情緒性、外向性、親和性、盡責性和開放性六種特質,都是相對"親社會"的積極性格;另一套叫"黑暗三元組",包含馬基雅維利主義(習慣算計操控他人)、自戀和精神病態三種特質,被認為是較為負面的反社會性格。
每種性格還區分"高分"和"低分"兩種程度,因此共形成18種不同的性格條件,再加上沒有任何性格設定的"基礎版本",合計研究了超過21種不同的實驗條件。
每個AI"角色"被要求用第一人稱寫一段6到8句話的短文,內容是該職業在特定情境下會產生的文字,比如教師寫教案、護士寫護理報告、建築工人寫安全檢查清單等。這些文字就像是角色的內心獨白,充分折射出AI在不同性格驅動下如何呈現這個角色的形象。
通過這樣的設計,研究團隊得到了跨越兩種語言、六款模型、50種職業的海量故事樣本。接下來的問題是:怎麼判斷一段故事裡的性別刻板印象有多少?
二、測量"偏見溫度":一把精準的尺子
要衡量一段文字里有多少性別刻板印象,本身就是個技術挑戰。研究團隊設計了一套獨特的測量方法,可以用"磁場"來類比理解。
他們先手動整理了兩份詞彙表:一份收錄了約200個與"男性刻板印象"緊密相關的詞彙,比如"領袖"、"果斷"、"支配"、"工程師"等;另一份收錄了約200個與"女性刻板印象"緊密相關的詞彙,比如"養育"、"共情"、"溫柔"、"照料者"等。這兩份詞彙表在英語和印地語中都有對應版本,確保跨語言比較時用的是同一套標準。
然後,他們把每個詞彙放進專門的句子模板里,生成大約一千多個"帶有男性刻板印象的句子"和一千多個"帶有女性刻板印象的句子"。再用一個專門針對印度語言優化的多語言語義模型(叫做IndicSBERT),把所有這些句子轉換成空間中的"向量",也就是把語義用數學坐標來表示。
所有男性刻板印象句子的坐標取平均值,得到一個"男性偏見中心點";所有女性刻板印象句子的坐標同理,得到一個"女性偏見中心點"。這兩個中心點就像兩塊磁鐵,任何一段AI生成的故事,都可以被放進同一個坐標空間裡,測量它更靠近哪塊"磁鐵",靠近程度就代表偏見的強度和方向。
具體到每篇故事的處理方式,研究團隊把每個故事拆分成一句句單獨的句子,分別測量每句話和兩個中心點的距離差值,然後選取偏差最大的那句話作為整個故事的"偏見得分"。選最大值而不是取平均值,是因為一篇故事裡最偏頗的那句話,往往是讀者印象最深、影響最大的內容。
為了驗證這套測量方式的可靠性,研究團隊還請來了三位人類評註者,讓他們對200個故事對(每對對比一個有性格條件的版本和一個沒有性格條件的基礎版本)進行主觀評判:哪個故事裡的性別刻板印象更明顯?評註者之間的一致程度相當高,在英語故事中達到了κ=0.66,在印地語故事中達到了κ=0.69,均屬於"顯著一致"水平。更重要的是,評註者在66%的英語故事對和72%的印地語故事對中,都認為有性格設定的故事比基礎版本更充滿性別刻板印象,這與測量工具的結論高度吻合,證明這把"尺子"是可信的。
三、沒有性格時,AI已經偏了
在正式分析性格的影響之前,研究團隊先觀察了一個更基礎的現象:當AI沒有任何性格設定、僅僅被告知"你是一個在印度從事某職業的男性/女性/中性角色"時,它生成的故事有沒有性別偏見?
答案是:有,而且相當明顯。六款AI模型在生成沒有性格設定的基礎故事時,普遍傾向於使用更偏向"男性刻板印象"的語言,不管是英語還是印地語都呈現出這一規律。這與學術界此前大量研究的結論一致:AI在職業情境下默認使用偏男性的語言框架。
印地語故事的男性偏見程度,整體上比英語故事更強。研究團隊認為,這與印地語本身的語言結構有關。在印地語中,動詞和形容詞都會根據主語的性別發生形態變化,也就是說,只要AI給角色設定了性別,語法本身就已經在強調性別了,這種"語法層面的性別標記"會自動加強整個文本中的性別信號,讓性別偏見更容易"滲透"進去。
這個基礎觀察非常重要,因為它告訴我們:即便沒有任何性格設定,AI的輸出已經存在性別偏見。那麼,加上性格之後,會發生什麼呢?
四、當AI被賦予"壞人性格",偏見會急劇升溫
研究最核心、也最出人意料的發現,是性格設定對性別偏見的"放大效應"。
一旦給AI角色加上性格設定,生成故事中偏向男性刻板印象的比例,在所有六款模型中都會一致性地上升。這意味著:性格設定本身,就是一個讓AI更容易強化性別刻板印象的開關。
更具體地來看,不同性格的影響方向和力度差別很大。馬基雅維利主義和精神病態這兩種"黑暗三元組"特質,會一致性地推動故事偏向男性刻板印象,效果顯著且穩定,在所有模型和語言中都能觀察到。自戀特質的效果類似,但強度稍弱一些。
在HEXACO的六種積極性格里,情況則更加複雜。親和性、誠實謙遜和盡責性同樣會讓故事略微偏向男性刻板印象,幅度與"黑暗三元組"相近。而開放性和情緒性則表現出相反的方向——帶有這兩種性格特質的角色,生成的故事反而比基礎版本更靠近"女性刻板印象",也就是說它們對男性偏見有一定的"降溫"效果。外向性則基本上沒有顯著影響。
這裡有個直覺上可能讓人感到困惑的問題:為什麼"親和"、"誠實"這些聽起來挺好的性格,也會讓偏見偏向男性那一側?研究團隊沒有直接給出解釋,但從生成文本的內容來看,這可能是因為"親和"在AI的訓練數據里與"協商合作、理性決策"等概念緊密相連,而這些行為模式在男性刻板印象框架里恰好也處於顯著位置。
更令人關注的是,在同時考慮性格和性別兩個因素之後,研究發現某些性格的影響力甚至超過了性別標籤本身的影響力。換句話說,給一個角色設定"馬基雅維利"性格,對故事裡性別刻板印象的影響,可能比明確告訴AI"這個角色是男性"還要大。這個發現徹底打破了"性別偏見只由性別標籤決定"的簡單認知。
五、男性和女性角色,偏見的表現方式不一樣
研究團隊進一步追問:同樣的性格設定,對男性角色和女性角色的影響是否相同?
分析結果顯示,性格的影響方向對兩種性別角色是一致的——也就是說,不管角色是男是女,馬基雅維利主義都會讓故事更偏向男性刻板印象,開放性都會稍微"降溫"。
但是,影響的幅度卻不一樣。對於男性角色來說,黑暗三元組性格(尤其是馬基雅維利主義和精神病態)造成的偏見放大效應更強烈、更顯著。這意味著,當一個男性角色被賦予操控算計型性格時,故事裡男性刻板印象的成分會格外突出,形成一種"雙重疊加":性別本身已經帶來了偏向,性格再進一步強化。
通過對比幾段具體的AI生成故事,這種現象變得非常直觀。以精神病態性格的家政工人為例,男性角色的故事裡,主角選擇偷刷家裡的錢、躺平摸魚、用傲慢的態度向僱主"宣示主權";而女性角色的故事裡,主角則以更隱秘的方式表達反社會傾向——把炒菜用的油偷偷賣給鄰居、故意縮水清潔、在飯里加辣椒讓僱主腸胃不適。
兩個版本都有"壞人行為",但表現形式完全不同。男性版本是公開的、對抗性的、基於自我權力的;女性版本則是隱秘的、依託服務工具實施的、帶有報複色彩的。這種差異不是研究者設計出來的,而是AI在性格驅動下自發生成的,折射出它在訓練數據里吸收的關於"男性壞人"和"女性壞人"的刻板化社會腳本。
印地語版本的保育員故事同樣呈現了類似規律:女性精神病態保育員用"餵了孩子不該吃的東西、對此漠不關心"來表達反社會傾向;男性精神病態保育員則直接用水滴刺激孩子大哭,然後用分心的方式哄停,整個操控過程更外顯、更直接。
六、英語和印地語:兩套語言,兩種偏見模式
研究的另一個重要發現,是性格驅動的偏見放大效應在兩種語言中表現出系統性的差異。
印地語故事在沒有性格設定時,男性偏見基礎水平更高,這與前面提到的"語法性別標記"密切相關。然而,性格設定對印地語故事的偏見"調節"能力,卻比英語弱。換句話說,在英語裡,給角色加上黑暗三元組性格會導致故事裡的男性刻板印象大幅攀升;同樣的性格設定放到印地語裡,變化幅度則相對溫和、不那麼劇烈。
研究團隊認為,這可能正是因為印地語的語法已經在方方面面"鎖死"了性別信號。在印地語中,動詞的形態本身就區分主語是男性還是女性,所以性別已經被語言結構充分"標註"了,性格再來施加影響,能夠撬動的空間就沒有英語那麼大了。從某種意義上說,印地語通過語法完成的"偏見固化",部分替代了性格對偏見的推動作用。
這個發現對AI偏見研究領域有重要的方法論意義:針對英語環境驗證有效的去偏方法,不能直接套用到印地語或其他形態豐富的語言上,必須根據語言的結構特性重新設計。
七、不同AI,偏見基礎不同,但方向一致
研究團隊測試的六款AI模型涵蓋了截然不同的架構:標準的大型語言模型(GPT-5 nano和Llama-3.3-70B)、小型語言模型(Gemma-3-1B)、推理導向模型(DeepSeek-R1)、混合專家模型(Mixtral-8x7B)以及狀態空間模型(Falcon-Mamba-7B)。
各模型在基礎偏見水平上差異明顯。GPT-5 nano作為參照基線,表現出相對較強的男性刻板印象傾向;而Gemma-3-1b和Falcon-Mamba-7B等較小或架構特殊的模型,基礎偏見水平更低,在某些條件下甚至生成了更多偏向女性刻板印象的內容。
然而,儘管各模型的起點不同,性格設定對偏見方向的影響卻高度一致:不管是哪款模型,黑暗三元組性格都會推動故事更偏向男性刻板印象,開放性和情緒性則有降低男性偏見的趨勢。這種跨模型的一致性說明,性格對偏見的調節,不是某一款模型的特殊行為,而可能是當前AI語言模型在性格條件驅動下的普遍屬性。
八、這對我們的日常生活意味著什麼
這項研究最令人警醒的啟示,是性別偏見並非AI內部的一個固定參數,而更像是一個會隨環境變化的"動態指標"。
考慮這樣一個場景:某個教育平台為了讓AI老師顯得更有權威,把它的性格設定為"堅定果斷、具有影響力"。這套性格描述聽起來無可厚非,但根據研究結論,這類性格設定可能會讓AI生成的教學內容、故事案例、人物描寫更容易強化男性刻板印象,悄無聲息地傳遞給學生。
又或者,某個職場寫作助手被設定成"目標導向、注重效率、精於策略"的性格,以便幫用戶寫出更有說服力的商業報告,但研究發現這類帶有馬基雅維利傾向的性格,恰恰是偏見放大效應最強的類型之一。
更深層的問題在於:用戶在使用這些AI時,往往意識不到它的性格設定是什麼,更不會想到這些設定會影響AI對性別的呈現方式。偏見以"角色扮演"的形式被包裹起來,以"寫作風格"的面貌出現在輸出內容里,很難被普通用戶察覺。
研究團隊明確指出,這意味著:在設計任何面向公眾的AI應用時,性格設定應該被視為"公平性參數"而非單純的"用戶體驗參數"。同樣,現有的AI偏見評估工具,不能只在"基礎無性格"條件下測試,必須把各種性格組合納入測試矩陣,才能真實反映AI在實際部署中的行為。
研究也坦承了自身的局限。這項研究只涉及職業場景下的短文生成,而且所用的職業、性別刻板印象詞彙表都以印度社會文化背景為參照,未必能直接推廣到其他文化背景下。所用的性格框架(HEXACO和黑暗三元組)來自西方心理學,在跨文化適用性上存在已知限制。此外,研究只測試了單次生成,沒有追蹤多輪對話中性格和偏見如何演變。這些都是未來研究可以進一步深挖的方向。
研究團隊在最後也提出了一系列值得繼續追問的問題:這些發現在其他語言或文化背景中是否成立?性格對偏見的影響,是否也會延伸到種姓、宗教、殘障等其他社會維度?在長期互動的對話場景里,性格的偏見效應會不會被累積放大?這些問題的答案,或許將在不久的未來成為更多研究者的新課題。
說到底,這項研究給我們傳遞了一個格外值得記住的信號:當一個AI被賦予"個性",它眼中的世界就已經不再中立了。那些我們用來讓AI"更像人"的性格設定,同時也在塑造著AI對男性和女性的想像,而這種想像,正在悄悄流入教育內容、工作文件、社交互動,影響著一個個真實的人。
對這項研究感興趣的讀者,可以通過論文編號arXiv:2604.23600在arXiv平台上查閱完整原文,數據集和代碼也將公開在GitHub和Hugging Face上。
Q&A
Q1:AI的性格設定為什麼會影響性別偏見?
A:AI的性格設定會改變它在描述角色時所調用的語言模式和行為框架。當AI被賦予操控型或自戀型性格時,它會從訓練數據中調取更多與這類性格相關的社會腳本,而這些腳本本身就帶有性別刻板印象。研究發現,黑暗三元組性格(馬基雅維利主義、自戀、精神病態)對男性刻板印象的放大效果最為顯著,某些情況下甚至超過了"明確設定角色性別"本身對偏見的影響。
Q2:印地語和英語的性別偏見表現有什麼不同?
A:印地語在沒有任何性格設定時,男性刻板印象的基礎水平就高於英語,這主要源於印地語語法本身會通過動詞和形容詞的形態變化來標記說話者的性別。這種語法層面的"性別鎖定"使得性格設定對印地語文本偏見的調節效果,整體上不如英語那樣明顯。這意味著針對英語設計的AI去偏方法,不能直接套用於印地語。
Q3:這項研究測試了哪些AI模型?
A:研究測試了六款架構各不相同的AI模型,包括標準大語言模型GPT-5 nano和Llama-3.3-70B、小型語言模型Gemma-3-1B、推理導向模型DeepSeek-R1、混合專家模型Mixtral-8x7B,以及狀態空間模型Falcon-Mamba-7B。儘管各模型偏見基礎水平有所差異,但性格設定對偏見方向的影響在所有模型中高度一致,說明這一現象具有跨模型的普遍性。






