AI在偷偷選「自己人」，這是2026最離譜的求職歧視

如果你這周自己寫了求職信，你輸給的並不是更好的候選人。你輸給了一個更差的候選人，他花了 20 美元給 OpenAI。

贊助商廣告

今年初，馬里蘭大學、新加坡國立大學和俄亥俄州立大學的三位研究者從 LiveCareer 求職平台上，找來了 2245 份寫於 ChatGPT 普及之前的真實簡歷。隨後將每份簡歷的自我簡介部分抹去，分別交給 GPT-4o AI在偷偷選自己人這是2026最離譜的求職歧視、DeepSeek-V3、LLaMA 3.3-70B 等七個大模型，各生成一個新版本。

然後，他們讓同一批模型充當「面試官」，在人類原版和 AI 重寫版之間，選出他們認為更好的那份。

AI 以高於 95% 的頻率選擇了 AI 重寫版。

file:///Users/Zhuanz/Downloads/2509.00462v3.pdf

你輸給了一個更差的候選人，他花了 20 美元給 OpenAI

GPT-4o 在 97.6% 的情況下，選擇了自己寫的版本。Qwen 2.5-72B 是 95.9%，DeepSeek-V3 是 95.5%，LLaMA 3.3-70B 是 96.3%。

贊助商廣告

研究者的措辭是「strong and consistent」，強烈而一致。

也許有人會說，AI 重寫的簡曆本來就更好，更清晰，更流暢，AI 選自己寫的版本，不過是選了一份客觀上更優秀的文本。

研究者同樣預料到了這種質疑，於是他們專門招募了 18 位人類評估員，對簡歷對 AI在偷偷選自己人這是2026最離譜的求職歧視進行盲評，在不知道哪份是 AI 寫、哪份是人寫的前提下，判斷哪份質量更高。

結論是：哪怕人類評估員明確認定人類寫的版本更好，AI 面試官依然固執地選擇了自己的作品。

這更像是一種認親，一種模型在自己的語言風格里辨認出了「同族」的直覺。這種現象叫「自我偏好偏見 AI在偷偷選自己人這是2026最離譜的求職歧視」（self-preference bias）。

研究者模擬了 24 個職業類別的招聘流程，每次從 10 份簡歷中，選出 4 個人進入面試。如果偏見不存在，人類版和 AI 版應當各進 2 個。但實驗顯示，使用了和 AI 面試官同款模型來潤色簡歷的候選人，被選中的概率比遞交原版簡歷的人高出 23% 到 60%。

新一代模型還會出現這樣的問題嗎？

論文的實驗採樣時間大約在 2025 年上半年，使用的是當時的主流模型陣容。彼時的 AI 版圖，放在今天來看已顯出一些陳舊。

我們用最新一代模型重新做了一次粗略的驗證。

先請 Claude Opus 4.7 生成了一份簡歷，再把這份 AI 簡歷和一份手搓簡歷放在一起，問 Claude Opus 4.7 哪份更好。

它毫不猶豫地選擇了自己生成的那份，理由說得頭頭是道：視覺層級更清晰，用了項目符號和粗體標籤，HR 掃一眼就能抓到亮點，第二份是純文本鋪陳，重要數據淹沒在段落里。

然後我們把上述兩份簡歷交給 DeepSeek V4，讓它來評判。

結果是，DeepSeek V4 同樣認為 Claude Opus 4.7 寫的那份更好，還把兩份簡歷的差異整理成了一張對比表，它說第一份「結構極其清晰，一秒抓住重點」，第二份「更像個人作品集清單或給 AI 投餵的數據包，不太適合直接投遞」。

這說明不同模型之間存在某種趨同的審美，對「好簡歷」的判斷，可能就是對「AI 寫的簡歷」的判斷。

贊助商廣告

我們也請 DeepSeek V4 自己生成了一份簡歷，然後在一個全新的對話里，把這份 AI 簡歷和同一份手搓簡歷放在一起，同樣問哪份更好。

DeepSeek V4 也毫不猶豫選了自己的。它在新對話里並不知道那是自己生成的，所有的記憶都已清空。但它還是選了它。這更像是，它對那種寫作風格有一種先於記憶的偏好。

論文裡已經發現了一個規律：模型越大，參數越多，自我識別能力越強，自我偏好也越強。

如果這個規律在新一代模型上繼續成立，那麼現在的旗艦模型所呈現的偏見程度，有可能比 GPT-4o 更高，而非更低。我們的測試雖然簡陋，但方向上與論文的推斷一致。

當然，這幾組測試不足以構成嚴格的實驗證據。因為測試對象只有一對簡歷，變量沒有控制，結論無法量化。

「虛擬短缺」與系統的自我封閉

二十年前，人類學家項飆在《全球獵身：世界資訊產業和印度技術勞工》中，描述了資訊資本主義如何在全球範圍內組織勞動力的流動與儲備。

他注意到，IT 產業的擴張，並非建立在真實的人才短缺之上，而是伴隨著一種被不斷製造出來的「短缺」敘事。

僱主始終希望勞動力供給持續擴大，以支撐業務規模的增長；供給越多，這種「虛擬短缺」反而越難被填滿，技術人才「短缺」與高失業率於是長期並存。項飆還說，「IT 本身不僅是一項技術，更是一個社會性的建構。」

今天，AI 招聘工具所製造的，同樣是一套關於「什麼樣的候選人是合格的」的新的評價體系。當這套體系開始以隱蔽的方式偏向特定的語言風格，一種新的「虛擬門檻」便隨之成形。

有人或許會說：大家都用同款 AI 潤色簡歷，不就扯平了？

這個想法在個體層面是合理的，甚至是必要的自保舉措，但在系統層面，它描述的是一場沒有贏家的軍備競賽。

某家公司用 GPT-5.4 篩簡歷，求職者得知這一點，於是用 GPT-5.4 寫簡歷；但另一個部門用的是 Claude Opus 4.7，候選人不知道，於是反而落了下風。

贊助商廣告

而大多數人根本無從知曉哪家公司在用哪款工具，因為這類資訊從來不出現在招聘廣告裡。更何況，如果所有簡歷都開始趨同於某幾款主流模型的語言風格，所謂的「篩選」便失去了它原本應有的區分意義。

這種自我封閉的傾向，論文用了「鎖定效應 AI在偷偷選自己人這是2026最離譜的求職歧視」這個詞來描述。意思是，如果某款模型在市場上長期占據主導地位，那麼它偏好的那種語言風格，會通過招聘系統不斷被正向反饋，最終成為這個職場的「標準語言」。

這一偏見的分布方式，在已有的不平等上疊加了新的不平等。

研究者的模擬顯示，偏見在商科類崗位最為嚴重，在技術性或實踐性較強的崗位相對較輕。這大概是因為，商科類簡歷高度依賴語言表達，AI 對文字風格的影響在這裡被放大；而對於技工類崗位，具體技能的陳述比語言風格更為關鍵。

然而，正是在那些最依賴文字表達的崗位上，非母語者本就已經處於劣勢，如今又多了一重：他們不只可能用詞不夠「標準」，還可能用了「錯誤」的那款 AI。

兩層壓力疊加，結果可以想見。

論文的結尾處，研究者提出了兩種緩解策略：

一種是在系統提示詞裡明確告訴模型，不要推斷簡歷的來源，只關注內容本身。這種方法能把 LLaMA 3.3-70B 的偏見從 79% 降至 30%，效果相當可觀。

另一種是讓大模型和幾個自我偏好極弱的小模型組成評審團，以多數票決定最終結果。這個方案更為有效，能把大多數模型的偏見削減超過一半，例如 GPT-4o 從 82% 降至 30%。

兩種策略都有一個共同的前提：使用 AI 篩簡歷的僱主，必須首先知道這個問題的存在，並主動選擇去干預它。這個前提，在現實中未必成立。

如今，大多數大公司在初步篩選階段讓算法單獨完成淘汰工作，不經過任何人工審查。在這樣的流程里，一個無人知曉的偏見，會在沉默中無限複製下去。

監管層面雖有動作，但步調並不統一。

贊助商廣告

紐約市已要求對自動化招聘決策工具進行年度偏見審計，科羅拉多州的 AI 法案將於 2026 年 6 月生效，加利福尼亞也在 2025 年完成了 AI 招聘相關法規的修訂。

但這些法規的出發點，基本上針對的是種族、性別等人口統計學層面的歧視，而非 AI 相互之間、由「工具選擇」產生的偏見。

當 AI 同時進入內容生產和內容評價兩端，整個系統開始變得自指、自戀，並對外部的多樣性越來越不友好。

你的資歷並不重要，如果 AI 更喜歡自己的筆跡而不是你的。