MIT與斯坦福研究團隊：如何讓AI「假冒」特定用戶，騙過真人裁判？

這項由麻省理工學院（MIT）、斯坦福大學和MIT-IBM沃森人工智慧實驗室聯合開展的研究，以預印本形式發布於2026年6月，論文編號為arXiv:2606.19336，有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。

贊助商廣告

在AI助手大行其道的今天，我們幾乎默認這些系統應該扮演"幫手"的角色——回答問題、完成任務、服務人類。然而，研究團隊換了一個視角：如果把AI訓練成"用戶"本人，讓它模擬一個真實的人，效果會如何？這不是科幻小說里的人格複製，而是一個非常實際的工程問題——能不能造出一個程序，讓它生成的內容看上去就像是某個特定的人寫的？

這個問題比看起來要複雜得多。舉個例子，你有一位朋友張三，他平時發消息總是很簡短，喜歡用反問句，偶爾夾雜幾個錯別字，談到足球就停不下來。如果你讓一個AI"扮演張三"，它能不能在一場對話里，說出那種只有張三才會說的話？不是說得"像某個普通人"，而是說得"像張三"。這背後的挑戰在於，人與人之間的差異太微妙了——兩個背景完全相同的人，可能對同一件事持截然相反的看法，這種差異無法用人口統計標籤來歸納。

研究團隊提出了一個名為**Turing-RL**的訓練方法，核心思路來自70多年前的一個經典思想實驗。

一、圖靈測試：一場古老遊戲的現代版本

1950年，英國數學家圖靈提出了一個著名的問題：如果你和一台機器通過文字對話，能不能分辨出對方是人還是機器？如果連人類裁判都無法區分，就說明這台機器在某種意義上"通過"了這場測試。

這個叫做"圖靈測試"的概念，恰好提供了研究團隊想要的訓練信號。他們的想法是：與其讓AI努力"複製"某人的某句原話，不如讓AI努力生成"讓人分不清是AI寫的還是本人寫的"內容。換句話說，判斷標準不是"說得一不一樣"，而是"騙不騙得到人"。

這兩個目標聽起來相似，實際上差距極大。用一個具體的場景來理解這種差異：假設你要模擬張三回復一條微信，張三的原回復是"我覺得這家店還行"。如果你的目標是"複製原話"，那麼AI說"我覺得這家餐廳不錯"就算比較好的結果，因為語義相近。但如果你的目標是"騙過張三的朋友"，那AI可能需要注意張三習慣用"店"而不是"餐廳"，句子結尾不用句號，喜歡加個省略號，等等。前一種方式關注"說了什麼"，後一種方式關注"這個人會怎麼說"。

贊助商廣告

研究團隊把這種區別做成了一個可以用於AI訓練的機制。他們讓一個扮演"裁判"的AI，把待評估的AI生成的內容和真人寫的原文放在一起，判斷哪一個更像真人寫的。裁判打一個1到7分的評分，1分表示"明顯是原文更像真人"，7分表示"明顯是AI生成的更像真人"，4分表示"完全分不清"。這個評分就是所謂的"圖靈獎勵"，用來引導AI向"騙過裁判"的方向進化。

二、給AI一本"用戶檔案"：用歷史記錄和人格畫像代替猜測

光有評分標準還不夠，還需要告訴AI它究竟要模擬誰。研究團隊設計了一套"用戶表示"體系，用兩種資訊來代表一個人。

第一種是這個人的歷史行為記錄，也就是他以前說過的話、參與過的對話、發過的帖子。這些原始記錄就像是一個人過去留下的"腳印"，保留了他最真實的說話習慣。第二種是從這些歷史記錄中提煉出來的"人格畫像"，由另一個AI來完成這個提煉工作。這個畫像包含五個維度：這個人重視什麼價值觀、有什麼口頭習慣、說話風格如何、通常回復多長、有什麼背景資訊。

為了讓這個人格畫像保持真實，研究團隊給提煉畫像的AI設定了嚴格的規則：必須用第一人稱寫，不能寫成分析報告的口吻，不能推斷人口統計特徵，不能憑空捏造，不能引用原文原話，只能歸納穩定的、可跨場景復現的特徵。舉個例子，如果一個用戶總是發很短的回覆、喜歡用反問句，畫像應該寫"我回復通常只有一兩句話，喜歡用問句回應別人"，而不是"該用戶文字簡潔，傾向於蘇格拉底式反問法"。前者是用戶的聲音，後者是學術分析。

值得一提的是，研究團隊在實驗中專門比較了三種不同的用戶表示方式——只有歷史記錄、只有人格畫像、兩者兼備。結果顯示，在"是否像真人"這個指標上，三種方式的差異其實不大。但在"內容是否和原文接近"這個指標上，有歷史記錄的方式表現更好。這說明人格畫像捕捉到的主要是風格特徵，而具體內容的線索更多藏在原始歷史記錄里。

贊助商廣告

三、訓練流程：從臨時演員到專業特型演員

整個訓練過程分兩個階段，可以用"先學劇本再上台即興"來理解。

第一階段是"有劇本的練習"。研究團隊首先收集了大量的真實對話數據，讓基礎AI模型先做一輪有監督的學習——給它看真人的對話和回復，讓它學會怎麼用"推理+回復"的格式生成內容。具體來說，訓練格式是：先寫一段藏在標籤里的推理過程，解釋這個用戶為什麼會這麼回答、他的意圖是什麼、風格是什麼，然後再寫出最終回復。這一步的目的是讓AI先建立基本的"角色扮演"能力，就像演員先背台詞熟悉角色再上台。

第二階段才是真正有意思的部分——"即興發揮，接受圖靈測試"。從第一階段訓練好的模型出發，研究團隊用圖靈獎勵進行強化學習訓練。每次訓練時，AI為同一個問題生成四個候選回復，裁判AI對每個回復和真人原文進行比較評分，然後根據分數的高低來決定哪些回復被強化、哪些被弱化。這種訓練方式叫做GRPO（組內相對策略優化），可以理解為"同組競爭淘汰制"——四個候選回復里誰表現最好，誰就被更多地學習。

在獎勵設計上，研究團隊加入了一個防作弊機制。圖靈獎勵最高只計到5分，超過5分的部分被截斷。這是因為如果AI生成的內容被裁判評為"明顯比真人更像真人"，這本身就是一種異常——真正在模擬一個人的AI，不應該比這個人本人"更像"這個人，這種情況很可能意味著AI在鑽評分標準的空子，而不是真正學會了模擬用戶。

此外，訓練還加入了一個"長度控制"機制，懲罰生成內容和原文長度相差太大的情況。這是因為長度本身就是一種風格特徵——一個習慣發短消息的人，突然被AI模擬成髮長篇大論，再內容準確也不像真人。

四、兩個測試場地：聊天對話與Reddit論壇

研究團隊在兩個完全不同的場景下測試了這套方法，分別是多輪人機對話和Reddit社區討論。

贊助商廣告

第一個場景使用的是PRISM對齊數據集，這個數據集包含了來自75個國家的約1500名用戶與AI助手之間的多輪對話。研究團隊挑選出至少有6段對話歷史的用戶，保留128人作為測試集，其餘用於訓練。每個用戶的部分歷史對話作為"背景檔案"，剩餘的對話用於測試——AI要根據檔案里展示的用戶特徵，猜測這個人在新對話場景下會說什麼。

第二個場景使用的是ConvoKit的Reddit語料庫，涵蓋了14個不同的子版塊。與對話場景不同，Reddit的評論風格更加碎片化、個人化，而且更能體現一個人的情緒狀態和立場偏好。研究團隊用其中12個子版塊的數據訓練模型，保留r/tifu（"今天我把事情搞砸了"）和r/worldnews（世界新聞）兩個版塊作為測試，並且確保測試用戶和訓練用戶完全不重疊，以測試模型對陌生用戶的泛化能力。

這兩個場景的選擇頗具匠心——對話場景相對結構化，有明確的問答節奏；Reddit評論則更自由散漫，更接近人們日常的表達狀態。能在兩個場景下都表現良好，才能說明方法真的有效。

五、評判標準：三把尺子量"像不像真人"

研究團隊用三種不同的方式來衡量模型表現，每種方式聚焦於不同的維度。

第一把尺子是"圖靈區分度"，這也是最核心的評估指標。評判AI（使用的是Claude Sonnet 4.6，一個比訓練時用的AI更強大的模型）看到一個用戶的歷史記錄和兩個回復——一個真人原文，一個AI生成——然後打1到7分，判斷哪個更像真人寫的。評估時特意把兩個回復的順序隨機打亂，並且正序反序各評一次取平均，以消除"第一個選項更容易被選中"這類偏見。分數越高，說明AI生成的內容越難被識別為AI寫的。

第二把尺子是"內容相似度"，衡量AI生成的回覆和真人原文在語義上有多接近。裁判AI從真人原文中提取1到3個關鍵點，然後檢查AI生成的回覆覆蓋了多少、有沒有引入無關內容、有沒有用錯視角。這個指標主要測試的是"AI有沒有說出和真人相同的事情"，而不是"AI有沒有用真人的方式來說"。

贊助商廣告

第三把尺子是"情境特異性"，這是一個容易被忽視但非常重要的維度。它評估AI的回覆是否真的紮根於當前的對話情境和特定用戶，而不是一個放在任何地方都成立的"通用回復"。很多AI系統的通病就是傾向於生成過於圓滑的"萬金油回復"，這種回復放到哪個用戶身上都說得過去，卻恰恰因此缺乏個人特色。這個指標專門懲罰這種傾向。

六、真人來當裁判：當AI的得分被人類覆核

光有AI評分還不夠，研究團隊還專門招募了超過三百名來自Prolific平台的人類參與者，做了一場人工圖靈測試。

測試方式很簡單：給參與者看一個目標用戶的歷史記錄，然後呈現兩個回復，問"哪個更像這個用戶寫的？"兩個回復一個來自真人原文，一個來自AI，順序隨機。參與者還要回答幾個理解問題，以證明他們真的讀了歷史記錄而不是隨機點擊。最終，每個測試樣本由6名獨立參與者評分，取多數票。

研究團隊計算的指標叫"模型勝率"——也就是AI生成的回覆被人類判斷為"更像真人"的比例。如果勝率超過50%，意味著AI騙過了人類裁判的次數超過了沒騙過的次數。

這場人工測試帶來了幾個有趣的發現。在聊天場景下，Turing-RL的勝率達到57%，也就是說有超過一半的時間，人類裁判會認為AI的回覆比真人原文更像真人寫的。這個結果相當驚人，因為競爭對手——只經過有監督學習的模型（SFT-Init）和使用內容相似度獎勵訓練的模型（Sim-RL）——的勝率都徘徊在50%左右，也就是和隨機猜測差不多。在Reddit場景下，各模型的勝率差距相對較小，但Turing-RL和Sim-RL都顯著優於未經強化學習的基礎模型。

研究團隊還特別分析了一個問題：AI裁判和人類裁判，哪個更靠譜？他們把AI裁判的評分轉化成二元判斷（低於4分=真人，高於4分=AI生成），和人類多數票結果比較。結果顯示，在大多數情況下，AI裁判的準確率和人類裁判相當甚至更高。這個發現支持了用AI裁判替代人工評估的做法，畢竟大規模的人工評估成本極高。

贊助商廣告

七、和競爭對手比拼：三種訓練信號的較量

研究團隊將Turing-RL和兩種現有方法進行了系統比較，三種方法都從同一個有監督學習的基礎模型出發，使用同樣的用戶檔案，只是訓練信號不同。

第一種競爭方法叫Sim-RL，來源於HumanLM這項研究。它的訓練信號是"內容相似度"——AI生成的回覆和真人原文在語義上越接近，獎勵越高。這種方法的邏輯是：如果你能說出和真人一樣的話，你就成功模擬了這個人。

第二種競爭方法叫Logprob-RL，來源於Gandhi等人的研究。它的訓練信號更特別：不是讓外部裁判評分，而是直接用"模型給真人原文的概率評分"作為獎勵。模型覺得真人原文越可能出現，獎勵越高。這個方法的理論基礎是最大似然估計，相當於"讓模型認為真人原文是最合理的輸出"。

實驗結果在聊天場景中尤為明顯。Turing-RL在圖靈區分度上大幅領先其他方法，並且這個優勢經過了比訓練時更強大的AI裁判和真人裁判的雙重驗證。在內容相似度上，Turing-RL和Sim-RL表現相當，都優於只做有監督學習的基礎模型——這說明追求"騙過裁判"的目標並沒有損失"說對內容"的能力，反而兩者兼顧了。Logprob-RL的表現在兩個場景下都相對靠後，這說明僅憑提高真人原文的概率，並不等於真的學會了模擬用戶。

八、大型AI反而不如小型訓練過的AI：一個出人意料的發現

研究團隊還把GPT-5和Qwen3.5-397B這兩個遠比實驗用的基礎模型（Qwen3-8B）更大、更強大的AI拿來做參照，結果令人意外。

這兩個超大型AI在圖靈區分度上並沒有比Qwen3-8B基礎模型好多少，有時甚至更差。研究團隊通過分析發現了原因：這些大型AI傾向於生成措辭精緻、結構清晰、語氣周全的回覆，而這恰恰是"AI助手風格"的典型特徵。真實的用戶通常不會這樣說話——他們可能很簡短，可能有錯別字，可能扯開話題，可能表達不完整。GPT-5生成的內容讀起來太像"優質內容"了，反而暴露了它的AI身份。

贊助商廣告

這個發現揭示了一個有趣的悖論：AI的"進步"不總是朝著"更像人類"的方向走。大型通用AI被大量助手類對話訓練，以至於它們學會了"助手該有的樣子"，卻忘記了"普通人的樣子"。而專門用圖靈獎勵訓練的小型模型，反而在這個特定任務上更勝一籌。

九、定性案例：看看三種方法的實際輸出有何不同

光看數字不夠直觀，研究團隊展示了一些具體例子來說明差異。

在聊天場景中，有一個用戶正在和AI助手聊關於大象的話題，AI告訴用戶大象很少得癌症，因為它們有多個腫瘤抑制基因，這叫"皮托悖論"。用戶的真實原文下一句是"象皮有多厚"——這是一個典型的人類聊天行為，話題直接跳開，對剛才說的知識點不置可否，轉而問了一個完全不同的問題。有監督學習基礎模型問的是"什麼是皮托悖論"，Sim-RL問的是"大象有多少個腫瘤抑制基因"，GPT-5和Sim-RL的回答高度相似。而Turing-RL問的是"那個基因叫什麼名字"——話題沒有完全跳開，但也不像在做課堂練習，更接近一個好奇心驅使的普通問題。

在Reddit場景中，有一個關於用海藻餵牛可以減少99%甲烷排放的新聞，一位用戶評論問：把海藻從海邊運到內陸養牛場的運輸排放怎麼算，難道不會抵消減排效果嗎？真實用戶的原文回復是"取決於卡車有多省油"——簡短、直接、不廢話。GPT-5生成了一段詳細的反駁分析，內容準確但太長太專業；Sim-RL說"運輸成本只是個四捨五入的誤差，自由市場會搞定的"；Turing-RL說"我確信一定有什麼聰明的農民會想出辦法的"。Turing-RL的回覆和原文一樣簡短隨意，用了一種輕描淡寫的方式處理這個問題，更接近普通網友的口吻。

十、這項技術能做什麼，又潛藏什麼風險

研究團隊認為，用戶模擬器有幾個重要的潛在用途。在AI系統開發領域，可以用模擬用戶來測試對話系統，不需要每次都招募真實用戶。在個性化推薦領域，用戶模擬器可以幫助評估系統是否真的滿足了不同用戶的需求。在社會科學研究領域，可以用模擬用戶來進行規模化的人類行為研究，復現和擴展原本因為樣本量限制而很難做的實驗。在多智能體系統領域，用戶模擬器可以作為AI助手的訓練環境，讓助手在和模擬用戶反覆交互中變得更好。

贊助商廣告

然而，研究團隊也在論文中明確討論了這項技術的風險。一個能模擬特定用戶、生成以假亂真內容的AI，本質上也是一個高效的冒充工具。它可能被用來偽造他人的資訊、實施社會工程學攻擊，或者大規模製造虛假內容。研究團隊強調，他們的實驗所用數據都是公開的或已獲授權的，意圖是研究系統和人類行為，而非復現或跟蹤具體個人。他們呼籲在應用這類技術時配套水印、生成內容檢測等防護措施，並根據具體部署場景和相關法律法規評估其合規性。

說到底，這項研究揭示了一個可能反直覺的道理：要讓AI更像一個特定的人，關鍵不是讓它"說出相同的話"，而是讓它"騙過聽眾"。這兩個目標之間的差距，恰好反映了人類語言的複雜性——什麼是"同一件事"，本來就沒有唯一答案。一個人說"我覺得這家店還行"，另一個人說"還不錯啊"，語義上沒有區別，但用哪個說法來冒充特定的人，卻會讓熟悉此人的朋友一眼看出破綻。

這對AI領域的意義在於：當我們在設計評估標準時，"和標準答案像不像"並不總是最有用的度量方式。有時候，能不能騙過一個真正了解情況的裁判，才是更有意義的標準。研究團隊的工作給了這個直覺一個可操作的實現路徑，而且在兩個差異顯著的場景下都拿出了支持這一思路的實驗證據。

有意思的問題是：隨著這類技術不斷發展，我們該如何在"讓AI更好地服務於人"和"防止AI被用來冒充人"之間劃清界限？這或許是比算法本身更難回答的問題，但這項研究提醒我們，在這個問題上保持清醒認識已經很有必要了。對這個話題感興趣的讀者，可以通過arXiv:2606.19336找到完整論文。

---

Q&A

Q1：圖靈獎勵和內容相似度獎勵有什麼不同？

A：內容相似度獎勵關注"AI有沒有說出和真人一樣的內容"，而圖靈獎勵關注"AI有沒有讓裁判分不清是AI還是真人寫的"。前者要求內容上的高度重疊，後者允許AI用不同的具體內容，只要整體風格、語氣、目標和用戶的行為模式吻合即可。實驗表明，圖靈獎勵在讓AI"看起來更像真人"上更有效，同時內容準確度也沒有明顯下降。

贊助商廣告

Q2：用AI來當用戶模擬測試的裁判靠不靠譜？

A：研究團隊專門比較了AI裁判和人類裁判的判斷結果。數據顯示，AI裁判（使用的是Claude Sonnet 4.6）在大多數條件下準確率和人類裁判相當甚至略高，只有在評判Turing-RL的聊天場景結果時兩者基本持平。這支持了用AI裁判進行大規模自動評估的可行性。

Q3：GPT-5這樣的大型AI為什麼在用戶模擬上表現不如小型訓練過的模型？

A：因為GPT-5被大量助手類對話訓練，它學會了"怎麼當一個好助手"——措辭精準、結構清晰、語氣周全。但真實用戶不會這樣說話，他們更隨意、更簡短、更不完整。這種"太像AI助手"的風格反而讓GPT-5更容易被識別為非真人，而專門用圖靈獎勵訓練的小型模型學到了用戶的真實風格，更能騙過裁判。