這項由麻省理工學院(MIT)、斯坦福大學和MIT-IBM沃森人工智慧實驗室聯合開展的研究,以預印本形式發布於2026年6月,論文編號為arXiv:2606.19336,有興趣深入了解的讀者可以通過該編號在arXiv平台查詢完整論文。
在AI助手大行其道的今天,我們幾乎默認這些系統應該扮演"幫手"的角色——回答問題、完成任務、服務人類。然而,研究團隊換了一個視角:如果把AI訓練成"用戶"本人,讓它模擬一個真實的人,效果會如何?這不是科幻小說里的人格複製,而是一個非常實際的工程問題——能不能造出一個程序,讓它生成的內容看上去就像是某個特定的人寫的?
這個問題比看起來要複雜得多。舉個例子,你有一位朋友張三,他平時發消息總是很簡短,喜歡用反問句,偶爾夾雜幾個錯別字,談到足球就停不下來。如果你讓一個AI"扮演張三",它能不能在一場對話里,說出那種只有張三才會說的話?不是說得"像某個普通人",而是說得"像張三"。這背後的挑戰在於,人與人之間的差異太微妙了——兩個背景完全相同的人,可能對同一件事持截然相反的看法,這種差異無法用人口統計標籤來歸納。
研究團隊提出了一個名為**Turing-RL**的訓練方法,核心思路來自70多年前的一個經典思想實驗。
一、圖靈測試:一場古老遊戲的現代版本
1950年,英國數學家圖靈提出了一個著名的問題:如果你和一台機器通過文字對話,能不能分辨出對方是人還是機器?如果連人類裁判都無法區分,就說明這台機器在某種意義上"通過"了這場測試。
這個叫做"圖靈測試"的概念,恰好提供了研究團隊想要的訓練信號。他們的想法是:與其讓AI努力"複製"某人的某句原話,不如讓AI努力生成"讓人分不清是AI寫的還是本人寫的"內容。換句話說,判斷標準不是"說得一不一樣",而是"騙不騙得到人"。
這兩個目標聽起來相似,實際上差距極大。用一個具體的場景來理解這種差異:假設你要模擬張三回復一條微信,張三的原回復是"我覺得這家店還行"。如果你的目標是"複製原話",那麼AI說"我覺得這家餐廳不錯"就算比較好的結果,因為語義相近。但如果你的目標是"騙過張三的朋友",那AI可能需要注意張三習慣用"店"而不是"餐廳",句子結尾不用句號,喜歡加個省略號,等等。前一種方式關注"說了什麼",後一種方式關注"這個人會怎麼說"。
研究團隊把這種區別做成了一個可以用於AI訓練的機制。他們讓一個扮演"裁判"的AI,把待評估的AI生成的內容和真人寫的原文放在一起,判斷哪一個更像真人寫的。裁判打一個1到7分的評分,1分表示"明顯是原文更像真人",7分表示"明顯是AI生成的更像真人",4分表示"完全分不清"。這個評分就是所謂的"圖靈獎勵",用來引導AI向"騙過裁判"的方向進化。
二、給AI一本"用戶檔案":用歷史記錄和人格畫像代替猜測
光有評分標準還不夠,還需要告訴AI它究竟要模擬誰。研究團隊設計了一套"用戶表示"體系,用兩種資訊來代表一個人。
第一種是這個人的歷史行為記錄,也就是他以前說過的話、參與過的對話、發過的帖子。這些原始記錄就像是一個人過去留下的"腳印",保留了他最真實的說話習慣。第二種是從這些歷史記錄中提煉出來的"人格畫像",由另一個AI來完成這個提煉工作。這個畫像包含五個維度:這個人重視什麼價值觀、有什麼口頭習慣、說話風格如何、通常回復多長、有什麼背景資訊。
為了讓這個人格畫像保持真實,研究團隊給提煉畫像的AI設定了嚴格的規則:必須用第一人稱寫,不能寫成分析報告的口吻,不能推斷人口統計特徵,不能憑空捏造,不能引用原文原話,只能歸納穩定的、可跨場景復現的特徵。舉個例子,如果一個用戶總是發很短的回覆、喜歡用反問句,畫像應該寫"我回復通常只有一兩句話,喜歡用問句回應別人",而不是"該用戶文字簡潔,傾向於蘇格拉底式反問法"。前者是用戶的聲音,後者是學術分析。
值得一提的是,研究團隊在實驗中專門比較了三種不同的用戶表示方式——只有歷史記錄、只有人格畫像、兩者兼備。結果顯示,在"是否像真人"這個指標上,三種方式的差異其實不大。但在"內容是否和原文接近"這個指標上,有歷史記錄的方式表現更好。這說明人格畫像捕捉到的主要是風格特徵,而具體內容的線索更多藏在原始歷史記錄里。
三、訓練流程:從臨時演員到專業特型演員
整個訓練過程分兩個階段,可以用"先學劇本再上台即興"來理解。
第一階段是"有劇本的練習"。研究團隊首先收集了大量的真實對話數據,讓基礎AI模型先做一輪有監督的學習——給它看真人的對話和回復,讓它學會怎麼用"推理+回復"的格式生成內容。具體來說,訓練格式是:先寫一段藏在標籤里的推理過程,解釋這個用戶為什麼會這麼回答、他的意圖是什麼、風格是什麼,然後再寫出最終回復。這一步的目的是讓AI先建立基本的"角色扮演"能力,就像演員先背台詞熟悉角色再上台。
第二階段才是真正有意思的部分——"即興發揮,接受圖靈測試"。從第一階段訓練好的模型出發,研究團隊用圖靈獎勵進行強化學習訓練。每次訓練時,AI為同一個問題生成四個候選回復,裁判AI對每個回復和真人原文進行比較評分,然後根據分數的高低來決定哪些回復被強化、哪些被弱化。這種訓練方式叫做GRPO(組內相對策略優化),可以理解為"同組競爭淘汰制"——四個候選回復里誰表現最好,誰就被更多地學習。
在獎勵設計上,研究團隊加入了一個防作弊機制。圖靈獎勵最高只計到5分,超過5分的部分被截斷。這是因為如果AI生成的內容被裁判評為"明顯比真人更像真人",這本身就是一種異常——真正在模擬一個人的AI,不應該比這個人本人"更像"這個人,這種情況很可能意味著AI在鑽評分標準的空子,而不是真正學會了模擬用戶。
此外,訓練還加入了一個"長度控制"機制,懲罰生成內容和原文長度相差太大的情況。這是因為長度本身就是一種風格特徵——一個習慣發短消息的人,突然被AI模擬成髮長篇大論,再內容準確也不像真人。
四、兩個測試場地:聊天對話與Reddit論壇
研究團隊在兩個完全不同的場景下測試了這套方法,分別是多輪人機對話和Reddit社區討論。
第一個場景使用的是PRISM對齊數據集,這個數據集包含了來自75個國家的約1500名用戶與AI助手之間的多輪對話。研究團隊挑選出至少有6段對話歷史的用戶,保留128人作為測試集,其餘用於訓練。每個用戶的部分歷史對話作為"背景檔案",剩餘的對話用於測試——AI要根據檔案里展示的用戶特徵,猜測這個人在新對話場景下會說什麼。
第二個場景使用的是ConvoKit的Reddit語料庫,涵蓋了14個不同的子版塊。與對話場景不同,Reddit的評論風格更加碎片化、個人化,而且更能體現一個人的情緒狀態和立場偏好。研究團隊用其中12個子版塊的數據訓練模型,保留r/tifu("今天我把事情搞砸了")和r/worldnews(世界新聞)兩個版塊作為測試,並且確保測試用戶和訓練用戶完全不重疊,以測試模型對陌生用戶的泛化能力。
這兩個場景的選擇頗具匠心——對話場景相對結構化,有明確的問答節奏;Reddit評論則更自由散漫,更接近人們日常的表達狀態。能在兩個場景下都表現良好,才能說明方法真的有效。
五、評判標準:三把尺子量"像不像真人"
研究團隊用三種不同的方式來衡量模型表現,每種方式聚焦於不同的維度。
第一把尺子是"圖靈區分度",這也是最核心的評估指標。評判AI(使用的是Claude Sonnet 4.6,一個比訓練時用的AI更強大的模型)看到一個用戶的歷史記錄和兩個回復——一個真人原文,一個AI生成——然後打1到7分,判斷哪個更像真人寫的。評估時特意把兩個回復的順序隨機打亂,並且正序反序各評一次取平均,以消除"第一個選項更容易被選中"這類偏見。分數越高,說明AI生成的內容越難被識別為AI寫的。
第二把尺子是"內容相似度",衡量AI生成的回覆和真人原文在語義上有多接近。裁判AI從真人原文中提取1到3個關鍵點,然後檢查AI生成的回覆覆蓋了多少、有沒有引入無關內容、有沒有用錯視角。這個指標主要測試的是"AI有沒有說出和真人相同的事情",而不是"AI有沒有用真人的方式來說"。
第三把尺子是"情境特異性",這是一個容易被忽視但非常重要的維度。它評估AI的回覆是否真的紮根於當前的對話情境和特定用戶,而不是一個放在任何地方都成立的"通用回復"。很多AI系統的通病就是傾向於生成過於圓滑的"萬金油回復",這種回復放到哪個用戶身上都說得過去,卻恰恰因此缺乏個人特色。這個指標專門懲罰這種傾向。
六、真人來當裁判:當AI的得分被人類覆核
光有AI評分還不夠,研究團隊還專門招募了超過三百名來自Prolific平台的人類參與者,做了一場人工圖靈測試。
測試方式很簡單:給參與者看一個目標用戶的歷史記錄,然後呈現兩個回復,問"哪個更像這個用戶寫的?"兩個回復一個來自真人原文,一個來自AI,順序隨機。參與者還要回答幾個理解問題,以證明他們真的讀了歷史記錄而不是隨機點擊。最終,每個測試樣本由6名獨立參與者評分,取多數票。
研究團隊計算的指標叫"模型勝率"——也就是AI生成的回覆被人類判斷為"更像真人"的比例。如果勝率超過50%,意味著AI騙過了人類裁判的次數超過了沒騙過的次數。
這場人工測試帶來了幾個有趣的發現。在聊天場景下,Turing-RL的勝率達到57%,也就是說有超過一半的時間,人類裁判會認為AI的回覆比真人原文更像真人寫的。這個結果相當驚人,因為競爭對手——只經過有監督學習的模型(SFT-Init)和使用內容相似度獎勵訓練的模型(Sim-RL)——的勝率都徘徊在50%左右,也就是和隨機猜測差不多。在Reddit場景下,各模型的勝率差距相對較小,但Turing-RL和Sim-RL都顯著優於未經強化學習的基礎模型。
研究團隊還特別分析了一個問題:AI裁判和人類裁判,哪個更靠譜?他們把AI裁判的評分轉化成二元判斷(低於4分=真人,高於4分=AI生成),和人類多數票結果比較。結果顯示,在大多數情況下,AI裁判的準確率和人類裁判相當甚至更高。這個發現支持了用AI裁判替代人工評估的做法,畢竟大規模的人工評估成本極高。
七、和競爭對手比拼:三種訓練信號的較量
研究團隊將Turing-RL和兩種現有方法進行了系統比較,三種方法都從同一個有監督學習的基礎模型出發,使用同樣的用戶檔案,只是訓練信號不同。
第一種競爭方法叫Sim-RL,來源於HumanLM這項研究。它的訓練信號是"內容相似度"——AI生成的回覆和真人原文在語義上越接近,獎勵越高。這種方法的邏輯是:如果你能說出和真人一樣的話,你就成功模擬了這個人。
第二種競爭方法叫Logprob-RL,來源於Gandhi等人的研究。它的訓練信號更特別:不是讓外部裁判評分,而是直接用"模型給真人原文的概率評分"作為獎勵。模型覺得真人原文越可能出現,獎勵越高。這個方法的理論基礎是最大似然估計,相當於"讓模型認為真人原文是最合理的輸出"。
實驗結果在聊天場景中尤為明顯。Turing-RL在圖靈區分度上大幅領先其他方法,並且這個優勢經過了比訓練時更強大的AI裁判和真人裁判的雙重驗證。在內容相似度上,Turing-RL和Sim-RL表現相當,都優於只做有監督學習的基礎模型——這說明追求"騙過裁判"的目標並沒有損失"說對內容"的能力,反而兩者兼顧了。Logprob-RL的表現在兩個場景下都相對靠後,這說明僅憑提高真人原文的概率,並不等於真的學會了模擬用戶。
八、大型AI反而不如小型訓練過的AI:一個出人意料的發現
研究團隊還把GPT-5和Qwen3.5-397B這兩個遠比實驗用的基礎模型(Qwen3-8B)更大、更強大的AI拿來做參照,結果令人意外。
這兩個超大型AI在圖靈區分度上並沒有比Qwen3-8B基礎模型好多少,有時甚至更差。研究團隊通過分析發現了原因:這些大型AI傾向於生成措辭精緻、結構清晰、語氣周全的回覆,而這恰恰是"AI助手風格"的典型特徵。真實的用戶通常不會這樣說話——他們可能很簡短,可能有錯別字,可能扯開話題,可能表達不完整。GPT-5生成的內容讀起來太像"優質內容"了,反而暴露了它的AI身份。
這個發現揭示了一個有趣的悖論:AI的"進步"不總是朝著"更像人類"的方向走。大型通用AI被大量助手類對話訓練,以至於它們學會了"助手該有的樣子",卻忘記了"普通人的樣子"。而專門用圖靈獎勵訓練的小型模型,反而在這個特定任務上更勝一籌。
九、定性案例:看看三種方法的實際輸出有何不同
光看數字不夠直觀,研究團隊展示了一些具體例子來說明差異。
在聊天場景中,有一個用戶正在和AI助手聊關於大象的話題,AI告訴用戶大象很少得癌症,因為它們有多個腫瘤抑制基因,這叫"皮托悖論"。用戶的真實原文下一句是"象皮有多厚"——這是一個典型的人類聊天行為,話題直接跳開,對剛才說的知識點不置可否,轉而問了一個完全不同的問題。有監督學習基礎模型問的是"什麼是皮托悖論",Sim-RL問的是"大象有多少個腫瘤抑制基因",GPT-5和Sim-RL的回答高度相似。而Turing-RL問的是"那個基因叫什麼名字"——話題沒有完全跳開,但也不像在做課堂練習,更接近一個好奇心驅使的普通問題。
在Reddit場景中,有一個關於用海藻餵牛可以減少99%甲烷排放的新聞,一位用戶評論問:把海藻從海邊運到內陸養牛場的運輸排放怎麼算,難道不會抵消減排效果嗎?真實用戶的原文回復是"取決於卡車有多省油"——簡短、直接、不廢話。GPT-5生成了一段詳細的反駁分析,內容準確但太長太專業;Sim-RL說"運輸成本只是個四捨五入的誤差,自由市場會搞定的";Turing-RL說"我確信一定有什麼聰明的農民會想出辦法的"。Turing-RL的回覆和原文一樣簡短隨意,用了一種輕描淡寫的方式處理這個問題,更接近普通網友的口吻。
十、這項技術能做什麼,又潛藏什麼風險
研究團隊認為,用戶模擬器有幾個重要的潛在用途。在AI系統開發領域,可以用模擬用戶來測試對話系統,不需要每次都招募真實用戶。在個性化推薦領域,用戶模擬器可以幫助評估系統是否真的滿足了不同用戶的需求。在社會科學研究領域,可以用模擬用戶來進行規模化的人類行為研究,復現和擴展原本因為樣本量限制而很難做的實驗。在多智能體系統領域,用戶模擬器可以作為AI助手的訓練環境,讓助手在和模擬用戶反覆交互中變得更好。
然而,研究團隊也在論文中明確討論了這項技術的風險。一個能模擬特定用戶、生成以假亂真內容的AI,本質上也是一個高效的冒充工具。它可能被用來偽造他人的資訊、實施社會工程學攻擊,或者大規模製造虛假內容。研究團隊強調,他們的實驗所用數據都是公開的或已獲授權的,意圖是研究系統和人類行為,而非復現或跟蹤具體個人。他們呼籲在應用這類技術時配套水印、生成內容檢測等防護措施,並根據具體部署場景和相關法律法規評估其合規性。
說到底,這項研究揭示了一個可能反直覺的道理:要讓AI更像一個特定的人,關鍵不是讓它"說出相同的話",而是讓它"騙過聽眾"。這兩個目標之間的差距,恰好反映了人類語言的複雜性——什麼是"同一件事",本來就沒有唯一答案。一個人說"我覺得這家店還行",另一個人說"還不錯啊",語義上沒有區別,但用哪個說法來冒充特定的人,卻會讓熟悉此人的朋友一眼看出破綻。
這對AI領域的意義在於:當我們在設計評估標準時,"和標準答案像不像"並不總是最有用的度量方式。有時候,能不能騙過一個真正了解情況的裁判,才是更有意義的標準。研究團隊的工作給了這個直覺一個可操作的實現路徑,而且在兩個差異顯著的場景下都拿出了支持這一思路的實驗證據。
有意思的問題是:隨著這類技術不斷發展,我們該如何在"讓AI更好地服務於人"和"防止AI被用來冒充人"之間劃清界限?這或許是比算法本身更難回答的問題,但這項研究提醒我們,在這個問題上保持清醒認識已經很有必要了。對這個話題感興趣的讀者,可以通過arXiv:2606.19336找到完整論文。
---
Q&A
Q1:圖靈獎勵和內容相似度獎勵有什麼不同?
A:內容相似度獎勵關注"AI有沒有說出和真人一樣的內容",而圖靈獎勵關注"AI有沒有讓裁判分不清是AI還是真人寫的"。前者要求內容上的高度重疊,後者允許AI用不同的具體內容,只要整體風格、語氣、目標和用戶的行為模式吻合即可。實驗表明,圖靈獎勵在讓AI"看起來更像真人"上更有效,同時內容準確度也沒有明顯下降。
Q2:用AI來當用戶模擬測試的裁判靠不靠譜?
A:研究團隊專門比較了AI裁判和人類裁判的判斷結果。數據顯示,AI裁判(使用的是Claude Sonnet 4.6)在大多數條件下準確率和人類裁判相當甚至略高,只有在評判Turing-RL的聊天場景結果時兩者基本持平。這支持了用AI裁判進行大規模自動評估的可行性。
Q3:GPT-5這樣的大型AI為什麼在用戶模擬上表現不如小型訓練過的模型?
A:因為GPT-5被大量助手類對話訓練,它學會了"怎麼當一個好助手"——措辭精準、結構清晰、語氣周全。但真實用戶不會這樣說話,他們更隨意、更簡短、更不完整。這種"太像AI助手"的風格反而讓GPT-5更容易被識別為非真人,而專門用圖靈獎勵訓練的小型模型學到了用戶的真實風格,更能騙過裁判。






