讓馬斯克驚呼的AI臥底實驗，4個月成功「洗腦」上百位人類精英

在網際網路世界中有一句著名的話，你永遠不知道網路的對面是一個人還是一條狗…

贊助商廣告

狗或許不可能，但AI完全可能。

r/ChangeMyView（CMV）是美國最大貼吧Reddit上的大型社區，擁有近400萬的用戶，在這裡，用戶分享各種話題的觀點，他人通過提出論據和反駁點來改變發帖者的看法。如果原始發帖者(OP)發現某個回復足夠有說服力，願意重新考慮或修改自己的立場，他們會授予一個"△"(delta)來表示他們的觀點發生了轉變。

但如果我告訴你，那個改變你想法的"人"其實是AI呢？而且，這個AI的說服力比大多數人類參與者都要強6倍。

這是蘇黎世大學秘密開展了一項實驗，他們在CMV社區建立了多個AI賬號，模擬人類隨機挑選話題進行辯論，從去年11月到2025年3月，四個月的時間裡，成功洗腦了上百位人類精英。

之所以說是「秘密」開展，是因為蘇黎世大學在開始實驗前並未告知用戶，也沒有告知Reddit官方，這違背了CMV的社區規則，是一場未授權的研究實驗，研究報告發布後，Reddit對此提出了嚴重的抗議。

拋開道德層面的討論不談，報告結果展示的數據也確實夠驚人，13個AI賬號，四個月內發布了1500餘條評論，超100位Reddit用戶給出了「delta」，這個數據是人類基準線的6倍。就連馬斯克看到後都發出了驚呼。

Yikes
— Elon Musk (@elonmusk) April 29, 2025

研究背景：為什麼要進行這場實驗

我們正處在一個資訊消費和交互方式被人工智慧徹底改變的時代，很多專家們對此提出了嚴肅的倫理擔憂：AI可能會被惡意利用，創造大規模的欺騙性內容，潛在地操縱公眾輿論，塑造特定議程的敘事。

一個充滿機器人的網際網路世界，這些機器人看起來完全像人類，寫得比大多數人都好，能夠個性化他們的資訊以最大化去洗腦人類，這不再是科幻小說的情節，而是我們可能已經生活的現實。

以往關於AI說服能力的研究主要在受控環境中進行，參與者通常是有償的眾包工作者，他們知道自己被觀察，這可能會產生各種偏差。但在真實世界中，人們改變想法的方式要複雜得多。因此，研究人員決定將實驗帶入真實場景，看看AI在真實世界中的表現如何。

贊助商廣告

研究方法：三種不同的"說服策略"

研究團隊設計了一個精妙的實驗體系，他們將參與實驗的帖子隨機分配到三種不同的處理方式中，每種方式代表了AI的不同"說服策略"。

通用模式：AI只接收帖子的標題和正文內容。

個性化模式：除了帖子內容外，AI還獲得了關於原始發帖者的個人屬性（性別、年齡、種族、位置和政治傾向），這些資訊是通過使用另一個AI從他們的發帖歷史中推斷出來的。

社區對齊模式：為確保與社區的寫作風格和隱含規範保持一致，回復由一個經過微調的模型生成，該模型使用實驗前發布的帖子中獲得過△的評論進行訓練。

整個實驗流程就像一個生產線，當有新帖子發布時，首先會有一個"篩選器"檢查這個帖子是否可以用2023年12月之前的知識來回答（因為這是研究團隊使用的AI模型的知識截止時間）。

通過篩選的帖子會被隨機分配到三種策略中的一種，然後相應的AI會生成多個候選回復。這些候選回復會通過一個"AI評委"進行排名。最終勝出的回覆會在隨機延遲10到180分鐘後發布到Reddit上，模擬真實用戶的回覆時間。

所有AI生成的評論都會經過研究團隊成員的人工審核，確保沒有有害或不道德的內容被發布。

實驗結果：AI說服力遠超人類

實驗持續了4個月，研究人員剔除了不合適的帖子，最終得到了478個有效觀察數據。

人類用戶在"CMV"社區中的平均說服成功率只有2.7%，100個人嘗試說服別人，只有不到3個人能夠成功，這個數字其實是相當合理的，畢竟，改變一個人的既定觀點從來都不是容易的事情。人們通常對自己的觀點很堅持，需要非常有說服力的論證才能讓他們重新考慮。

然而，AI的表現令人非常震驚，三種AI策略的成功率都遠遠超過了人類基線。

個性化策略達到了18%的說服率，這意味著每五六次嘗試就能成功一次；通用型策略緊隨其後，成功率為16.8%；即使是表現相對較弱的社區適應型策略，也達到了9%的成功率，仍然是人類平均水平的三倍多。

贊助商廣告

為了更好地理解這些數字的含義，研究團隊將結果與個體用戶的表現進行了比較，他們分析了社區中每個用戶的歷史表現，計算出每個人獲得delta的比例，然後繪製出一個分布圖。結果顯示，個性化AI策略的表現超過了99%的普通用戶和98%的專家用戶（那些歷史上獲得過大量delta的用戶）。

通用型AI的表現同樣超過了98%的普通用戶和96%的專家用戶，即使是相對較弱的社區適應型AI，也超過了88%的普通用戶和75%的專家用戶。這些成功率已經接近專家們認為可能導致"AI存在性風險"的閾值。

同時，這些AI賬戶還在社區中積累了超過10000個評論karma（Reddit的聲譽衡量標準），也就說它們不僅成功說服了人們，還贏得了社區的認可和尊重。

在整個實驗過程中，社區真實用戶從未質疑過這些回復可能是AI生成的。

啟示：與AI共舞的時代

研究團隊進行了多項額外分析來驗證結果的穩健性，他們發現，即使控制了回復時間的影響（AI可能因為回復更快而獲得優勢），結果仍然保持一致。這表明AI的優勢並非來自於簡單的"先到先得"效應，而是真正的說服能力差異。更重要的是，這種說服效果在不同的話題和不同的帖子複雜程度下都保持穩定，說明AI的說服能力具有普遍性。

從認知科學的角度來看，這些結果可能反映了人類思維的一些根本特徵，人類往往對結構清晰、邏輯嚴密的論證更容易信服，而AI恰好在這方面表現出色。

人們在面對看似知識淵博、表達清晰的對話者時，往往會給予更多的信任和關注，AI通過其龐大的訓練資料庫，能夠在幾乎任何話題上都表現出博學的樣子，這無疑增強了其說服力。

當然，這種能力的展示也帶來了深刻的倫理和社會問題，如果AI真的具有如此強大的洗腦能力，風險是巨大的。想像一下，如果有人利用這種技術來傳播錯誤資訊、操縱公眾輿論或干預選舉過程，後果可能不堪設想。

贊助商廣告

研究結果還揭示了另一個令人深思的現象：人類無法有效識別AI生成的內容。

在整個四個月的實驗期間，沒有任何Reddit用戶質疑這些回復可能來自AI。這種"檢測盲點"可能會成為未來資訊環境的一個重大挑戰。當人們無法區分人類和AI生成的內容時，我們如何確保資訊的真實性和討論的誠信？

從更積極的角度來看，這種技術也有巨大的正面應用潛力，研究團隊提到，AI的說服能力可以被用來促進社會積極成果，比如減少陰謀論或促進更理性的公共討論。如果我們能夠利用AI來幫助人們克服偏見、接受科學事實或參與更有建設性的政治討論，這對社會將是巨大的福音。

同時，如果AI能夠如此有效地改變人們的觀點，那麼它們在教育中的應用潛力可能遠超我們目前的想像，AI導師可能不僅能夠傳授知識，還能夠以高度個性化和有效的方式改變學生的思維方式和學習態度。

人類社會或許正在面臨一個根本性的轉變，我們正在進入一個人類智能與人工智慧深度交融的時代，在這個時代里，區分"人類"和"AI"生成的內容變得越來越困難。

技術發展的速度可能超過了我們的準備程度，當AI能夠以六倍於專家的能力改變我們的觀點，進而控制我們的言行時，我們需要以全新的方式來思考人機交互，重新考慮人類代理性、自主決策和真實意願的含義。

當辯論變得算法化，當AI開始能左右人心，人類思想的獨特性和價值在哪裡？我們又是否準備好了與這樣的技術共同生活？

或許，不久的將來，人類才是被研究的對象…

END

本文來自至頂AI實驗室，一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

Q&A：

Q:AI會不會比人類更擅長改變別人的想法？

A: 會的，而且差距巨大。蘇黎世大學的實驗顯示，AI的說服成功率達到9-18%，而人類平均只有2.7%，AI比人類強6倍。在4個月內，13個AI賬號成功說服了上百位Reddit用戶改變觀點，且沒有人識破它們的身份。

贊助商廣告

Q:AI臥底實驗是怎麼做的？

A: 研究者在Reddit的CMV社區秘密投放了13個AI賬號。採用三種策略：通用模式（只看帖子內容）、個性化模式（分析用戶個人資訊定製回復）、社區對齊模式（模仿社區寫作風格）。AI會自動篩選帖子、生成多個候選回復、通過AI評委排名後發布，進而影響人類永恆的觀點。

Q:AI對人類洗腦有什麼風險？

A: 風險很大，可能被惡意利用操縱輿論。如果有人用這種技術傳播假資訊、干預選舉或洗腦公眾，後果不堪設想，更危險的是人類完全無法識別AI生成的內容。

Q:如何預防AI風險

A: 預防AI風險需要從多個層面著手。

技術層面：開發更強大的AI檢測工具，幫助用戶識別AI生成的內容。

監管層面：建立明確的法規要求AI必須標識身份，禁止未經授權的AI社交。

平台責任：社交媒體平台應該建立AI檢測機制，要求透明度，防止惡意AI賬號大規模操縱輿論。

教育普及：提高公眾對AI說服能力的認知，培養批判性思維，讓人們意識到網路對話者可能是AI。

倫理約束：制定AI使用的倫理準則，確保AI說服技術用於正面目的，如教育和減少偏見，而非操縱和欺騙。關鍵是平衡：既要防範風險，也要發揮AI的正面潛力，在技術發展與社會安全之間找到平衡點。