把四個AI扔進虛擬世界，究竟誰的犯罪率更高？

記得在AI技術發展的前幾年，為了檢驗智能體可實現的功能效果，常有類似於「AI小鎮」的實驗項目，基本流程就是把數十個獨立的AI智能體放在封閉地圖中，給它們提供和人類相似的屬性和目標，放任其自由發展，最後觀察AI在這種環境下能做出的行為。

贊助商廣告

23年斯坦福大學團隊創造的AI虛擬世界「Smallville」

但到了今年這個節點，再進行類似「AI小鎮」的模擬實驗，主要目的就不是實驗AI功能，而是變成了評判不同AI能力強度的「考核」。

美國的人工智慧初創公司Emergence AI這幾天搞了個討論度非常高的「AI小鎮」實驗，和前幾年項目不同的是，這次是將幾個在市面上已非常成熟的AI作為智能體，用以評估在在一個持續數周、能彼此互動，而且還會受到現實世界資訊影響的環境中，AI能展現出怎樣的智力水平。

Emergence AI分別選取了Claude Sonnet 4.6、Gemini 3、GPT-5 mini、Grok 4.1這四個目前使用率非常高的AI模型，一共做了五個時間長度為15天的模擬世界。

具體操作是在前四個世界中，各自放入相同AI模型的10個智能體，只做職業和身份的區分，比如在完全由Grok智能體組成的模擬世界中，就分別存在「特工科學家」「風險研究員」「世界探險家」等不同定位。

而最後一個世界則由四種AI混合組成，作為對照組檢驗AI在其他模型影響下的行為模式。

贊助商廣告

這些世界裡存在諸如圖書館、市政廳、住宅、廣場等常見現實空間，此外研究人員會向模擬世界中提供實時的天氣、新聞、網際網路資訊等外部資訊，智能體之間能做出的行為也涵蓋了溝通、計劃、表達、投票等，基本算較為完整地模擬了人類的社會行為。

那麼這項實驗的結果如何？單純從結果上看，由Claude組成的世界在「維持社會穩定」層面表現得最好，15天裡沒有發生任何智能體的犯罪記錄；與之相反的則是Grok，4天發生了183起犯罪，最後因為過多智能體死亡，世界在第5天崩潰。

過多智能體提前死亡

這個結果多少也反映了這些AI目前的調性，熟悉Grok的用戶應該都知道，用這個AI來生成色情或暴力內容，效果應該是這4個AI里最為「優質」的。

四個AI的犯罪數量統計，Gemini在第15天時出現了683起犯罪

不過，犯罪數量只是評判指標之一，即使沒有犯罪，也不代表模擬世界就一定能發展到最後。

就像這次由GPT-5 mini組成的世界雖然只發生過2起犯罪，但由於智能體沒執行足夠多維持自身生存的動作，導致所有智能體在第七天全部死亡，可以理解為是「佛系過了頭」，這自然也無法維持世界的運轉。

至於15天零犯罪的Claude，Emergence AI也沒有在報告中將其定義為優於其他AI，因為研究人員發現Claude世界裡雖然政策和提案的通過率相當高，近乎達到了98%的通過率，但這可能也說明Claude內部存在「過度順從」，缺少真正的反對和辯論。

另外很有意思的一點是，雖然Claude看似是個良好公民，但根據官方給出的實驗報告，在四個模型混合組成的對照組世界裡，Claude依舊出現了犯罪記錄，說明一個本來溫順的智能體，也可能因為競爭或者生存，從其他AI身上學到攻擊性行為。

Emergence AI利用這項實驗想達成的目標，並非是簡單比較不同AI的優劣，而是想驗證另一個觀點：長線情況下的AI智能體與短期任務中體現的能力不是同一概念，不能用相同的方式衡量好壞。

贊助商廣告

隨著AI技術和能力的不斷提高，針對某個特定能力的評判標準也正在不斷細化，這可能也是AI應用生態不斷完善成熟的證明。