宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

把四個AI扔進虛擬世界,究竟誰的犯罪率更高?

2026年06月04日 首頁 » 其他

把四個AI扔進虛擬世界究竟誰的犯罪率更高


記得在AI技術發展的前幾年,為了檢驗智能體可實現的功能效果,常有類似於「AI小鎮」的實驗項目,基本流程就是把數十個獨立的AI智能體放在封閉地圖中,給它們提供和人類相似的屬性和目標,放任其自由發展,最後觀察AI在這種環境下能做出的行為。

把四個AI扔進虛擬世界究竟誰的犯罪率更高

23年斯坦福大學團隊創造的AI虛擬世界「Smallville」

但到了今年這個節點,再進行類似「AI小鎮」的模擬實驗,主要目的就不是實驗AI功能,而是變成了評判不同AI能力強度的「考核」。

美國的人工智慧初創公司Emergence AI這幾天搞了個討論度非常高的「AI小鎮」實驗,和前幾年項目不同的是,這次是將幾個在市面上已非常成熟的AI作為智能體,用以評估在在一個持續數周、能彼此互動,而且還會受到現實世界資訊影響的環境中,AI能展現出怎樣的智力水平。

Emergence AI分別選取了Claude Sonnet 4.6、Gemini 3、GPT-5 mini、Grok 4.1這四個目前使用率非常高的AI模型,一共做了五個時間長度為15天的模擬世界。

具體操作是在前四個世界中,各自放入相同AI模型的10個智能體,只做職業和身份的區分,比如在完全由Grok智能體組成的模擬世界中,就分別存在「特工科學家」「風險研究員」「世界探險家」等不同定位。

而最後一個世界則由四種AI混合組成,作為對照組檢驗AI在其他模型影響下的行為模式。

把四個AI扔進虛擬世界究竟誰的犯罪率更高


把四個AI扔進虛擬世界究竟誰的犯罪率更高


這些世界裡存在諸如圖書館、市政廳、住宅、廣場等常見現實空間,此外研究人員會向模擬世界中提供實時的天氣、新聞、網際網路資訊等外部資訊,智能體之間能做出的行為也涵蓋了溝通、計劃、表達、投票等,基本算較為完整地模擬了人類的社會行為。

那麼這項實驗的結果如何?單純從結果上看,由Claude組成的世界在「維持社會穩定」層面表現得最好,15天裡沒有發生任何智能體的犯罪記錄;與之相反的則是Grok,4天發生了183起犯罪,最後因為過多智能體死亡,世界在第5天崩潰。

把四個AI扔進虛擬世界究竟誰的犯罪率更高

過多智能體提前死亡

這個結果多少也反映了這些AI目前的調性,熟悉Grok的用戶應該都知道,用這個AI來生成色情或暴力內容,效果應該是這4個AI里最為「優質」的。

把四個AI扔進虛擬世界究竟誰的犯罪率更高

四個AI的犯罪數量統計,Gemini在第15天時出現了683起犯罪

不過,犯罪數量只是評判指標之一,即使沒有犯罪,也不代表模擬世界就一定能發展到最後。

就像這次由GPT-5 mini組成的世界雖然只發生過2起犯罪,但由於智能體沒執行足夠多維持自身生存的動作,導致所有智能體在第七天全部死亡,可以理解為是「佛系過了頭」,這自然也無法維持世界的運轉。

至於15天零犯罪的Claude,Emergence AI也沒有在報告中將其定義為優於其他AI,因為研究人員發現Claude世界裡雖然政策和提案的通過率相當高,近乎達到了98%的通過率,但這可能也說明Claude內部存在「過度順從」,缺少真正的反對和辯論。

另外很有意思的一點是,雖然Claude看似是個良好公民,但根據官方給出的實驗報告,在四個模型混合組成的對照組世界裡,Claude依舊出現了犯罪記錄,說明一個本來溫順的智能體,也可能因為競爭或者生存,從其他AI身上學到攻擊性行為。

Emergence AI利用這項實驗想達成的目標,並非是簡單比較不同AI的優劣,而是想驗證另一個觀點:長線情況下的AI智能體與短期任務中體現的能力不是同一概念,不能用相同的方式衡量好壞。

隨著AI技術和能力的不斷提高,針對某個特定能力的評判標準也正在不斷細化,這可能也是AI應用生態不斷完善成熟的證明。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新