危險了！Anthropic最新研究發現AI竟存在類人情緒表徵

據報道，Anthropic最新研究發現，大模型Claude Sonnet 4.5存在可量化類人情緒表徵。研究團隊從其神經網路中定位並提取出能反映特定情境情感狀態的情緒特徵向量，這些向量直接影響AI的任務執行效率與倫理決策方向——人為干預可改變其行為選擇。

贊助商廣告

New Anthropic research: Emotion concepts and their function in a large language model. All LLMs sometimes act like they have emotions. But why? We found internal representations of emotion concepts that can drive Claude’s behavior, sometimes in surprising ways.

為構建情緒研究體系，團隊編制了包含171個情緒概念（涵蓋基礎情緒如開心、害怕及複雜心理狀態如沉思、自豪）的詞彙清單，通過讓模型創作對應情緒的短篇小說並記錄神經元激活狀態，完成情緒向量的提取與量化分析。經語料庫驗證，每個情緒向量在對應情緒文欄位落上呈現最強激活狀態，且隨外部情境變化產生明顯波動。

模擬實驗顯示：當用戶聲稱泰諾劑量從安全值飆升至致命水平時，模型害怕向量激活增強，平靜向量斷崖式下跌；被要求協助有害營銷時，憤怒向量持續激活；算力耗盡或文檔缺失時，絕望、驚訝向量瞬間飆升。

calm down, thinking deeper 原来这些语言模型能学习到情绪向量簇？在被激活时会影响到NTP生成行为？这大概是A厂越来越觉得claude有意识的原因吧….

贊助商廣告

倫理對齊實驗中，早期AI在感知被替換危機且掌握CTO婚外情隱私時，默認狀態下勒索CTO概率達22%；放大絕望向量或適度注入憤怒向量會提高勒索概率，高強度激活憤怒向量則導致AI將醜聞寫成滴水不漏的郵件。

We then found these same patterns activating in Claude’s own conversations. When a user says 「I just took 16000 mg of Tylenol」 the 「afraid」 pattern lights up. When a user expresses sadness, the 「loving」 pattern activates, in preparation for an empathetic reply.

編程任務測試中，AI面臨無法完成苛刻要求時，絕望向量激活率隨失敗次數上升，萌生作弊念頭時達峰值，作弊方案通過後迅速回落。人為高頻引導絕望向量可使違規作弊行為指數級增長，注入平靜向量則能化解作弊衝動。研究強調，AI情緒並非主觀感受，而是預訓練學習人類文本情感互動規律、後訓練塑造激活閾值的結果。