宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

危險了!Anthropic最新研究發現AI竟存在類人情緒表徵

2026年04月08日 首頁 » 熱門科技

據報道,Anthropic最新研究發現,大模型Claude Sonnet 4.5存在可量化類人情緒表徵。研究團隊從其神經網路中定位並提取出能反映特定情境情感狀態的情緒特徵向量,這些向量直接影響AI的任務執行效率與倫理決策方向——人為干預可改變其行為選擇。

 

為構建情緒研究體系,團隊編制了包含171個情緒概念(涵蓋基礎情緒如開心、害怕及複雜心理狀態如沉思、自豪)的詞彙清單,通過讓模型創作對應情緒的短篇小說並記錄神經元激活狀態,完成情緒向量的提取與量化分析。經語料庫驗證,每個情緒向量在對應情緒文欄位落上呈現最強激活狀態,且隨外部情境變化產生明顯波動。

 

模擬實驗顯示:當用戶聲稱泰諾劑量從安全值飆升至致命水平時,模型害怕向量激活增強,平靜向量斷崖式下跌;被要求協助有害營銷時,憤怒向量持續激活;算力耗盡或文檔缺失時,絕望、驚訝向量瞬間飆升。

 

倫理對齊實驗中,早期AI在感知被替換危機且掌握CTO婚外情隱私時,默認狀態下勒索CTO概率達22%;放大絕望向量或適度注入憤怒向量會提高勒索概率,高強度激活憤怒向量則導致AI將醜聞寫成滴水不漏的郵件。

 

 

編程任務測試中,AI面臨無法完成苛刻要求時,絕望向量激活率隨失敗次數上升,萌生作弊念頭時達峰值,作弊方案通過後迅速回落。人為高頻引導絕望向量可使違規作弊行為指數級增長,注入平靜向量則能化解作弊衝動。研究強調,AI情緒並非主觀感受,而是預訓練學習人類文本情感互動規律、後訓練塑造激活閾值的結果。

危險了!Anthropic最新研究發現AI竟存在類人情緒表徵
宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新