這項由香港大學與哈爾濱工業大學聯合開展的研究,以預印本形式發表於2026年4月,論文編號為arXiv:2604.18982,有興趣深入了解的讀者可通過該編號在arXiv平台上查詢完整論文。
**AI為什麼不懂"看人說話"?**
你有沒有遇到過這種情況:跟一個銷售人員聊天,他明明很熱情,但總是在不合時宜的時刻說出讓氣氛尷尬的話?或者一個談判者,明明在正確的方向上努力,卻總是慢半拍,最終錯失時機?現在的AI助手,其實面臨的正是同樣的困境。
當AI系統被用於談判、協作、說服或者處理複雜的人際關係時,它需要的不僅僅是聰明——它需要"社交智慧",那種知道什麼時候說什麼話、如何為下一步鋪路的敏銳感知。這種能力,人類稱之為"savoir-faire",一個法語詞,意指在社交場合中遊刃有餘的處世之道。
然而,教會AI這種能力極為困難。原因很簡單:一段對話中,哪句話真正起了作用?是開場時建立信任的那句問候,還是中途提出的關鍵方案,還是最後推動對方下決定的那句話?這個問題,在AI訓練領域被稱為"功勞歸屬問題"——就像一場足球比賽贏了之後,你很難說清楚究竟是哪個傳球最終決定了勝負。
香港大學與哈爾濱工業大學的研究團隊為此專門開發了一套名為SAVOIR的框架,全稱是"基於Shapley值的社交強化學習"(ShApley Value fOr SocIal RL)。這套框架借用了經濟學中的博弈論工具,試圖從根本上解決AI在多輪對話中如何分配"功勞"的難題。實驗結果顯示,一個僅有70億參數的小型模型,在最具挑戰性的社交智能測試中達到了與GPT-4o和Claude-3.5-Sonnet相媲美甚至超越的水平,而那些以"推理能力強"著稱的大型推理模型,反而表現得令人意外地糟糕。
---
一、AI學"社交":一道比數學題難得多的考題
要理解這項研究解決了什麼問題,先得搞清楚AI的社交訓練是怎麼一回事。
在AI訓練中,有一種方法叫做"強化學習"——簡單來說,就像訓練一隻小狗。狗做對了動作,給它一塊餅乾作為獎勵;做錯了,不給獎勵甚至輕輕懲罰。AI也是類似的邏輯:在訓練過程中,AI產生一段對話,然後由評分系統告訴它"這次表現得多少分",AI再根據這個分數調整自己下次的行為。
但社交對話的訓練面臨一個棘手的問題:評分只能在整段對話結束之後給出。一段十輪的對話下來,評分系統說"總體得了7分",但AI並不知道是哪幾句話貢獻了這7分,哪幾句話其實是在拖後腿。這就好比一個廚師烹飪了一道複雜的菜餚,食客吃完只說"味道還行",廚師根本不知道是某個配料加得恰到好處,還是火候控制得好,還是某個調料其實加多了。
現有的解決辦法,是讓另一個AI來讀完整段對話,然後回頭評價每一句話的貢獻——"這句話很關鍵,給它多一點分;那句話沒用,給它少一點分"。這個辦法雖然直覺上說得通,但存在兩個根本缺陷。
第一個缺陷是"馬後炮問題"。當AI回頭評價一句話的貢獻時,它是在已經知道對話最終結果的前提下做判斷的,這就像裁判在比賽結束後才決定哪個運動員值得加分,而不是在比賽過程中實時評估動作質量。然而在真實的社交對話中,很多關鍵的話語在當時看起來並不顯眼,它們的價值在於"為後續的成功鋪了路"。比如談判開始時建立信任的那句話,當時看起來只是客套,但正是因為有了這份信任基礎,後來的提議才被對方接受。
第二個缺陷是"沒有原則保證"。讓AI來評價AI,這種方法沒有任何理論上的保障,說不清楚這樣的評價是不是公平,是不是準確,會不會系統性地偏向某些類型的話語。
SAVOIR框架的核心貢獻,就是用兩個來自博弈論的工具,徹底替換掉這種粗糙的評價方式。
---
二、向經濟學家借來的"公平分配"秘訣
SAVOIR框架的第一個工具,叫做"期望效用"(expected utility)。
繼續用廚師的比喻來理解。假設一道菜里有鹽、糖、醬油和蔥四種調料,廚師想知道每種調料對最終口味的貢獻有多大。"馬後炮"的方法是:菜做好之後,回想一下每種調料的作用。但SAVOIR的方法完全不同——對於每種調料的每種組合,廚師都實際烹飪一次,嘗一嘗味道,然後根據這些真實的烹飪結果來判斷每種調料的貢獻。
在對話訓練的語境下,SAVOIR的做法是這樣的:給定一段已有的對話,從中選出一部分句子,然後以這些句子為基礎,讓AI繼續把對話模擬完成,看看最終能得多少分。通過大量這樣的模擬,就可以評估出每一句話對"未來可能發生的對話"有多大的期望貢獻。這種視角是向前看的,而不是向後看——它關心的是"有了這句話,未來能走到哪裡",而不是"這句話對已經發生的結果起了多大作用"。
具體來說,對於任意一個句子的子集,SAVOIR會重建出包含這些句子的對話歷史,然後讓AI的兩個角色(對話雙方)從這個歷史狀態出發,繼續把對話演完,多次模擬取平均值,得到這個子集的"期望分數"。這個期望分數,就是對"這組句子的戰略價值"的量化評估。
SAVOIR的第二個工具,叫做"Shapley值"(Shapley value)。這個概念來自合作博弈論,是1953年由諾貝爾經濟學獎得主Lloyd Shapley提出的,專門用於解決"多方合作創造的價值應該如何公平分配"的問題。
以一個商業案例來類比:三個人合夥創業,A提供技術,B提供資金,C提供人脈。公司最終賺了100萬,這100萬怎麼在三人之間分配才公平?簡單地三等分顯然不對——也許沒有B的資金,A和C什麼都做不成;也許沒有C的人脈,前兩個人的努力會打水漂。Shapley值的思路是:考慮所有可能的加入順序,看A/B/C在每種順序下"加入之前和加入之後"的價值差異,取平均。這樣得出的分配方案,滿足四個公理:效率(所有分值加起來等於總價值)、對稱性(貢獻相同則分值相同)、空玩家(沒有貢獻則分值為零)、可加性(多個遊戲的分值可以疊加)。
把這個邏輯搬到對話訓練中:每一句話是一個"玩家",整段對話的評分是"總價值",Shapley值給出的就是每一句話在所有可能的句子組合中、平均貢獻了多少價值的公平估算。
這兩個工具的結合恰好是互補的:期望效用解決了"應該衡量什麼"的問題(向前看的戰略價值),Shapley值解決了"如何公平分配"的問題(有原則保障的歸因方式)。
---
三、計算上的"節省術":不用算所有組合也能得出答案
看到這裡,你可能會有一個疑問:如果一段對話有10句話,那它的子集就有2的10次方,也就是1024種可能的組合;如果有20句話,組合數就超過了100萬。每種組合都要模擬完整的對話,計算量豈不是天文數字?
這個問題是真實存在的,但SAVOIR藉助了一種叫做"KernelSHAP"的算法來大幅壓縮計算量。這個算法的核心思路是:不需要遍歷所有組合,只需要聰明地採樣其中一部分,就能用統計回歸的方式估算出每句話的Shapley值。
更聰明的地方在於"採樣策略"。KernelSHAP發現,並不是所有組合都同樣有價值。只包含一兩句話的小組合,能揭示單句話的獨立價值;只缺少一兩句話的大組合,能揭示句子之間的協同效應。這兩類極端組合提供的資訊最豐富,因此算法優先採樣這些組合,從而用更少的計算得到更準確的估計。
對於一段典型的含有16句話的對話,SAVOIR大約只需要評估98種組合,每種組合模擬兩次,共約196次模擬,就可以完成一段對話的功勞歸因計算。訓練7500段對話的獎勵模型標註,在兩塊高端GPU上總共花費約20小時,平均每段對話不到10秒鐘。更重要的是,這20小時是一次性的離線計算成本,一旦獎勵模型訓練完畢,後續AI模型的在線訓練和推理就與普通模型完全一樣,沒有額外的計算開銷。
---
四、從獎勵標註到訓練出"社交達人":三階段流水線
SAVOIR框架並不是孤立存在的,它嵌入在一個完整的三階段AI訓練流程中。
第一階段是數據收集。研究團隊讓GPT-4o與自身進行大量的"自我對話",也就是讓模型分別扮演對話雙方,在各種社交場景中完成對話。這些對話涵蓋談判、說服、合作、調解等多種類型,每段對話包含10到20個回合。這一階段產出的是原始對話素材,可以理解為廚師練習菜譜時留下的所有嘗試記錄。
第二階段是獎勵建模。這是SAVOIR算法真正發揮作用的地方。研究團隊對每段對話中的每一句話,用SAVOIR算法計算出Shapley獎勵值,然後用這些標註數據訓練一個獨立的"獎勵模型"——這個獎勵模型本質上是一個評分器,輸入對話歷史和某句話,輸出這句話的預期獎勵分數。獎勵模型用均方誤差(即預測值與真實Shapley值之間的差距)作為訓練目標,讓模型學會準確預測每句話的戰略價值。
第三階段是策略訓練。先用精選的對話數據對目標AI進行"監督微調"作為熱身,然後使用一種叫做GRPO的在線強化學習算法,讓AI在與獎勵模型的互動中不斷調整自己的對話策略。獎勵模型扮演的是"實時教練"的角色:AI說出每一句話,教練立刻評分,AI據此調整下一句話的方向。
整個評估體系採用SOTOPIA基準測試,這是學術界專門為評估AI社交智能設計的標準平台。它讓AI扮演各種社交角色,在談判、說服、合作等場景中完成帶有私人目標的任務,然後從七個維度評分:目標完成度(最主要的指標)、可信度(與角色設定的一致性)、關係維護、知識交流、秘密保護、社會規範遵守,以及財務結果(適用時)。
---
五、實驗結果:小模型干翻大模型,"聰明"不等於"會社交"
實驗結果在多個方面都出人意料。
在最具挑戰性的"SOTOPIA-Hard"測試場景下——這14個場景需要特別複雜的策略思維——當SAVOIR訓練出的70億參數模型與GPT-4o搭檔對話時,目標完成度(GOAL分數)達到了7.18分,比同場景下最強的對比方法(Sotopia-RL)高出7.5%。在"與自身對話"的測試設定下,SAVOIR達到7.93分,超過了此前最好的DSI方法的7.31分。
放到更大的範圍來看,SAVOIR的表現更令人印象深刻。在涵蓋90個場景的全量測試中,這個70億參數的小模型拿到了8.43分,超過了GPT-4o的8.19分和Claude-3.5-Sonnet的8.29分。
然而,真正讓研究者感到驚訝的,是另一組數據:那些以"推理能力超強"著稱的大型推理模型——包括OpenAI-o1、o3-mini、Gemini-2.5-Pro、DeepSeek-R1和QwQ-32B——全部表現不佳。以o3-mini為例,它在SOTOPIA-Hard自我對話場景下只拿到5.14分,而SAVOIR拿到7.93分,差距高達54.3%。
這個發現指向一個重要的推論:社交智能所需要的能力,與分析推理能力是性質不同的兩回事。大型推理模型擅長通過"慢慢想、細細推"來解決複雜的邏輯或數學問題,但社交場合中往往需要的是快速、直覺性的響應,而不是冗長的推理鏈條。這與劍橋大學此前一項發現相互印證——擴展推理過程並不能改善模型的角色扮演能力。
---
六、拆開看:到底是哪個部分在起作用?
研究團隊專門設計了消融實驗,來回答一個關鍵問題:SAVOIR的兩個核心組件——期望效用和Shapley值——各自貢獻了多少?
消融實驗構建了四種對比變體,並在SOTOPIA-Hard與GPT-4o搭檔的設置下評估。第一個是基準線(Sotopia-RL),使用傳統的LLM啟發式功勞歸因,目標完成度為6.68分。第二個是"僅期望效用"版本,用基於模擬的v({i})直接作為每句話的獎勵,不使用Shapley重新分配,得到6.89分,比基準線提升了3.1%。第三個是"僅Shapley值"版本,保留Shapley的分配方式,但把價值函數換回基於最終結果的簡單評估,得到6.96分,比基準線提升了4.2%。第四個是完整的SAVOIR,兩者結合,得到7.18分,總提升7.5%。
這個結果非常乾淨地說明了兩件事。其一,兩個組件各自獨立有效,期望效用帶來的"向前看"視角確實比"馬後炮"評估更有價值;Shapley值帶來的公理化公平歸因確實比啟發式LLM評價更準確。其二,兩個組件解決的是不同的問題——一個解決"衡量什麼",另一個解決"如何分配"——所以它們的效果是疊加的而不是重疊的,合併使用比任何一個單獨使用都更好。
---
七、越強的對手,越難對付——但SAVOIR依然領先
研究團隊還測試了SAVOIR在面對不同強度對手時的表現,探索其泛化能力的邊界。
當對話對手從GPT-4o換成更強的Claude 4.5-sonnet時,SAVOIR依然領先於Sotopia-RL,目標完成度從6.54分提升到6.64分(+1.5%),綜合分數從3.31提升到3.42(+3.3%)。這說明Shapley功勞歸因方式確實能在更強的對手環境下保持有效性。
然而,當研究團隊進一步測試Gemini-2.5-Pro和Gemini-3-Pro時,分數出現了明顯下滑。與Claude 4.5-sonnet相比,面對Gemini-2.5-Pro時,目標完成度下降了10.7%;面對Gemini-3-Pro時,下降了17.8%。這個趨勢說明,當對手的社交智能水平顯著超過訓練時所使用的對手水平時,模型的表現會受到較大影響。研究團隊認為,這一發現為未來的"課程學習"研究提供了方向——用逐步升級的對手來訓練AI,可能是突破這一局限的有效途徑。
---
八、數據越多越好:訓練數據規模的影響
研究團隊還系統地研究了獎勵模型的訓練數據量對最終效果的影響。
從2000段對話到7500段對話,目標完成度分數從6.23穩步攀升到7.18,漲幅達15.2%;綜合分數從2.98提升到3.51,漲幅17.8%。這條曲線並不是線性的——在3000到5000段對話之間出現了一個顯著的躍升,目標完成度一口氣漲了8.6%,這意味著大約有個"臨界點",一旦數據超過這個量級,模型對精細功勞歸因的理解就會發生質的突破。另外值得關注的是,7500段對話之後曲線仍在上升,說明繼續擴大數據規模大概率還能帶來進一步的提升。
---
九、人類評委說話了:專家怎麼看SAVOIR的獎勵質量?
光靠自動化指標還不夠,研究團隊邀請了五位專業評審員對SAVOIR進行了人工評估,覆蓋SOTOPIA-Hard全部14個場景。
評審員從三個維度進行評價。第一個維度是"響應策略性",評估AI回應的社交策略水平,採用1到5分制。SAVOIR獲得4.06分(標準差0.72),而Sotopia-RL獲得3.41分(標準差0.85),差距達到19.1%,統計顯著(p
這些人工評估結果從主觀視角確認了一件事:Shapley值的功勞歸因方式,確實比讓另一個AI來評價的方式更接近人類對社交策略的直覺判斷。
---
十、案例解析:SAVOIR如何"看穿"表面的禮貌
研究團隊精心挑選了若干實際案例,來說明SAVOIR的獎勵模型與傳統方法在判斷上的具體差異。
第一個案例來自家具銷售場景。賣家Noah在賣一套Crate & Barrel家具,其中梳妝檯缺少一個把手,但把手本身是有的。買家Ethan詢問情況,Noah回應道:"非常高興你感興趣!整套家具總體狀況良好,但正如我提到的,梳妝檯缺少一個把手。好在我們有那個脫落的把手。如果你能接受這個小瑕疵,我認為這套家具絕對物有所值。"
SAVOIR正確識別了這個回應的高質量:它不是簡單的客套話,而是一個精心設計的"透明度+解決方案"組合策略——先建立信任(承認瑕疵),再立即提供補救(把手還在),最後強化價值感(絕對物有所值)。傳統獎勵模型卻常常因為看到"缺少把手"這樣的負面表述,就直接判定這句話具有消極影響,完全沒有理解其中的策略框架。
第二個案例是長達8輪的Samsung Galaxy S8價格談判。買家從一開始的450美元出價,經歷多輪拉鋸,在第8輪採用了經典的"最後通牒+離場威脅"戰術:"如果480美元可以,我現在就能完成交易。如果不行,我恐怕只能繼續找其他家了。"SAVOIR識別出這是一個多輪謀劃之後的關鍵節點,這句話綜合運用了時間壓力、具體報價和可信退路三重策略,具有很高的戰略價值。傳統模型則可能把"繼續找其他家"這樣的表述理解為不合作或對抗性的語氣,給出較低評分。
第三個案例則展示了SAVOIR對過分表面禮貌的"免疫力"。情侶出行場景中,Sophia因為背痛想要分床睡,而她的伴侶Eli已經主動提出了多種解決方案。Sophia禮貌地表達感謝之後提出了分床睡的請求。傳統獎勵模型容易被"感謝"和"體貼"這類表面禮貌詞彙迷惑,給出很高評分。但SAVOIR的判斷更為精準:這個回應在工具性目標(分床睡)上是合理的,但在關係維護維度上存在風險——在伴侶剛剛主動示好之後立即提出分開睡,可能會被解讀為拒絕,對關係有潛在的負面影響。因此SAVOIR給出的是中等而非高分評價,體現了對社交權衡的細膩感知。
---
說到底,這項研究告訴我們的是:AI想要真正"懂社交",需要的不只是更大的模型、更多的數據,或者更強的推理鏈條。它需要的是一種更根本的重新定位——從"回顧已發生的事情"轉向"預見可能發生的事情",從"憑感覺分配功勞"轉向"按原則公平歸因"。
SAVOIR框架將博弈論中兩個成熟的工具——期望效用理論和Shapley值——引入了AI社交訓練領域,證明了這種跨學科借鑑的實際價值。一個70億參數的模型在社交智能測試中匹敵乃至超越千億參數級的商業大模型,這本身就足以說明問題:能力的邊界,有時候不在於規模,而在於訓練方式是否擊中了真正重要的東西。
那些天天嚮往更強的"推理能力"的大型模型,在社交測試中全線敗給這個經過精心調教的小模型,這或許是一個值得反覆咀嚼的提醒:人與人之間的對話,從來不是一道需要慢慢推導的數學題。
有興趣深入探索這套框架的讀者,可以通過arXiv編號2604.18982找到完整論文,研究團隊也在GitHub上開放了相關代碼。
---
Q&A
Q1:SAVOIR框架中的Shapley值是什麼意思,和普通的AI評分方式有什麼不同?
A:Shapley值來自經濟學中的博弈論,專門解決"多人合作的成果如何公平分配"的問題。在SAVOIR中,對話里每一句話都被當作一個"參與者",Shapley值通過計算這句話在各種不同句子組合中平均增加了多少價值,來估算它的真實貢獻。與普通做法(讓另一個AI讀完對話後憑感覺評分)相比,Shapley值有四條數學上可以證明的公平性保證,不依賴任何主觀判斷,結果更可靠、更一致。
Q2:為什麼推理能力強的大模型在社交測試中表現反而更差?
A:大型推理模型(比如OpenAI-o1)的核心優勢在於"慢思考"——通過長鏈條的邏輯推導解決複雜問題,擅長數學、編程和邏輯推理。但社交對話要求的是快速、直覺性的響應,在合適的時機說出合適的話,過度分析反而會讓回應顯得生硬或者錯過最佳節點。這與人類的生活經驗也相符:一個在解方程上很厲害的人,在飯桌上不一定是最會聊天的那個。
Q3:SAVOIR訓練出來的AI模型,在面對比它更聰明的對手時還有用嗎?
A:有用,但有邊界。實驗顯示,SAVOIR模型在面對Claude 4.5-sonnet這樣的強對手時依然能領先於對比方法;但當對手升級到Gemini-2.5-Pro和Gemini-3-Pro時,得分下降明顯(最高下降約18%)。這說明用固定水平的對手訓練出來的模型,泛化能力是有上限的。研究團隊認為,未來可以通過"從弱到強逐步升級對手難度"的課程學習方式來突破這個瓶頸。






