這項由蘇州大學電腦科學與技術學院、阿里雲Qwen點金團隊以及廈門大學聯合開展的研究,於2026年4月發布在預印本平台arXiv,論文編號為arXiv:2604.17972。有興趣深入了解原始研究細節的讀者,可通過該編號查詢完整論文。
當你情緒低落、向朋友傾訴時,一個真正懂你的朋友會怎麼回應你?他不會只是乾巴巴地說一句"你要堅強",也不會只是機械地問一個問題,而是先認真傾聽你的心情,然後分享他自己的類似經歷,緊接著給你一些實際建議,甚至在同一段話里,把這幾件事自然地融合在一起。這種"一次說多件事"的溝通方式,其實正是人類在安慰彼此時最本能的表達習慣。
然而,當AI被訓練去承擔"情感支持對話"這項任務時,研究者們長期以來給它設置了一個過於簡單化的規則:每次回應只能用一種"招式"。就好像規定一個廚師每道菜只能用一種烹飪手法——要麼只煎,要麼只蒸,要麼只燉——但永遠不能在同一道菜里組合技法。這當然與現實中的廚藝相去甚遠。
蘇州大學的研究團隊敏銳地發現了這個問題,並正面回應了一個此前幾乎沒有人系統研究過的問題:允許AI在同一句話里同時使用多種支持策略,究竟是好事還是壞事?這個問題看似簡單,答案卻並不顯而易見,因為允許更多策略也可能帶來更多噪音和混亂。研究團隊為此設計了兩種全新的生成方法,並引入認知推理和強化學習來加強模型表現,最終通過大量實驗給出了一個清晰的答案。
一、情感支持對話是什麼,為什麼它很難
在正式進入研究內容之前,有必要先理解一下背景。所謂"情感支持對話",指的是通過自然語言交流來幫助正在經歷痛苦的人——提供理解、認可和應對指導。研究者們使用的核心數據集叫做ESConv,這是2021年由劉思陽等人基於Hill的助人技能理論(《幫助技能:促進探索、洞察與行動》)構建的一個專門數據集,包含1300段經過標註的情感支持對話,已成為該領域最重要的基準測試集之一。
這個數據集裡一共標註了八種支持策略,分別是:提問(引導對方說出感受和情況)、複述或改述(用自己的語言重述對方說的話以確認理解)、反映感受(直接承認並認可對方的情緒)、自我披露(在適當時候分享自己的類似經歷)、肯定與安慰(提供安慰以減輕對方的焦慮或痛苦)、提供建議(給出實際可操作的建議)、提供資訊(給出與情況相關的事實性解釋)以及其他類別。
這就像廚師有八種烹飪手法可以選擇。過去的AI系統每次只能選一種,而研究團隊從數據本身發現,現實中這樣做是不夠的。在ESConv數據集的15325條"支持者回應"中,有整整17.7%的回應同時使用了兩種或更多策略。換句話說,幾乎五分之一的時候,真實的支持者並不滿足於只用一種方法。數據集裡還有將近1638條使用兩種策略的回應,178條使用三種策略的回應,甚至還有26條同時用了超過三種策略的情況。
論文中給出了一個具體而生動的對話例子。一個在新冠疫情封控期間感到焦慮煩躁的人,在向支持者傾訴自己的孤獨感和不耐煩情緒時,支持者給出了這樣一段回應——它先用"自我披露"的方式說"我自己最近也感覺越來越容易對身邊的人失去耐心",再用"肯定與安慰"說"我也是個內向的人,一開始還挺享受封控的,但隨著時間拖長就真的難受了",最後用"提問"說"你有沒有找到什麼保持體力活動的方法?"。這三種策略在同一段話里自然流動,完整而真實。
這就是研究團隊要解決的真實問題:如何讓AI學會這種"組合出招"的能力?
二、兩種截然不同的"出招方式"
研究團隊設計了兩種核心方法,可以把它們理解為廚師在準備一頓飯時的兩種不同工作流程。
第一種叫做"All-in-One"(一鍋端),顧名思義,就是讓AI一次性把所有策略和回應都預測出來,放在同一次輸出里。具體的格式是把每種策略緊跟在它對應的回應文字之前,然後把所有這些"策略+回應"的組合依次拼接在一起,形成一個完整的結構化序列。這就像一個廚師在腦子裡把整道菜的所有步驟都想清楚,然後一口氣列出完整菜譜:先煎再蒸再淋汁,同時交代每步怎麼做。訓練時,模型學習的目標是在給定對話歷史的條件下,最大化這整個輸出序列出現的概率。
第二種叫做"One-by-One"(一步一步來),更接近人類思考的方式。在這個方法裡,AI並不試圖一次性預測所有內容,而是每次只預測一種策略和對應回應,同時還需要預測一個"繼續標誌"——也就是告訴系統:我現在說完了,接下來要不要繼續再說一段?如果標誌是"繼續",系統就再走一遍這個流程,選擇下一個策略並生成對應回應;如果標誌是"停止",整次回應就結束了。為了防止模型無休止地輸出,研究團隊設置了上限K=3,因為數據集裡幾乎所有的多策略回應都不超過三種策略。這就像廚師在烹飪時邊做邊決策:先把第一道菜做好,然後判斷這頓飯是否完整,不完整就繼續做第二道,直到覺得夠了為止。
這兩種方法各有特點。"一鍋端"方式更簡潔直接,但同時預測多個策略的壓力更大,容易引入噪音。"一步一步來"方式把複雜任務拆解為多個較小的決策,讓模型在每一步都能更專注,但需要額外學習"什麼時候該停"這件事。
三、讓AI學會"先想再說"
單純的格式訓練還不夠。研究團隊發現,要讓AI真正理解什麼時候該用哪種策略、為什麼這麼用,需要給它配備一種"思考骨架"——一種在給出最終回應之前,先進行結構化推理的能力。
研究者們為此引入了認知推理鏈,這是一種由四個節點構成的思考框架。第一個節點叫"情境節點",用於捕捉當前對話中對方所面臨的外部處境和關鍵情感信號,比如"這個人正在為找不到工作而焦慮"。第二個節點叫"認知節點",用於推斷對方內心的解讀和信念,比如"他覺得自己失去了生活的方向感"。第三個節點叫"情緒節點",用於描述從這些認知中湧現出的情緒狀態,比如"他感到沮喪和無力"。第四個節點叫"支持計劃節點",用於規劃即將採用的支持策略及其順序和目的。
把這四個節點想像成一個偵探在開口說話之前的內心獨白:先看清楚現場(情境),再推測嫌疑人的動機(認知),再感受一下情緒氛圍(情緒),最後制定行動方案(支持計劃)。這種"先思後言"的結構,讓AI不再是基於表面文字做機械匹配,而是像真正的支持者一樣,在開口之前先進行了一番內心分析。
在最終輸出格式上,這種推理過程被封裝在一個"思考標籤"里,最終的回應文字則放在"回答標籤"里。模型同時學習這兩部分,但實際對話中用戶看到的只是"回答標籤"里的內容。
為了讓這份"思考內容"儘可能高質量,研究團隊並沒有人工標註,而是向四個強大的AI模型"取經":DeepSeek-R1、Qwen3-235B、GPT-5和Gemini-2.5-Flash。他們讓這四個模型分別根據給定的對話歷史和支持者回應,生成相應的認知推理鏈,然後把這些"老師"的思考過程用於訓練自己的小模型。
向多個老師學習而非只跟隨一個老師,是這個設計中一個頗具匠心的選擇。後續實驗也印證了這個決策的價值:沒有任何一個單一老師在所有指標上都最優,GPT-5在某些指標上最好,Gemini在另一些指標上最好,DeepSeek-R1在另外的指標上最好,但把四個老師的思路全部綜合起來之後,學生模型在所有指標上都達到了最穩定、最全面的表現。
四、用"獎懲機制"讓模型越練越准
認知推理解決了"怎麼想"的問題,而強化學習則負責解決"怎麼越練越好"的問題。研究團隊在有監督訓練之後,進一步用GRPO(一種群體相對策略優化算法)對模型進行強化訓練。
強化學習的核心邏輯與行為心理學如出一轍:做對了就獎勵,做錯了就不獎勵,通過大量試錯讓模型逐漸學會什麼樣的輸出是高質量的。在這項研究中,獎勵設計非常具體。首先有一個格式獎勵,只有當模型的輸出完全符合要求的結構時,才有資格獲得進一步的獎勵——這就像考試答題時格式不對直接扣分。
在格式合規的前提下,針對兩種不同方法,研究團隊分別設計了有針對性的獎勵函數。對於"一鍋端"方法,獎勵函數基於"Levenshtein比率"來衡量預測的策略序列與參考序列之間的相似度。Levenshtein距離是資訊學中用來衡量兩個字符串之間差異的標準指標,簡單說就是"最少需要多少步操作才能把一個序列變成另一個序列"——刪除、插入、替換各算一步。獎勵值越高,說明預測的策略順序越接近正確答案。由於多策略樣本在數據中占少數,研究團隊還對單策略樣本進行了降採樣處理,以平衡獎勵分布,避免模型偷懶只學簡單情況。
對於"一步一步來"方法,獎勵函數在策略準確度之外還加了一個維度:停止標誌預測是否正確。也就是說,模型不僅要猜對"該用哪個策略",還要猜對"這個策略說完之後到底要不要繼續"。這個額外的獎勵信號讓模型在學習策略內容的同時,也學會了合理控制輸出節奏。
五、實驗怎麼做、效果如何
研究團隊在兩個層面上對方法進行了評估,就像既檢驗廚師每道菜的味道,又評估整頓飯下來客人是否吃得滿意。
在"單句評估"層面,模型針對已知的對話歷史預測下一條支持者回應,然後與數據集中的參考答案對比。評估指標包括:策略預測的精確匹配率(預測的策略序列與參考序列完全一致的比例)、Levenshtein比率(策略序列相似度)、平均長度差異(生成回應的長度與參考回應的差距),以及BLEU分數(衡量詞彙重合度的常用機器翻譯指標)、ROUGE分數(衡量文本覆蓋度的另一類指標)和BERTScore(用預訓練語言模型計算語義相似度的指標)。
在這項評估中,基準線是傳統的"單策略"方法,也就是每次只預測一個策略和回應。實驗結果呈現出幾個清晰的規律。
"一鍋端"方法在策略精確匹配率上略低於單策略基準(23.61%對25.21%),這並不意外——同時預測多個策略本就比預測一個更難。但"一步一步來"方法幾乎保住了基準線的精確匹配率(24.99%對25.21%),表明逐步生成的方式有效緩解了這個問題。更重要的是,兩種多策略方法在文本生成質量上都超過了單策略基準——BLEU、ROUGE和BERTScore均有提升,說明即使策略預測難度更高,最終生成的回應質量反而更好。
加入認知推理之後,兩種方法的表現都出現了全面提升。以"一鍋端+推理"為例,精確匹配率從23.61%跳升到29.72%,ROUGE-L從18.27提升到20.10。進一步加入強化學習之後,"一鍋端"方法的各項指標繼續穩步提升,"一步一步來"方法在大多數指標上也有改善(BLEU分數略有波動,但整體向好)。
研究團隊還專門對"只含單策略的回應"和"含多策略的回應"分別進行了分析。結果表明,對於單策略回應,多策略模型在基礎設置下略遜於單策略基準,但加入推理和強化學習後便完全反超。對於多策略回應,單策略基準幾乎毫無還手之力(精確匹配率為0),而多策略方法配合推理和強化學習之後,能夠取得顯著更好的結果。
在"對話評估"層面,研究團隊搭建了一個"角色扮演"測試環境:用GPT-5模擬有情感困擾的求助者,讓不同的模型扮演支持者,兩者進行完整的多輪對話,最多進行10輪。每輪對話結束後,再用GPT-5作為裁判,評估求助者的情感狀態是否有所改善,並為改善程度打分。整個對話結束後,如果最終評分超過預設閾值,該次對話被認定為"成功"。評估指標包括平均對話輪數(越少說明越高效)、對話成功率(越高說明越有效)和每次對話平均使用策略數。
在這項評估中,三個頂級商業大模型(GPT-5、DeepSeek-R1和Qwen3-235B)在沒有專項微調的情況下,在10輪內的成功率均為0%,充分說明這項任務的專業性。相比之下,單策略微調模型的成功率為13.85%,"一鍋端"多策略模型達到17.69%,"一步一步來"多策略模型達到16.15%。加入推理和強化學習後,"一鍋端+推理+強化學習"的成功率達到34.62%,"一步一步來+推理+強化學習"的成功率更是躍升至40.00%,同時對話輪數也降至最低的8.46輪,是所有方法中效率最高的。
研究團隊還觀察了強化學習過程中的學習曲線。一個頗為有趣的現象是:在訓練初期(前4步),模型生成多策略回應的比例會略有下降,對話成功率也隨之短暫下滑——就像一個廚師在學習新技法初期手忙腳亂,反而做壞了幾道菜。但從第4步之後,模型開始穩步增加多策略回應的使用,對話成功率也隨之持續攀升,最終顯著超越了起點水平。
此外,研究團隊還進行了人工評估。三位專業標註員對同一個求助者與三套不同系統(單策略、"一鍋端+推理+強化學習"、"一步一步來+推理+強化學習")的完整對話分別打分,從問題識別、情感安慰、建議質量和整體效果四個維度進行排名(1分最好,3分最差)。結果顯示,兩種多策略方法在所有維度上都優於單策略方法,其中"一鍋端"方法在建議質量這個維度上表現尤為突出,得到了1.62的平均排名。
六、研究的邊界與局限
任何研究都有其邊界,這項研究也不例外。研究團隊坦率地指出了三個主要局限。
其一,即便加入了推理和強化學習,模型生成多策略回應的比例仍然遠低於真實數據中的水平。真實數據集裡有18.9%的回應包含兩種以上策略,而即使是表現最好的方法,這個比例也只能達到8.4%("一鍋端")和7.7%("一步一步來")——訓練數據中單策略樣本的壓倒性多數,使模型始終偏向於生成更簡單的輸出。
其二,對話評估使用的是GPT-5模擬的求助者,而不是真實人類。機器模擬的求助者可能無法完整還原真實情感交流的複雜性和不可預測性,這使得對話層面的評估結果需要謹慎解讀。
其三,所有實驗都在ESConv這一個數據集上進行,是否能推廣到其他情感支持對話場景或其他語言環境,尚待進一步驗證。
研究團隊也在論文的倫理部分明確指出:這套系統是為改善日常情感支持對話而設計的,不應被用於替代專業心理或醫療援助,在高風險和危機場景中的部署需要額外的安全機制和人工監督。
說到底,這項研究做的事情可以用一句話來概括:它證明了AI情感支持系統在同一句話里同時使用多種支持策略,不僅是技術上可行的,而且確實能帶來更好的效果。從17.7%的真實數據觀察出發,經過兩種生成方法的設計、認知推理框架的引入、多模型知識蒸餾、強化學習的磨練,以及單句和對話兩個層面的系統驗證,研究團隊給出了一個紮實的實證答案。
這對普通人意味著什麼?隨著AI情感支持工具越來越多地進入生活——無論是心理健康APP、在線輔導平台還是各類聊天機器人——這項研究所提出的方法,可能讓這些工具的對話質量更接近於真實的人類支持者,而不是停留在"每次只說一件事"的機械模式。當然,從實驗室里的數字提升到真實世界裡被人真正感受到的溫度,還有很長的路要走。
如果你對這項研究產生了好奇,可以通過arXiv論文編號2604.17972找到完整的原始論文,那裡有更多技術細節和完整的實驗數據。
Q&A
Q1:ESConv數據集是什麼,為什麼情感支持對話研究都在用它?
A:ESConv是2021年由劉思陽等人構建的情感支持對話數據集,包含1300段真實模擬的情感支持對話,每句支持者的回應都標註了具體使用了哪種支持策略,一共有八類策略。因為它是目前唯一一個既有對話內容、又有細粒度策略標註的公開數據集,所以成了該領域最重要的基準測試集。研究者們用它來訓練和評估AI系統是否能像真人支持者那樣合理地選擇和使用支持策略。
Q2:All-in-One和One-by-One兩種方法的核心區別是什麼?
A:核心區別在於生成節奏。All-in-One方法讓AI在一次輸出中同時預測所有策略和回應,相當於一口氣交出完整答案。One-by-One方法則讓AI每次只預測一個策略和對應回應,同時判斷要不要繼續,不斷疊代直到停止。實驗結果顯示One-by-One在策略精確匹配率上更接近單策略基準,而且配合推理和強化學習後在對話成功率上表現最好,達到了40%。
Q3:認知推理鏈里的四個節點在實際對話中起什麼作用?
A:四個節點相當於AI在開口之前的內心分析過程。情境節點讓AI先理解對方面臨的外部處境,認知節點幫助AI推斷對方內心的想法和信念,情緒節點識別對方當下的情緒狀態,支持計劃節點規划具體要用哪些策略、按什麼順序說。這四步分析完成之後,AI才生成最終回應。研究表明加入這個推理框架後,策略預測準確率和文本生成質量都明顯提升。






