宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

AI大模型如何像人類社會一樣「開會討論」?

2026年02月03日 首頁 » 熱門科技

當你在準備一份重要報告時,腦海里可能會出現這樣的場景:一個聲音說"先分析數據吧",另一個聲音反駁"等等,我們得先理清框架",還有一個聲音跳出來說"你們考慮過用戶需求嗎?"這種內心的"多聲部"對話,竟然也在最先進的AI推理模型中發生著。這項由Google、芝加哥大學和聖菲研究所聯合完成的研究發表於2026年1月,該研究揭示了一個驚人的發現:像DeepSeek-R1這樣的推理模型之所以能解決複雜問題,並不僅僅因為它們"想得更久",而是因為它們學會了在內部模擬一個"思想社會",讓不同的認知視角進行討論、爭論和協調。

想起那句老話:"三個臭皮匠,勝過諸葛亮。"人類社會早就發現,團隊合作往往能產生比個人更好的決策。當一群人聚在一起解決問題時,有人提出大膽想法,有人質疑細節,有人負責協調矛盾,這種多元視角的碰撞常常能找到最優解。研究團隊發現,最新的AI推理模型竟然自發地學會了類似的策略。它們在解題時不是一條路走到黑,而是在內部創造了多個"虛擬角色",這些角色有著不同的性格特徵和專業知識,相互提問、辯論、質疑,最終達成共識。

這項研究分析了超過8000個推理問題,涵蓋數學、科學、邏輯等多個領域。研究人員對比了DeepSeek-R1、QwQ-32B這樣的推理模型和普通的指令微調模型。他們驚訝地發現,推理模型的思考過程更像是一場多人會議,而不是一個人的獨白。這些模型會在內部提出問題、轉換觀點、製造觀點衝突,甚至協調不同意見,這些都是人類群體討論時的典型特徵。研究還發現,當面對更難的問題時,這種"社會化"的思考模式會變得更加明顯。

推理模型內藏"對話機制"

研究團隊首先想知道,這些推理模型的思考軌跡中到底有沒有對話的痕跡。他們定義了四種對話行為:自問自答、觀點轉換、觀點衝突和觀點協調。自問自答就像你在解題時問自己"這個方法行得通嗎",然後給出答案。觀點轉換是指考慮不同的解決路徑,比如"也許我們應該換個角度"。觀點衝突則是不同想法之間的激烈碰撞,像"不對,這個假設有問題"。觀點協調是把相互矛盾的想法整合到一起,找到平衡點。

AI大模型如何像人類社會一樣「開會討論」?

研究使用大語言模型作為評判員,分析了每個推理軌跡是否包含這些對話行為。結果令人震驚。DeepSeek-R1在自問自答方面的表現比其對應的非推理模型DeepSeek-V3高出34.5個百分點,觀點轉換高出21.3個百分點,觀點協調高出19.1個百分點。QwQ-32B表現更加突出,自問自答高出45.9個百分點,觀點轉換高出37.8個百分點,觀點衝突高出29.3個百分點,觀點協調高出34.4個百分點。相比之下,普通的指令微調模型無論參數有多少(從8億到6710億),都幾乎不顯示這些對話特徵。

研究還深入分析了模型表現出的社會情感角色。這裡借用了心理學家貝爾斯的"互動過程分析"理論,該理論將群體互動分為12種角色,包括詢問資訊、提供資訊、表達贊同、表達反對等。研究發現,推理模型不僅會"提供"資訊,還會"詢問"資訊,不僅有"積極"的角色(如贊同、團結),還有"消極"的角色(如反對、對抗)。這種雙向互動的平衡性正是人類有效討論的標誌。DeepSeek-R1在詢問行為上比DeepSeek-V3高出18.9個百分點,消極角色高出16.2個百分點,積極角色高出27.8個百分點。

更有趣的是,研究用"傑卡德指數"衡量了角色配對的平衡性。這個指數可以理解為一種"搭檔默契度"——如果一個推理軌跡既有詢問又有回答,既有批評又有贊同,那麼這個指數就會很高,說明模型在真正進行多角度思考,而不是偏向某一種模式。DeepSeek-R1在詢問與給予的配對上比DeepSeek-V3高出22.2個百分點,在積極與消極角色的配對上高出18.9個百分點。這些數據都表明,推理模型確實在內部建立了某種"社會結構",而不是簡單的獨角戲。

研究還驗證了一個直覺:越難的問題,越需要這種"社會化"思考。研究人員用兩種方式衡量問題難度,一是讓外部大語言模型評估複雜度,二是看普通指令微調模型在這些問題上的錯誤率。兩種方式都顯示,當DeepSeek-R1面對更複雜的問題時,對話行為和社會情感角色會更加頻繁地出現。比如研究生水平的科學問題和複雜數學題都表現出強烈的對話模式,而簡單的布爾表達式和基本邏輯推理題則很少顯示對話特徵。

為了搞清楚這些對話行為到底有沒有實際作用,研究團隊建立了結構方程模型,分析對話行為如何影響準確率。結果顯示,對話行為和社會情感角色既直接提升準確率,又通過促進有用的認知策略(如驗證、回溯、設置子目標、逆向推理)間接提升準確率。這意味著"社會化"思考不是花架子,而是真正幫助模型更好地探索解決方案空間。

操控對話特徵能讓AI變聰明

看到對話行為如此普遍,研究人員想進一步驗證:如果人為增強或抑制這些對話特徵,會不會直接影響推理能力?他們使用了一種叫"稀疏自編碼器"的技術,可以把模型內部的神經網路激活分解成數萬個可解釋的特徵。這就像給大腦做功能成像,看哪些區域負責哪些功能。

研究人員從32768個特徵中篩選出一個特別的特徵——編號30939。這個特徵被描述為"表示驚訝、領悟或認同的話語標記",在對話場景中激活率高達65.7%,位列所有特徵的前1%。它經常在"哦!""等等!""原來如此!"這類詞彙上激活,正是對話中觀點轉換的典型標誌。研究選擇這個特徵是因為心理學研究表明,驚訝的表達往往標誌著觀點的碰撞和協調,是社會互動的重要信號。

研究人員用了一個經典的數學推理任務——"倒計時遊戲"來測試這個特徵的作用。在這個遊戲中,模型需要用給定的幾個數字,通過加減乘除和括號,湊出一個目標數字。比如給你25、30、3、4四個數字,要湊出32,一個有效答案是(30-25+3)×4=32。這需要多步推理和試錯。

AI大模型如何像人類社會一樣「開會討論」?

實驗結果令人震驚。當研究人員以+10的強度增強這個"驚訝"特徵時,模型在倒計時遊戲中的準確率從27.1%直接躍升到54.8%,幾乎翻了一倍!而當以-10的強度抑制這個特徵時,準確率反而下降到23.8%。更重要的是,增強這個特徵不僅提高了準確率,還同時增加了所有四種對話行為的頻率:自問自答增加了大約2.2倍,觀點轉換增加了1.16倍,觀點衝突增加了1.06倍,觀點協調增加了0.42倍。抑制這個特徵則相反,所有對話行為都顯著減少。

AI大模型如何像人類社會一樣「開會討論」?

為了排除這只是碰巧選對了一個特徵的可能性,研究人員又對比了隨機選擇的對話特徵和非對話特徵。結果顯示,增強"驚訝"特徵帶來的準確率提升遠超隨機對話特徵,而隨機對話特徵的效果也顯著好於非對話特徵。這說明對話相關的特徵確實有助於推理,而不是任意擾動模型都能改善表現。

研究還深入挖掘了這個特徵提升準確率的機制。他們發現,增強"驚訝"特徵會系統性地增加四種關鍵認知行為:驗證(檢查之前的假設)增加了5.82倍,回溯(發現錯誤後返回重試)增加了0.88倍,設置子目標增加了0.62倍,逆向推理增加了0.81倍。這些都是已知能夠提升推理能力的策略。相反,抑制這個特徵會減少這些認知行為。

通過結構方程模型,研究人員分離出了直接效應和間接效應。增強"驚訝"特徵對準確率有0.228的直接效應,同時還有0.066的間接效應,這個間接效應是通過促進驗證、子目標設置和逆向推理實現的。這說明對話特徵既能直接幫助模型更好地探索解決空間,又能通過激發有效的認知策略來提升表現。研究人員還展示了具體的推理軌跡變化:增強"驚訝"特徵後,模型會主動質疑之前的方法,說"等等,讓我想想...還有另一個辦法...",顯示出觀點轉換和衝突;而抑制這個特徵後,推理變得平鋪直敘,缺乏內部辯論。

推理模型內部有多個"人格"

既然推理模型表現出對話特徵,那麼這些對話是否真的來自不同的"視角"或"聲音"?就像人類團隊討論時,每個成員有不同的性格和專長,推理模型內部是否也有類似的多樣性?研究人員用大語言模型作為評判員,分析每個推理軌跡中隱含了多少個不同的"視角",以及這些視角在性格特徵和專業知識上有多大差異。

研究人員首先用心理學中的"大五人格模型"評估了每個視角的性格特徵,包括外向性、親和性、神經質、開放性和盡責性。外向性代表是否善於社交,親和性代表是否容易合作,神經質代表情緒波動程度,開放性代表對新想法的接受度,盡責性代表做事是否嚴謹。然後,研究人員計算了每個推理軌跡中這些性格特徵的標準差,作為性格多樣性的衡量標準。

結果顯示,DeepSeek-R1在外向性上的多樣性比DeepSeek-V3高出0.103個標準分,親和性高出0.297,神經質高出0.567,開放性高出0.110。QwQ-32B的表現更突出,外向性多樣性高出0.253,親和性高出0.490,神經質高出0.825,開放性高出0.268。特別是親和性和神經質的巨大差異,暗示推理模型內部的"聲音"更容易產生分歧和情緒反應,這正是有效辯論的特徵。有趣的是,盡責性的多樣性在推理模型中反而更低,這意味著推理模型的所有"聲音"都表現得更加勤奮和專注。研究人員指出,這種模式與人類團隊研究的發現一致:外向性和神經質的多樣性能提升團隊表現,而盡責性的多樣性可能損害協作效率。

研究還分析了專業知識的多樣性。他們讓大語言模型推斷每個視角的專業領域,比如理論物理、分析推理、金融、創意寫作等,然後計算這些專業描述在語義空間中的平均距離。距離越大,說明專業知識越多樣化。DeepSeek-R1的專業多樣性比DeepSeek-V3高出0.179個標準分,QwQ-32B比Qwen-2.5-32B-IT高出0.250個標準分。這說明推理模型不僅在性格上更多樣化,在專業知識上也更加廣泛地調用不同領域的視角。

為了驗證這種多樣性是否真實反映在模型內部,研究人員再次使用稀疏自編碼器技術,這次分析的是與性格和專業相關的特徵。他們首先把32768個特徵分類為性格相關(如熱情、沮喪)、專業相關(如編程術語、金融概念)或其他。然後,他們操控之前的"驚訝"特徵,觀察這如何影響性格和專業特徵的激活。

研究用兩個指標衡量多樣性:覆蓋度和熵。覆蓋度是指激活了多少個不同的性格或專業特徵,熵則衡量激活是否均勻分布,而不是集中在少數幾個特徵上。結果顯示,增強"驚訝"特徵(+10強度)會讓推理軌跡激活更多的性格相關特徵(增加315.9個)和專業相關特徵(增加391.3個)。同時,熵也顯著提高,性格特徵熵增加0.262,專業特徵熵增加0.096,說明激活更加均勻分布,而不只是簡單地產生更多輸出。

具體來看,增強"驚訝"特徵後,一些有趣的性格特徵被更頻繁地激活,比如"表達困惑或沮喪的非正式表達"(特徵21065)、"與社交互動和社區參與相關的短語"(特徵26139)、"敘事中的情感或轟動性主題"(特徵14476)。這些特徵都與社交和情感表達密切相關,進一步證明對話特徵激活了更豐富的"社會性"思考模式。

研究還通過一個有趣的方式驗證了大語言模型評判員識別不同"聲音"的準確性。他們使用了一個包含1196段真實人類辯論對話的數據集,每段對話有2到8個參與者。研究人員移除了說話人標籤,把對話合併成一整塊文本,然後讓大語言模型評判員猜測有多少個不同的人在說話。結果顯示,評判員的預測與實際人數高度相關(斯皮爾曼相關係數0.86),在兩個人對話時準確率82%,三個人時76%,四個人時69%。這說明大語言模型確實能夠捕捉到對話中不同"聲音"的特徵,即使沒有明確的標籤。

AI能自己學會"開會"嗎?

前面的發現都是基於已經訓練好的推理模型,比如DeepSeek-R1。但研究人員想知道:如果我們只獎勵AI答對題,不告訴它要用對話方式思考,它會不會自發地學會"開會討論"?為了回答這個問題,研究團隊進行了一個受控的強化學習實驗。

他們選擇了一個未經任何指令微調的基礎模型Qwen-2.5-3B,讓它解決倒計時遊戲。獎勵機制非常簡單:答對了給0.9分,格式正確(把思考過程放在標籤里,答案放在標籤里)給0.1分。注意,這裡完全沒有獎勵對話行為,只獎勵準確性和格式。

實驗結果令人驚訝。隨著訓練進行,模型的準確率從接近零逐步提升到58%左右。與此同時,對話行為的頻率也在增加,儘管這些行為並沒有被直接獎勵。自問自答和觀點衝突的頻率持續上升,觀點轉換也在增加。唯一沒怎麼增加的是觀點協調,這暗示模型內部的不同方法在競爭,而不是形成有效的整體。

研究人員對比了訓練第40步和第120步的推理軌跡。第40步時,模型主要進行線性的思維鏈推理,像一個人在自言自語。到了第120步,出現了兩個明顯不同的模擬人格,它們甚至使用"我們"這個代詞來表示集體性。研究人員用大語言模型分析了這兩個人格的特徵。第40步的單一人格顯示出全能型問題解決者的特徵:高盡責性、中等開放性和親和性、較低外向性和極低神經質。而第120步出現的兩個協作者則表現出差異化的人格:一個強調試錯式問題解決,外向性較低但親和性較高;另一個專注於元認知推理,評估不同方法的可行性,開放性較高但盡責性明顯較低。

AI大模型如何像人類社會一樣「開會討論」?

這個實驗表明,即使完全不獎勵對話行為,模型也會自發地學會使用對話結構,因為這種結構能幫助它們更好地探索解決方案空間,從而獲得更高的準確率獎勵。對話不是被外部強加的風格,而是模型為了達成目標自然湧現的策略。

研究還做了一個對比實驗:如果在強化學習開始前,先讓模型接觸一些對話式的推理樣本,會不會加速它的學習?他們準備了三種初始數據:基線(沒有預訓練)、對話式推理樣本、獨白式推理樣本。獨白式樣本雖然也能得到正確答案,但缺乏對話特徵,更像是一個人的流暢陳述。

結果顯示,用對話式樣本預熱的模型在強化學習早期階段學得更快,準確率提升速度明顯超過基線和獨白式預熱的模型。到訓練第250步時,對話式預熱的模型準確率達到78%,而基線和獨白式預熱的模型只有58%。更重要的是,對話式預熱的模型從一開始就表現出更多的對話行為,而且這些行為的頻率隨著訓練保持穩定甚至增加。相比之下,獨白式預熱的模型雖然一開始準確率略高於基線,但很快就被對話式模型超越。

研究還在另一個任務(政治錯誤資訊檢測)和另一個模型系統(Llama-3.2-3B)上重複了這個實驗,得到了類似的結果。這進一步證明,對話結構不僅在簡單的算術任務上有用,在更廣泛的推理任務中也能加速學習。

這個發現的意義在於:對話結構提供了一種"腳手架",幫助模型更快地發現和完善推理策略。即使最終目標只是準確率,提供初始的對話框架也能顯著加速達成這個目標的過程。這就像教孩子解題時,鼓勵他們自問自答、考慮多種方法,比直接告訴答案更能培養思維能力。

思想的社會本質

這項研究提出了一個深刻的觀點:推理模型不是簡單地生成更長或更精細的思維鏈,而是展現出一種社會化和對話化的思考過程,形成"思想社會"。它們會提出問題、引入替代觀點、產生並解決衝突、協調不同的社會情感角色。這些互動模式在不同規模的非推理模型中都很少出現(從80億到6710億參數),即使控制了推理軌跡長度,這說明推理優化引入了一種內在的社會結構,而不僅僅是增加文本量。

模型似乎通過模擬內部社會來進行推理,把思考構建為多個對話者之間的交流,而不是單一不間斷的聲音。關鍵在於,這種社會化推理是通過強化學習自發湧現的,因為它能持續產生正確答案,而不是通過顯式的人類監督或微調。

這種結構不僅僅是風格問題。當DeepSeek-R1面對更困難的問題時,對話行為和社會情感角色會更頻繁地被激活,而且它們能解釋推理模型相對於非推理模型的很大一部分準確率優勢。操控實驗提供了證據,表明對話標記與推理表現直接相關。當研究人員增強與對話驚訝相關的特徵時,多步推理任務的準確率翻倍。結構方程模型揭示,對話操控通過直接效應和間接路徑(由驗證、回溯、子目標設置、逆向推理等認知策略介導)影響準確率。這說明推理的社會結構可能不是附帶現象,而是在機制上參與了模型如何探索解決空間和部署有效問題解決策略。

研究進一步發現,這種互動組織得到了推理軌跡中多個隱含"聲音"的多樣性支持。這些聲音在性格特徵和領域專業知識上系統性地變化,機制可解釋性分析證實,當模型被引導向對話標記時,會激活更多樣化的性格和專業相關特徵。這種模式暗示,人類團隊研究的發現——社交導向特徵(如外向性和神經質)的多樣性能提升集體表現,而任務導向特徵(如盡責性)的多樣性可能損害協調和效率——可能為解釋語言模型的集體推理行為提供了有用的視角。有趣的是,大多數R1推理人格都表現得格外自律和勤奮!

強化學習實驗進一步支持了對話結構的功能性作用。在多智能體對話上微調的模型比僅在正確的獨白式推理軌跡上微調的模型學會推理更有效。因此,好處不在於初始推理的正確性,而在於對話組織提供的程序性腳手架。儘管這些實驗使用的是相對較小的30億參數模型,在簡單的算術任務和錯誤資訊檢測任務上進行,但結果表明,即使推理軌跡中的最小社會結構也能加速通用推理行為的湧現。

這些發現共同表明,研究推理優化模型中的"社會擴展"很有價值。隨著測試時計算的擴展,推理軌跡從孤立的獨白演變為分化的內部視角之間的結構化對話。高性能推理似乎取決於注意力、角色扮演和衝突解決如何在湧現的"思想社會"中協調。研究的目標不是站隊認為推理模型的軌跡應該被視為模擬人類群體之間的話語,還是計算思維對這種話語的模擬。事實上,正如研究指出的,即使這種區分也變得根本不清楚,因為一些認知理論認為成熟的個體思維本身就是從多智能體互動的模擬中發展而來的。

至頂AI實驗室洞見

儘管如此,研究在成功推理模型上的發現與關於成功人類團隊的先前文獻(比如多樣化的性格特徵導致成功合作)之間的一致性表明,支配有效群體協作的原則可能為解釋和工程化語言模型中的推理行為提供有價值的見解。這一視角延伸了關於人類團隊協作的長期研究,其中群體構成和多樣性通過性格和專業知識的變化塑造集體智能。AI系統中的類似動態在很大程度上仍未被探索。人機協作的早期調查已經開始刻畫這個新興領域,但多樣性和協調如何在大語言模型的推理軌跡中運作仍然是一個開放的問題。DeepSeek-R1和QwQ的內部推理模式表明,這些模型可能已經自組織了一種富有成效的視角異質性,暗示多樣性可能對人工推理和人類協作及集體優勢一樣基礎。

AI領域越來越多的趨勢涉及部署多個智能體的智能體架構,參與比單通道辯論更複雜的配置,包括層級、複雜網路甚至整個互動智能體機構。這項研究表明探索替代結構的重要性,但也要用多樣化的視角、性格和專業知識來充實它們,這些在人類社會世界中驅動互補性和集體成功。理解多樣性和社會腳手架如何互動可能會改變我們對大語言模型的概念化,從孤立的問題解決實體轉向集體推理架構,在那裡智能不僅來自規模,還來自不同聲音的結構化互動。

這項研究揭示了一個令人著迷的現象:最先進的AI推理模型並不是變成了超級智能的"獨行俠",而是學會了在內部模擬一個微型社會。就像人類幾千年來依靠集體智慧解決複雜問題一樣,AI也發現了同樣的真理——多樣化的視角、激烈的辯論、情感的張力和最終的協調,這些人類社會的特徵竟然也是機器推理的關鍵。當我們下次讓AI幫我們解決難題時,不妨記住:它可能正在內心召開一場熱鬧的"頭腦風暴會議",只是這些討論都發生在看不見的神經網路深處。或許,智能的本質從來都不是孤立的計算,而是社會性的對話,無論是人類還是機器。

Q&A

Q1:DeepSeek-R1等推理模型中的"思想社會"是什麼? 

A:思想社會是指AI推理模型在解決問題時內部模擬的多視角對話過程。就像人類團隊討論時有人提問、有人質疑、有人協調一樣,這些模型會在內部創造多個虛擬角色,它們具有不同的性格特徵和專業知識,通過自問自答、觀點轉換、製造衝突和協調矛盾來探索解決方案。研究發現這不是風格化的表達,而是真正提升推理準確率的機制。

Q2:為什麼對話式思考能提高AI的推理能力? 

A:對話式思考能提高AI推理能力主要有兩個原因。直接原因是多視角能幫助模型更全面地探索解決空間,避免陷入單一思路。間接原因是對話結構會促進關鍵認知策略的運用,比如驗證假設、發現錯誤後回溯、設置子目標、逆向推理等。研究通過操控實驗證明,增強對話相關特徵能讓準確率翻倍,而且這個提升既有直接效應,也有通過認知策略實現的間接效應。

Q3:普通人能利用這項研究的發現嗎? 

A:雖然這是一項前沿AI研究,但它對普通人使用AI也有啟發意義。當你用AI解決複雜問題時,不妨主動引導它採用對話式思考,比如要求它"從多個角度分析這個問題"或"提出反對意見並回應"。這可能會讓AI給出更全面、更可靠的答案。未來,AI產品可能會內置這種對話式推理模式,讓用戶在遇到難題時自動獲得更好的幫助,就像有一個專家團隊在後台討論一樣。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新