約翰斯·霍普金斯大學與北京大學聯手，讓AI讀懂人心：無需任何標註數據的「心智零」系統

這項由約翰斯·霍普金斯大學與北京大學聯合開展的研究，發表於2026年第43屆國際機器學習大會（ICML 2026），會議地點為韓國首爾，論文編號為arXiv:2606.00240。感興趣的讀者可通過該編號在學術資料庫中檢索完整論文。

贊助商廣告

你有沒有想過，當你走進廚房，拿出一隻碗、打開冰箱取出雞蛋，你的家人看到這一系列動作，幾乎不需要你開口，就已經猜到你接下來要做煎蛋——甚至悄悄幫你把平底鍋放到爐子上了？這種靠觀察行為來推斷他人意圖的能力，心理學家稱之為"心智理論"（Theory of Mind，ToM），是人類社交智慧的核心之一。而這項研究正是要讓AI具備類似的能力：通過觀察人類的一系列行為動作，實時推斷出人的目標與意圖，並在恰當的時機主動提供幫助。

研究團隊將這套系統命名為**MindZero**，中文可以理解為"心智零"——"零"代表的是它完全不需要人工為訓練數據打標籤（即無需告訴系統"這個人此刻的目標是X"），系統完全依靠自我驅動的學習機制來掌握推斷他人心理狀態的能力。這在AI領域是一個頗具挑戰性的突破口，因為長期以來，訓練AI理解人類意圖要麼需要海量的人工標註，要麼依賴計算代價極高的推理方法。

---

一、為什麼讀懂人心對AI這麼難？

要理解這項研究解決的是什麼問題，先來聊一個生活場景。

假設你是一位剛入職的助理，你的老闆性格內斂，很少直接說"我想要什麼"。你必須通過觀察他的行為——他先翻出了哪份文件、他走向了哪個會議室、他在白板上畫了什麼——來猜測他接下來最可能的目標，並在他開口之前提前把需要的材料準備好。你不能只靠某一個瞬間的動作來判斷，而要把所有的行為串聯成一條時間線，實時更新你的猜測，同時也要考慮到"我猜的可能是錯的"這種不確定性。

這正是AI系統在智能助理領域面臨的核心挑戰。心理狀態是看不見摸不著的，它隱藏在行為背後，而且會隨著時間動態變化。對於真實世界中的應用場景——比如家庭服務機器人、網頁操作助理——要收集大規模且有可靠標註的人類心理狀態數據，幾乎是不可能完成的任務。人類很難精確描述自己在每一個時刻究竟"在想什麼目標"，更不用說為AI訓練提供這樣的標籤了。

贊助商廣告

研究人員梳理了現有的三類主流方法，並分別指出了它們的局限性。第一類是基於提示詞的方法，也就是給大語言模型（LLM）設計精巧的提問方式，引導它推斷人的意圖。這類方法雖然靈活，但在複雜情境下經常出錯，在需要跨越長時間軸來理解行為的任務上表現尤其不穩定。第二類是基於貝葉斯逆向規劃（Bayesian Inverse Planning，BIP）的模型驅動方法，這類方法在推理邏輯上更紮實，但每次做推斷都需要大量計算——系統需要模擬"如果對方的目標是X，那麼他接下來最可能做什麼"，然後用觀察到的真實行為來反推最可能的目標，這個過程極其耗時，無法用於需要實時響應的實際場景。第三類是學習型方法，訓練神經網路來直接輸出心理狀態推斷，但這類方法依賴於昂貴且難以獲得的人工標註數據。

MindZero的目標，就是同時解決這三類方法各自的短板：不需要標註數據、推斷速度快、推理結果穩健可靠。

---

二、像偵探一樣訓練自己：自我監督強化學習的核心思路

MindZero的核心訓練機制，可以用"培訓偵探"來理解。

一個好的偵探，不需要有人告訴他"兇手是誰"才能學習破案——他通過觀察現場的線索（行為證據），提出各種可能的假設（嫌疑人），然後用"如果這個假設是真的，那麼現場應該出現什麼跡象？"來反過來驗證假設是否合理。假設與證據越吻合，該假設的可信度就越高。這個過程完全是自我驅動的：偵探不需要一個權威聲音告訴他"你猜對了"，只需要不斷地用新證據來檢驗假設，就能越來越接近真相。

MindZero的訓練邏輯與此如出一轍。系統在訓練時，接受的輸入是一段人類行為序列（比如：張三先走向冰箱、打開冰箱、取出一塊三文魚、走向灶台），然後需要輸出若干個對人類目標的假設（比如：假設1：他想做三文魚意面；假設2：他想做三文魚沙拉），以及每個假設的概率權重。

贊助商廣告

系統如何判斷這些假設的質量好不好？關鍵在於一個自我監督的獎勵信號：如果系統提出的假設是正確的，那麼基於這個假設，人類接下來的行為應該是"最合理的行動"，即行為發生的概率應該很高。反之，如果假設是錯誤的，那麼觀察到的實際行為在這個假設下看起來就會很"奇怪"——概率很低。系統就靠這個信號來訓練自己：讓你提出的假設，能最大化解釋你實際觀察到的行為。

研究團隊將這套機制稱為"自我監督強化學習"（Self-Supervised Reinforcement Learning，SSRL）。與傳統的強化學習不同，這裡的獎勵信號完全來自系統自身的觀察和推斷，而不需要外部的正確答案標籤。這就好比偵探在沒有警方結案報告的情況下，靠自己的推理邏輯不斷優化破案能力。

---

三、獎勵的設計：三個要素缺一不可

要讓"偵探培訓"真正有效，獎勵信號的設計至關重要。研究團隊將獎勵函數拆解為三個相互配合的組成部分。

第一個部分是"行動似然度"，也就是評估"如果人的目標真的是這個假設，那麼他做出這一系列行為的可能性有多大"。這個評估可以通過兩種方式實現：在結構較簡單的網格世界（GridWorld）環境中，使用一個基於規則的規劃器來精確計算；在更複雜的家庭環境中，則使用另一個預訓練的大語言模型來估算。

第二個部分是"心理狀態先驗"，也就是對假設本身合理性的基礎評分。並非所有假設生來平等——"他想把蘋果放進洗碗機"這個假設，不管行動序列怎麼看，都應該被賦予極低的基礎分，因為這不符合常識。在家庭場景中，大語言模型會直接輸出每個假設的常識合理性分數，充當過濾器，防止系統產生荒謬的猜測。

第三個部分是"熵獎勵"，這是一個防止系統"過於自信"的安全機制。在推斷早期，證據有限，任何單一假設都不應該被賦予100%的確定性。熵獎勵鼓勵系統保持多元化的假設集合，不要過早地把所有賭注押在某一個猜測上。這就好比一個經驗豐富的偵探在案件初期總是保留多條偵查線索，而不會在第一個嫌疑人出現時就關閉其他調查方向。

贊助商廣告

這三個部分共同作用，最終的獎勵就是：系統提出的所有假設按概率加權後，對觀察到行為的解釋能力（行動似然度乘以先驗）的總和，再減去一個鼓勵多樣性的熵懲罰項。訓練過程中，系統（一個多模態大語言模型）不斷調整自己提出假設的方式和分配概率的方式，使得這個獎勵最大化。

訓練完成後，系統就內化了這套貝葉斯推理邏輯。在實際使用時，它不再需要進行耗時的外部規劃搜索，而是在單次前向推斷（single forward pass）中就能直接輸出假設及其概率分布，速度大幅提升。

---

四、測試場地：兩個截然不同的考驗

為了全面評估MindZero的能力，研究團隊設計了四個實驗場景，涵蓋兩個截然不同的環境。

第一個環境是"網格世界"（GridWorld），一個10×10的二維方格地圖，裡面散布著障礙物和8個有不同顏色與形狀的物體。一個虛擬的人類角色在地圖上移動，目標是把兩個特定顏色的方塊拼放到一起。這個環境的好處是規則清晰、計算可控，適合精確測試推理能力，同時加入了視覺理解的挑戰——AI需要同時看懂圖像和文字描述。

在這個環境中，研究團隊設計了兩類任務。一類是問答測試：給系統看一段人類行動軌跡，然後問"他接下來最可能去取哪個方塊"，考察系統對人類目標的單次推斷能力。另一類是主動協助測試：系統扮演助手角色，需要實時跟蹤人類的行動，在合適時機去拿另一個目標方塊，以幫助人類更快完成任務，考察的是連續、動態的在線推斷能力。

第二個環境是"家庭場景"（Household），基於VirtualHome模擬器構建，場景更接近真實生活——一個有臥室、廚房、客廳、浴室的公寓，裡面有各種家具和物品。人類角色可能在執行"擺餐桌"、"把東西放進冰箱"、"準備食物"或"裝滿洗碗機"等任務，目標對象、數量和擺放位置都充滿不確定性，而且人類只能觀察到自己附近的區域（部分可見性），進一步增加了推斷難度。

贊助商廣告

在這個環境中，同樣包括問答（使用MMToM-QA多模態心智理論問答基準數據集）和主動協助（使用O-WAH在線觀察與幫助基準數據集）兩類任務。特別值得注意的是，協助任務中使用了與訓練集完全不同的公寓布局，專門測試系統的泛化能力。

---

五、對手陣容：誰是MindZero的競爭對手？

為了公平評估，研究團隊為MindZero設置了三類對手。

第一類是"基礎模型"，即未經任何額外訓練的預訓練多模態大語言模型。在網格世界任務中，使用了Qwen3-VL-4B和Qwen3-VL-8B（數字代表模型參數量，越大通常越強）；在家庭場景中，使用了Llama-3.2-3B、Llama-3.1-8B和Qwen3-4B。這類對手代表了"直接用現成大模型來做心智推理"的基線水平。

第二類是"大型模型"，包括Qwen3-235B-A22B、GPT-5.2和Gemini-3等當時最頂尖的大語言模型。這類模型參數量遠超基礎模型，代表了"用最強的大腦來做這件事"的上限參考。

第三類是"測試時擴展方法"，包括ThoughtTracing和AutoToM兩個系統。這類方法在推斷時會花費大量計算資源來維護和更新多個假設，本質上就是把貝葉斯逆向規劃嵌入到大模型的推斷流程中。它們代表了"用時間和計算換精度"的高質量但低速度方案，也是最接近MindZero設計理念的競爭者。正因為推斷太慢，這兩類方法沒有參與實時協助任務的測試。

---

六、問答任務：小模型逆襲大模型的驚人結果

在網格世界問答任務中，各方表現的差距令人印象深刻。

基礎版的Qwen3-VL-4B只答對了37.7%的問題，Qwen3-VL-8B也只有43.3%，考慮到這是二選一的問題，隨機猜測的正確率是50%，這意味著基礎模型的表現甚至不如隨機猜測。測試時擴展方法ThoughtTracing和AutoToM帶來了一定改進，把準確率提升到50%到56%區間，但代價是計算量翻了數倍乃至數十倍。就連大型模型Gemini-3-Flash也只達到68%的準確率，GPT-5.2停在50.7%。

經過MindZero訓練的Qwen3-VL-4B，準確率直接跳到95.0%；MindZero訓練的Qwen3-VL-8B則達到92.3%。兩者都實現了超過2倍的準確率提升，而推斷計算量與基礎模型幾乎完全相同（因為只需要單次前向推斷）。換句話說，一個經過MindZero訓練的40億參數小模型，在心智推理任務上遠遠甩開了當時最頂尖的大模型，且速度更快、成本更低。

贊助商廣告

在家庭場景問答任務中，這種逆襲同樣清晰。MindZero訓練的Llama-3.2-3B（只有30億參數）達到77.8%的準確率，MindZero訓練的Llama-3.1-8B達到76.2%，MindZero訓練的Qwen3-4B達到72.7%。相比之下，基礎版的Llama-3.2-3B只有34.8%，基礎版Llama-3.1-8B只有41.3%，基礎版Qwen3-4B只有42.8%。

更值得關注的對比是：使用ThoughtTracing或AutoToM加持下的Qwen3-235B-A22B（2350億參數！），準確率分別為59.8%和67.5%，計算量高達MindZero的數百倍，卻依然不如只有30億參數的MindZero-Llama-3.2-3B。AutoToM加上Gemini-3-Flash雖然達到了80.2%的最高分，但那是使用了專有大模型且計算成本遠高於MindZero的結果。

---

七、實時協助：當推斷速度成為生死線

問答任務評估的是"在某一時刻做出正確推斷的能力"，而實時協助任務則要嚴苛得多：AI必須在每一個時間步驟都實時更新對人類目標的推斷，並據此決定自己的行動，而且一旦判斷錯誤去幫錯了方向，還會受到懲罰。評估指標是"加速度"——即有AI幫助時，人類完成任務所需的時間比沒有幫助時縮短了多少百分比。

在網格世界協助任務中，MindZero訓練的Qwen3-VL-4B實現了23.0%的加速，MindZero訓練的Qwen3-VL-8B實現了24.5%的加速。而基礎版的Qwen3-VL-4B只有1.4%的微弱加速，基礎版Qwen3-VL-8B甚至出現了-0.1%（即幫了倒忙）。更戲劇性的是，GPT-5.2和Gemini-3-Flash的加速均為0.0%——原因是它們的目標預測頻繁變動，導致助手機器人不斷改變行進方向、無法完成取物動作，實際上什麼忙都沒幫上。

在家庭場景協助任務中，MindZero訓練的Qwen3-4B實現了19.1%的加速，MindZero訓練的Llama-3.1-8B實現了17.4%的加速。基礎版的各個小模型只有約2%的加速。值得注意的是，大型模型Gemini-3-Flash在這裡表現出17.7%的加速，GPT-5.2為9.4%，Qwen3-235B-A22B為12.3%——這說明家庭協助任務足夠複雜，足以體現出大模型的語言理解優勢，但MindZero在同等或更低計算成本下依然能與之媲美甚至超越。

贊助商廣告

研究團隊還特別追蹤了"在線目標推斷準確率隨任務進度的變化曲線"，結果非常直觀：MindZero的準確率曲線隨著人類完成的行動越來越多，呈現出穩定上升的趨勢，最終達到很高水平；而基礎模型和大型模型的曲線則在整個任務過程中大部分時間都維持在很低水平，只在任務接近尾聲時才略有提升——此時的提升對於提供有效幫助來說已經太遲了。這說明MindZero具備真正意義上的"在線推斷"能力：隨著觀察到更多行為，它能持續積累證據、不斷修正自己的判斷，而不是等到塵埃落定才"恍然大悟"。

---

八、拆解關鍵：哪些設計真正起了作用？

研究團隊針對家庭協助任務，對MindZero的三個核心設計元素進行了逐一拆除實驗，以確認每個元素是否真的不可或缺。

拆除"先驗建模"（即取消對假設合理性的常識審查）後，加速率從19.1%下降到17.0%，下降了約2個百分點。這說明常識過濾雖然不是最關鍵的要素，但能防止系統產生荒謬假設並因此浪費概率權重，貢獻是實質性的。

拆除"多假設維護"（即讓系統只輸出一個最可能的目標，而不是一組帶概率的假設）後，加速率從19.1%跌至10.3%，降幅超過一半。這驗證了"在不確定環境中保留多種可能性"的核心價值——任務初期證據有限時，貿然"押注"單一目標會導致大量錯誤幫助行為，即便後來修正了判斷，前期浪費的步驟也已造成損失。

拆除"熵獎勵"（即不再獎勵保持假設多樣性）後，加速率從19.1%驟降到5.2%，降幅最大。這說明熵獎勵在訓練過程中對防止模型過早"鎖定"某一個錯誤假設起到了至關重要的作用。沒有熵獎勵，模型容易在訓練中習得一種"總是快速確定並堅持某個假設"的策略，這在實際應用中極為脆弱。

---

九、真人實驗：AI助手真的能幫上忙嗎？

所有上述實驗都是在模擬環境中進行的。為了驗證MindZero能否真正幫助真實的人類用戶，研究團隊招募了12名約翰斯·霍普金斯大學的學生（含大學生、碩士生和博士生，5男7女），在IRB倫理委員會批准下開展了一項真人實驗。

贊助商廣告

實驗設置是讓參與者在模擬公寓中扮演"主要行動者"，完成四項不同的家庭任務，每次完成任務時分別配備不同的AI助手：沒有助手（純人類操作，作為基準）、配備基礎版Qwen3-4B的助手、配備MindZero訓練版Qwen3-4B的助手，以及配備Gemini-3-Flash的助手。

結果顯示，基礎版Qwen3-4B助手只帶來了2.6%的微弱加速，有時甚至幫了倒忙（在任務5和任務13上出現負加速）。MindZero訓練版Qwen3-4B實現了平均19.7%的加速（標準誤差6.3%），而Gemini-3-Flash實現了23.4%的加速（標準誤差6.4%）。統計檢驗表明，MindZero與Gemini-3-Flash之間的差距並不具有統計顯著性（p值為0.24），也就是說兩者的表現實際上是在同一水平線上的。

這意味著：一個參數量僅為Gemini-3-Flash極小比例、可以在本地運行的開源小模型，經過MindZero訓練後，在真實人類協助任務上能達到與頂級專有大模型相當的水平，同時部署成本和隱私安全性都大幅優於依賴雲端調用的大型模型。

---

十、這項研究還沒解決的問題

研究團隊坦承，MindZero目前還存在兩個主要局限。

第一，MindZero目前只考慮了單一的"被觀察者"（即一個人類），沒有建模多個智能體之間的遞歸心理推斷（比如"我知道你知道我知道..."這類嵌套的心智狀態推理）。在多人協作或博弈場景中，這種遞歸推理往往至關重要，也更貼近真實的社交情境。

第二，隨著任務時間軸拉長，輸入給模型的資訊量（即行為歷史序列的長度）會線性增長，這對模型的處理能力和推斷速度構成壓力。如何設計更高效的模型結構來應對超長輸入，是下一步需要解決的工程挑戰。

研究團隊表示，後續工作將致力於把多智能體遞歸心理推斷納入訓練框架，並探索更高效的模型架構以應對長序列輸入問題。

---

說到底，MindZero做的事情，是把一種原本需要極高計算代價才能實現的推理能力——"通過觀察別人的行為來推斷他的內心目標"——內化到一個小型語言模型的參數權重里，讓它在回答問題的瞬間就能完成原本需要反覆規劃搜索才能做到的事。這就好比一個經過大量案例訓練的偵探，最終不需要每次都翻閱案卷、重新推演，而是憑藉直覺就能鎖定最可能的答案——但這個"直覺"不是玄學，而是數以千次推理練習後的肌肉記憶。

贊助商廣告

對於普通人來說，這項研究意味著未來的智能助理有望真正"讀懂你的心"，在你還沒開口之前就預判你的需要並採取行動，同時還能在本地設備上運行，不必把你的行為數據上傳到雲端。這對家庭服務機器人、個人數字助理、老人護理系統等領域都有深遠的潛在影響。

當然，更強的"讀心"能力也帶來值得警惕的倫理問題：如果系統被濫用於未經授權地分析和預測用戶行為，或者系統推斷錯誤卻自作主張地干預，都可能造成傷害。研究團隊在論文中也明確呼籲：透明度、用戶知情同意和嚴格的實際應用評估，是負責任部署此類系統的必要前提。

有興趣深入探究這項研究的讀者，可以通過arXiv編號2606.00240查閱完整論文，代碼、數據集和模型均已在論文中提供的開源地址公開。

---

Q&A

Q1：MindZero為什麼不需要人工標註訓練數據？

A：MindZero使用"自我監督強化學習"機制：系統提出對人類目標的假設，然後用"如果這個假設是對的，觀察到的行為發生概率有多高"來反向評分，高分假設得到獎勵。整個過程只需要人類行為序列本身，不需要任何人告訴系統"這個人的目標是X"，所以完全不依賴人工標註。

Q2：MindZero在實時協助任務中為什麼比GPT-5.2和Gemini-3表現更好？

A：大型模型在協助任務中的問題是目標預測不穩定，頻繁改變猜測，導致助手機器人不斷調轉方向、無法有效執行任何幫助行為。MindZero通過維護多個帶概率的假設並用熵獎勵保持判斷的穩健性，能夠隨時間積累證據、逐步收斂到正確目標，在整個任務過程中提供持續且方向一致的幫助。

Q3：MindZero的"熵獎勵"機制具體起什麼作用？

A：熵獎勵懲罰系統過早對某一個假設過度自信。任務初期證據少，過早鎖定單一目標風險極高。熵獎勵鼓勵系統在證據不足時保持多個假設並賦予相對均衡的概率，隨著行為證據積累再逐步收斂，避免一旦押錯寶就造成大量無效乃至有害的幫助行為。實驗顯示去掉熵獎勵後協助加速率從19.1%驟降至5.2%，是三個消融組件中影響最大的一個。

贊助商廣告