當大腦遇上「偵探推理」：MIT與魏茨曼研究所聯手揭開視覺記憶的因果密碼

這項由以色列魏茨曼科學研究所與美國麻省理工學院聯合開展的研究，於2026年5月以預印本形式發布在arXiv平台上，論文編號為arXiv:2605.23895。研究團隊橫跨兩所世界頂尖機構，致力於解答一個困擾神經科學家多年的核心問題：人類大腦究竟是真的在"看懂"一個概念，還是只是被一些相關的視覺干擾所迷惑？

贊助商廣告

**一、科學家們其實一直在犯一個經典錯誤**

假設你是一名偵探，正在調查一起案件。你發現每次犯罪現場附近都有一輛紅色汽車。於是你斷定：紅色汽車就是罪犯。但等等——也許紅色汽車只是湊巧停在那裡，真正的罪犯是別人。你把相關性當成了因果關係，犯了一個看起來合理、實際上致命的錯誤。

多年來，神經科學家們在研究大腦的視覺處理機制時，犯的正是這種錯誤。當他們想知道"大腦的哪個區域負責識別人臉"時，他們會給受試者看很多張人臉照片，然後測量大腦各個區域的活躍程度。哪個區域最活躍，就認為那裡負責處理人臉。這種方法被稱為"激活最大化"，聽起來很有道理，幾十年來也發現了不少重要的大腦功能區。

然而問題就藏在細節里。人臉照片裡除了臉，還有什麼？有皮膚的顏色、特定的背景、人體的姿態、情緒的表達……那個"最活躍"的大腦區域，到底是在響應"臉"這個概念本身，還是在響應這些與臉一起出現的其他視覺線索？傳統方法根本無法回答這個問題。就像那個紅色汽車的偵探一樣，科學家們發現了"相關性"，卻錯把它當成了"因果性"。

正是為了解決這個根本性的漏洞，研究團隊開發出了一套名為BrainCause 當大腦遇上偵探推理MIT與魏茨曼研究所聯手揭開視覺記憶的因果密碼的全新框架。這套系統的核心思想，就是用真正的偵探方式來研究大腦——不只是看哪個區域"有反應"，而是要驗證那個反應是否真的是由目標概念引起的，而非由它的"同夥"或"替身"引發的。

**二、偵探的工具箱：BrainCause是如何工作的**

理解BrainCause的工作原理，可以用一個具體的偵探破案場景來類比。假設你想調查大腦里負責識別"動物"的區域。傳統方法是：給大腦看一堆動物照片，找出最活躍的區域，然後宣布"找到了"。但BrainCause會問：那個區域真的在響應"動物"這個概念，還是在響應動物照片裡經常出現的草地、森林、毛茸茸的質感？

贊助商廣告

為了回答這個問題，BrainCause會構建三種不同類型的圖片，就像偵探準備三類不同的證據。

第一類叫做"正面證據圖片"，也就是直接展示目標概念的圖片——在"動物"這個例子裡，就是各種清晰的動物照片。研究團隊不僅從現有資料庫里檢索這類圖片，還用先進的AI圖像生成模型（FLUX.2）專門生成了大量多樣化的新圖片。每個概念會生成200張訓練用圖和100張額外的驗證用圖，確保覆蓋儘可能多的視覺變化。

第二類叫做"語義相似但不同的圖片"，也可以理解為"嫌疑人替身"。研究團隊用大型語言模型（Gemma-3-27B-IT）來思考：哪些概念經常和"動物"同時出現，但本身不是動物？答案可能包括草地、樹木、野外風景、動物棲息地。這些圖片被系統地生成出來，專門用來測試大腦區域是否真的在響應"動物"本身，還是在響應這些相關背景。對於每個目標概念，系統會提出10個這樣的"替身概念"，每個概念再生成10張圖片，經過篩選後保留約80到100張有效圖片。

第三類是最關鍵的"反事實編輯圖片當大腦遇上偵探推理MIT與魏茨曼研究所聯手揭開視覺記憶的因果密碼 "，這是整套系統最精妙的部分。對於每一張正面證據圖片，系統會用語言模型提出幾種最小化修改方案：把圖中的動物去掉，或者替換成完全不同的東西，但其他一切保持不變。舉個例子，一張獅子在草原上的照片，可以被編輯成同樣的草原背景、同樣的光線、同樣的構圖，但獅子消失了，或者變成了一塊石頭。這種"換湯不換藥"的修改，能精準地剝離出目標概念的影響，就像偵探做受控實驗一樣。這個過程會對50張訓練圖片和20張驗證圖片各生成10個編輯版本，產生約400到500張反事實圖片。

生成完圖片後，系統還會用視覺語言模型（Qwen3-VL-8B）來核查：正面圖片裡確實有目標概念嗎？替身圖片裡真的沒有目標概念混入嗎？這道核查程序就像法庭上的證據鑑定，確保每一張圖片都名副其實。

最後，所有這些圖片都會輸入一個"圖像轉大腦響應"的預測模型，計算出大腦中約4萬個體素（可以理解為大腦掃描的最小測量單元）對每張圖片的預期激活程度。這個預測模型由魏茨曼研究所此前開發，能夠跨受試者進行訓練，並為每個受試者生成個性化的預測結果。

贊助商廣告

**三、從證據到判決：如何給每個大腦區域評分**

有了三類圖片之後，BrainCause需要一套評分體系來判斷哪些大腦體素是真正在響應目標概念的"真兇"，而不是被相關線索迷惑的"誤判目標"。

系統給每個體素計算三個分數。第一個是"正面激活分"，衡量這個體素對正面證據圖片的平均響應強度，這相當於問：這個區域對目標概念有沒有基本的反應？第二個是"語義差異分"，計算方式是：對正面圖片的平均激活，減去對那些最容易迷惑該體素的語義相似替身圖片的激活。這裡有個精妙之處：系統特別找出那10張"最難區分"的替身圖片（也就是讓該體素最容易產生誤判的那些），而不是隨機選取，這樣的測試更嚴格，就像偵探專門用最像真兇的嫌疑人來測試目擊者的指認可靠性。第三個是"反事實差異分"，計算每張正面圖片和其最難區分的反事實編輯版本之間的激活差異——如果把動物從圖片中移除，這個體素的響應會不會明顯下降？

這三個分數綜合起來，系統把語義差異分和反事實差異分平均，得到最終的"因果分數當大腦遇上偵探推理MIT與魏茨曼研究所聯手揭開視覺記憶的因果密碼 "。那些因果分數為正的體素被收錄進候選表徵區域，意思是：這些體素不僅對目標概念有響應，而且這種響應是概念特異的，不會被相關干擾因素所欺騙。

在訓練階段完成候選區域的篩選之後，系統還會在獨立的驗證集上進行二次核查，並與真實的fMRI（功能性磁共振成像）測量數據進行比對，確保發現的不只是預測模型的幻覺，而是確實存在於真實大腦響應中的規律。

**四、七成發現可能是假的：這個數字令人震驚**

研究團隊用BrainCause分析了260個視覺概念，得出了一個讓神經科學界相當警覺的結論：如果用傳統的激活最大化方法來定位大腦中的視覺概念表徵，高達73.4%的發現都是假陽性——也就是說，那些看起來"響應了"目標概念的大腦區域，實際上響應的是與概念相關聯的其他視覺因素，而非概念本身。

贊助商廣告

換句話說，之前那個偵探把紅色汽車當成罪犯的錯誤，在神經科學領域已經系統性地發生了七成以上。

相比之下，當BrainCause用因果分數來篩選候選區域時，假陽性率從73.4%大幅降低到23%。與此同時，真陽性率也從26.6%提升到38.7%。這兩個數字同步改善的意義非常深遠：不僅減少了錯誤發現，還增加了正確發現。就像換了一位更嚴格、更精準的偵探，不但抓錯的人少了，真正的罪犯反而更容易被找出來了。

從具體的評分數據來看，這種優勢更加明顯。在語義相關概念的區分能力上，MindSimulator（一個此前最先進的對比方法）在生成圖片上的語義差異分為-0.44，意味著它發現的區域對干擾概念的響應甚至比對目標概念還要強。而BrainCause在同一指標上的得分為0.62，實現了從負數到正數的飛躍。在真實fMRI數據上，BrainCause的語義差異分也從0.27提升到0.71。在反事實編輯測試上，BrainCause的得分為0.98，而對比方法僅為0.23。

與此同時，BrainCause並沒有以犧牲激活強度為代價來獲得更高的因果性。在真實測量數據上的激活分，BrainCause為1.08，與MindSimulator+的1.12相當，保持了極具競爭力的基本響應強度。

**五、"認識你自己"：新方法如何驗證已知的大腦功能區**

在探索未知之前，一個好的偵探會先檢驗自己的方法是否能復現已知的案件。研究團隊用同樣的邏輯來驗證BrainCause——如果這套系統真的靠譜，它應該能重新找到神經科學界幾十年來已經證實的經典大腦功能區。

神經科學界公認有四個與視覺緊密相關的大類功能區：負責處理面孔的區域（包括梭狀回面孔區FFA和枕葉面孔區OFA）、負責處理身體的區域（體外紋狀體身體區EBA、梭狀回身體區FBA）、負責處理場景和地點的區域（海馬旁回位置區PPA、枕葉位置區OPA）、以及負責處理文字的區域（視覺詞形區VWFA）。

研究團隊對這四類概念分別運行BrainCause，然後檢查系統找到的頂部體素中有多少恰好落在這些已知功能區內。結果非常令人滿意：在處理身體相關概念時，前100個頂部體素有99%都精確落在已知的身體處理區域內；處理文字概念時，同樣有99%落在文字處理區域內；處理面孔概念時，有90%落在面孔處理區域內；處理地點場景時，有74%落在場景處理區域內。隨著候選區域擴大到200個、500個體素，這些比例保持相當穩定，說明系統找到的不是零散的隨機體素，而是真正集中的功能性區域。

贊助商廣告

更令人關注的是，這些發現在不同受試者之間保持了高度一致性。雖然每個人的大腦摺疊方式不同、功能區的精確位置也有個體差異，但對於同一個概念，BrainCause在不同受試者（實驗使用了NSD數據集中完成全部掃描會話的4名受試者，編號1、2、5、7）身上找到的高因果分區域都落在大致相同的皮層位置。這種跨個體的一致性，是方法可靠性的有力證明，也說明人類大腦中的視覺概念表徵有著超越個體差異的共性組織規律。

**六、從粗粒度到精細粒度：大腦其實比我們想的更細膩**

經典神經科學告訴我們大腦有"面孔區"、"身體區"、"場景區"，但這有點像說"烹飪區"包攬了所有和食物相關的事情，實際上你的廚房裡有切菜台、爐灶、烤箱，各司其職。BrainCause讓我們看到了大腦里更精細的"廚房分區"。

以身體相關概念為例，研究發現"人類面孔"、"人類雙手"和"人類雙腿"在大腦中的表徵並不完全重疊。人類面孔的表徵集中在面孔處理區（FFA、OFA），而雙手的表徵更多出現在身體處理區（EBA、FBA），雙腿則呈現出又一種獨特的分布模式。這三者雖然都是人體部位，但大腦為它們劃定了有所區分的處理領地。

類似的精細分工也出現在文字相關概念中。"手寫文字"、"交通標誌"和"商標標誌"這三類都涉及文字或符號，但它們在視覺詞形區及周邊區域（OWFA）的具體激活分布各不相同。手寫文字和印刷體符號之所以有不同的神經表徵，或許與其視覺形態的差異有關，也可能與我們學習和處理這些不同類型文字時的認知過程有關。

更廣泛來看，在260個概念中，BrainCause識別出了動物面孔、食物、工具、社交互動、人物奔跑、人物跳躍等多個具體概念的候選表徵區域。動物面孔的表徵落在已知的面孔選擇區域（FFA、OFA）附近，這與"大腦有統一的面孔處理機制，對動物面孔和人類面孔使用相似迴路"的假說一致。工具的表徵則靠近身體和動作相關區域，這與"工具使用需要感知物體如何配合人手動作"的認知假設相吻合。

贊助商廣告

在更整體的分析中，"人類"和"動物"這兩個概念的表徵區域有重疊但也有明顯差異，體現了大腦在處理"生物體"這個大類時既有共性迴路，又根據具體類別做出了精細區分。

**七、排除干擾、聚焦真相：方法細節中的關鍵選擇**

研究團隊在論文附錄中詳細分析了各種設計選擇對最終結果的影響，這些細節揭示了整個系統的設計哲學。

在排名信號的選擇上，團隊測試了多種單一信號和組合信號的效果。僅用生成圖片激活（MAG）作為排名依據時，激活分最高（2.76），但語義因果分只有微弱的0.08，說明高激活並不保證高因果性。僅用反事實編輯因果分（CEG）作為排名時，編輯測試得分達到驚人的1.42，但激活分下降到1.67，生成因果分也只有0.45。最終，BrainCause採用了多信號組合策略：CEG+CSG（生成語義因果）+CSL（圖庫語義因果）+MALF（過濾後圖庫激活）+CSM（測量數據語義因果），這個組合在所有維度上的綜合平均分達到1.09，是所有方案中最高的。這說明沒有任何一個單一信號能勝任全部工作，真正可靠的發現需要多條證據鏈的共同支持。

在候選區域大小的影響上，研究團隊發現一個普遍規律：無論採用哪種方法，隨著候選區域從50個體素擴大到1000個體素，各項分數都呈現穩步下降的趨勢。這是符合直覺的——越小的區域越集中、越純粹，而越大的區域不可避免地包含更多"陪襯體素"，稀釋了整體的特異性。重要的是，BrainCause相對於其他方法的優勢在所有區域大小下都穩定存在，這表明因果排名方法的優越性並不依賴於某個特定的區域大小設定。

在統計顯著性測試上，研究團隊對每個發現進行了嚴格的單側經驗p值檢驗，把每個目標概念的得分與一組不相關的基準概念在同一區域上的得分分布進行比較。在260個概念-受試者對中，生成激活分有160個通過了p≤0.05的檢驗，真實測量激活分有97個通過，生成語義因果分有173個通過，測量語義因果分有47個通過，反事實因果分有101個通過。如果要求所有五項指標同時通過，只有較少數量的發現達標。但研究團隊指出，這並不意味著其餘發現都是錯的——很多概念只是在現有測量數據中的覆蓋率不夠高，無法進行嚴格的測量數據層面驗證，這些情況下系統會推薦研究者設計專項後續實驗來補充數據。

贊助商廣告

**八、失敗案例的解剖：偵探也有盲點**

任何方法都不是完美的，BrainCause也不例外。研究團隊坦誠地分析了那些仍然存在的假陽性案例，以及它們出現的原因。

BrainCause剩餘的假陽性主要集中在兩類情況。第一類是那些本質上瀰漫性、難以局部化的視覺屬性，比如"天空"、"反射/倒影"和"光影對比度"。這些概念天然就會出現在各種各樣的圖片中，很難設計出完全不包含這些屬性的場景圖片，因此替身圖片裡往往不可避免地殘留著目標屬性，測試的區分力自然受限。

第二類失敗來自語義替身生成環節的不完善。系統依靠AI語言模型和視覺模型來生成"不包含目標概念"的替身圖片，但這兩類模型本身也有局限性。以"天空"為例，生成"戶外場景但沒有天空"的圖片對現有的圖像生成模型來說其實挺難的，結果生成的替身圖片裡往往還是出現了天空。這種情況下，測試認為目標概念和替身之間沒有區別，便錯誤地否認了真實的因果關係，或者錯誤地認定一個區域具有因果性（當它其實只是在響應普遍存在的背景屬性）。

研究團隊認為，隨著語言和視覺模型能力的持續提升，這類限制會逐步減少。更重要的長期方向，是讓系統更具疊代性：根據當前的激活模式和測試結果，動態地提出更有針對性的反事實修改和語義替身，形成一個閉環改進的科學發現循環，而不是一次性地生成圖片然後固定分析。

**九、給未來的實驗者畫出地圖**

BrainCause不僅是一個發現工具，還是一個實驗規劃工具。這是整個框架中一個常被忽視但極有價值的功能。

系統會自動分析現有的fMRI測量數據（研究使用的是NSD數據集，包含8名受試者每人約10000張自然圖片的7T高精度fMRI掃描記錄）中各個概念的覆蓋情況。對於每個目標概念，系統會檢查：資料庫里有多少張經過驗證的正面圖片？有多少張符合條件的語義替身圖片當大腦遇上偵探推理MIT與魏茨曼研究所聯手揭開視覺記憶的因果密碼？這些統計會呈現出巨大的差異——有些概念在現有數據中有接近200張有效正面圖片，而有些概念只有寥寥幾張甚至零張。

贊助商廣告

這種覆蓋率分析直接決定了發現的可信度等級。當一個概念在測量數據中覆蓋率高，且BrainCause的因果分數也高，那就是高置信度的發現。當覆蓋率高但因果分數低，那就是被明確否定的發現。當覆蓋率低時，即便因果分數表現良好（基於生成圖片的預測），系統也只會標記為"有希望但證據不足"，並自動生成建議清單：哪類正面圖片需要補充，哪類語義替身需要在下一輪fMRI實驗中引入，哪些反事實編輯場景最值得讓真實受試者在掃描儀里觀看。

這種"閉環規劃當大腦遇上偵探推理MIT與魏茨曼研究所聯手揭開視覺記憶的因果密碼 "能力，使得BrainCause不只是一個分析工具，更是一個能與實驗神經科學形成緊密互動的夥伴——用計算方法提出假設，用計算方法識別數據缺口，再引導實驗設計填補這些缺口，最終用真實的大腦數據來檢驗假設。

說到底，BrainCause代表的是一種思維方式的轉變：從"哪裡亮就說哪裡有"，變成"亮了還不夠，還要證明是因為我們想找的東西讓它亮了"。這個轉變聽起來是一小步，但對於神經科學發現的可靠性來說，是一大步。

歸根結底，大腦是我們最重要卻也最不透明的器官。當我們說"大腦有一個專門處理面孔的區域"，我們到底是在說一個精確的因果關係，還是一個統計相關性？這個問題的答案直接影響到我們如何理解意識、記憶、感知，乃至如何設計針對感知障礙的干預手段。BrainCause提供的工具，讓我們有機會把這些問題從"相關性描述"提升到"因果性理解"的層面，這對於腦科學的未來發展具有實實在在的意義。

如果你對這項研究的完整細節感興趣，可以通過arXiv平台以編號arXiv:2605.23895查詢全文，所有技術細節、實驗數據和補充材料都可以在原論文中找到。

Q&A

Q1：BrainCause框架和傳統的大腦功能定位方法有什麼本質區別？

A：傳統方法（激活最大化）只看大腦哪個區域對目標概念圖片反應最強，但無法區分是概念本身還是其相關背景觸發了這個反應。BrainCause額外引入了反事實編輯圖片（把概念從圖片中移除但保留其他內容）和語義替身圖片（相似但不含目標概念的圖片），通過對比三類圖片的響應差異來驗證大腦反應的真實來源，把相關性判斷升級為因果性驗證。

贊助商廣告

Q2：BrainCause發現了哪些之前不知道的大腦概念表徵？

A：除了重新確認了面孔、身體、場景、文字這四類經典功能區外，BrainCause還在更精細的層面發現了人類手部、人類腿部、動物面孔、食物、工具、交通標誌、手寫文字、商標標誌、社交互動等多個概念的候選表徵區域。這些發現顯示人類視覺皮層的功能組織比傳統認知更為精細，不同身體部位和不同類型的文字符號在大腦中有各自不完全重疊的處理區域。

Q3：BrainCause的假陽性率為什麼還有23%，有沒有辦法進一步降低？

A：目前23%的假陽性主要來自兩類難題：一是"天空""反射"這類瀰漫性視覺屬性很難生成不含它們的替身圖片；二是AI語言和視覺模型在生成語義替身時偶爾會讓目標概念"偷溜進來"。研究團隊指出，隨著生成模型能力提升，這個問題會逐步改善。更根本的解決方向是讓系統疊代運行：根據每次測試的結果動態調整反事實設計，讓驗證過程越來越嚴密。