當AI「看」進人腦：斯坦福大學團隊如何用深度學習破譯視覺神經密碼

這項由斯坦福大學領導的研究發表於2023年的《自然·神經科學》期刊，論文編號為DOI: 10.1038/s41593-023-01468-4。研究團隊將深度學習技術與神經科學結合，系統性地揭示了視覺皮層神經元當AI看進人腦斯坦福大學團隊如何用深度學習破譯視覺神經密碼如何對自然圖像作出反應，為理解大腦視覺處理機制提供了一套全新的計算框架。

贊助商廣告

---

很多人都好奇一個問題：當你看到一隻貓的時候，你腦子裡究竟發生了什麼？更具體一點——那些負責"看東西"的神經細胞，是怎麼把眼睛接收到的光信號，變成"哦，這是一隻橘貓"這樣的認知的？這個問題困擾了神經科學家將近一個世紀。斯坦福大學的這支研究團隊，選擇用人工智慧這把"鑰匙"，去撬開大腦視覺皮層的"鎖"。

---

一、大腦的"收信室"：視覺皮層神經元到底在做什麼

要理解這項研究，得先搞清楚視覺皮層神經元這個概念。你的大腦後部有一大塊區域，專門負責處理你眼睛看到的東西，這塊區域叫做視覺皮層。其中的神經元，可以理解成一個個"收信員"——每個收信員只負責接收某種特定類型的信件。有的收信員只對水平線條感興趣，有的只對運動的物體敏感，有的則對特定的顏色或形狀有反應。

科學家們早就知道這件事，但問題在於：大腦里有幾十億個這樣的收信員，每個人的"喜好"都略有不同，而且當你看一張複雜的自然圖片時，到底是哪些圖片特徵觸發了哪個收信員，實在難以捉摸。

傳統研究方法有點像蒙著眼睛猜謎——研究者給動物或人看一張簡單的條紋圖案，記錄神經元的反應，然後推測它的喜好。這種方法在實驗室里還算湊合，但真實世界的視覺資訊複雜得多，遠不是幾根條紋能代表的。斯坦福團隊的切入點就在這裡：他們決定用深度神經網路這個工具，來替神經元"畫一幅自畫像"——弄清楚每個神經元最喜歡的圖像是什麼樣的。

---

二、借AI之眼：用深度神經網路當"翻譯"

深度神經網路，可以理解為一種受大腦啟發設計的電腦程序。它之所以叫"深度"，是因為它有很多層——每一層負責處理不同層級的資訊，從最基本的邊緣、紋理，到複雜的物體形狀，再到完整的物體概念，層層遞進，有點像工廠里的流水線，每道工序處理完再傳給下一道。

贊助商廣告

研究團隊使用了一類特別的深度神經網路，叫做卷積神經網路（CNN）。這種網路在識別圖像方面表現出色，更關鍵的是，它的內部結構和生物大腦視覺皮層的層級結構高度相似——這並非偶然，因為CNN本來就是受視覺神經科學啟發而設計的。

團隊的核心思路是這樣的：既然CNN和大腦視覺皮層在結構上有相似之處，那麼CNN內部某一層的某一個"計算節點"，可能就對應著大腦里的某類神經元。如果能找到這種對應關係，就可以用CNN來預測真實神經元的反應，再反過來找到"最能激活某個神經元的圖像"。

這個過程有點像找一把鎖的配套鑰匙：你先製作一把通用模型鑰匙（CNN），通過大量測試發現它開某把鎖特別順手，然後再用這把模型鑰匙反推出鎖的內部結構。

---

三、實驗設計：給猴子看圖，記錄神經元的"心跳"

為了驗證這個思路，研究團隊在真實動物的神經元上做了實驗。他們在獼猴的視覺皮層中植入了精密的電極，這些電極能夠記錄單個神經元在受到視覺刺激時的放電情況——每當一個神經元"興奮"，就會產生一次電信號，研究者將其稱為"脈衝"。

接下來，研究人員給獼猴展示了大量的自然圖像和人工生成的圖像，涵蓋了各種類別：風景、動物、物體、面孔、隨機紋理，種類繁多。與此同時，電極忠實記錄下每幅圖像對應的神經元反應強度。這個過程有點像做問卷調查：每給神經元看一張圖，就問它"你有多喜歡這張圖"，然後把所有答案記錄下來。

收集了足夠多的數據之後，研究團隊用這些數據來訓練一個預測模型。這個模型的任務只有一個：給任意一張圖像，預測目標神經元會有多強烈的反應。換句話說，他們在努力搭建一座"翻譯機器"，能把圖像語言翻譯成神經元語言。

---

四、"最愛圖像"的生成：讓AI替神經元說出心裡話

有了這個預測模型，團隊就進入了最令人興奮的部分——找出每個神經元最喜歡的圖像，即"最優刺激當AI看進人腦斯坦福大學團隊如何用深度學習破譯視覺神經密碼 "（Optimal Stimulus）。

贊助商廣告

這裡用了一種叫做"梯度上升當AI看進人腦斯坦福大學團隊如何用深度學習破譯視覺神經密碼 "的技術。簡單解釋一下：如果你把神經元的反應強度看成一座山，圖像的各種可能變化看成在這座山上的各個位置，那麼"梯度上升"就是沿著山坡往最高處爬。每次調整圖像的一點點像素，讓預測出的神經元反應稍微變強一些，如此反覆疊代，最終爬到山頂，生成一張能讓該神經元最大程度興奮的圖像。

不過，直接對原始像素做梯度上升，往往會產生一些看起來非常奇怪的噪點圖案，根本不像任何真實存在的東西。這就好比你讓一個沒見過世面的人畫出"最美的風景"，結果他畫出一堆亂糟糟的色塊。

為了解決這個問題，研究團隊引入了一個額外的約束條件——他們用一個叫做生成對抗網路當AI看進人腦斯坦福大學團隊如何用深度學習破譯視覺神經密碼（GAN）的工具來規範生成圖像的"真實感"。GAN可以理解為一個"藝術品真偽鑑定師"，它一直在檢查生成的圖像是否看起來像真實存在的自然圖像，只要不像，就會給出懲罰。通過這種方式，最終生成的圖像既能最大程度激活目標神經元，又能保持真實自然圖像的外觀。

---

五、發現了什麼：神經元的"審美偏好"超乎想像

當研究團隊生成了大量神經元的"最愛圖像"之後，他們得到了一系列令人著迷的發現。

首先，視覺皮層不同區域的神經元確實有著截然不同的"審美偏好"。位於視覺皮層較低層級區域（稱為V1、V2區）的神經元，偏愛的圖像相對簡單，主要是特定方向的邊緣、條紋、顏色對比等基礎特徵。而位於更高層級的IT區（下顳葉皮層）的神經元，則對複雜得多的圖像模式感興趣，比如特定的紋理組合、物體的局部形狀，甚至有些神經元對面孔的某些特徵有非常強烈的偏好。

這種層級差異驗證了一個在神經科學界已有相當共識的理論：大腦處理視覺資訊的方式是"從簡到繁"的流水線模式。低層神經元負責檢測基礎特徵，高層神經元則將這些基礎特徵組合成更複雜的概念。這和前面提到的CNN的工作方式幾乎如出一轍，這種高度的結構對應性也從側面證明了用CNN來模擬大腦視覺系統的合理性。

贊助商廣告

其次，研究發現了一個更微妙的現象：即便是同一個腦區內的相鄰神經元，它們的"最愛圖像"之間也存在相當大的差異。這說明視覺皮層的神經編碼遠比想像中精細。每個神經元都像是一個有獨特審美的藝術鑑賞家，而不是一群品味雷同的路人。

---

六、模型預測能力的測試：AI翻譯到底準不準

光有理論還不夠，研究團隊還對他們建立的預測模型進行了系統性的精度測試。他們的測試方法類似於"盲測"：先用部分神經元反應數據訓練模型，然後拿出模型從未見過的新圖像，讓模型預測神經元的反應，再和真實測量的神經元反應比對。

結果表明，對於視覺皮層較低層級的神經元，模型預測精度相當高。這好比一個學生背熟了簡單課文，回答基礎問題時表現優秀。但對於更高層級的神經元，預測精度有所下降——因為高層神經元處理的資訊更複雜，偏好更難捉摸，就像考試題目突然變成了哲學辨析，學生就沒那麼遊刃有餘了。

不過整體來看，預測精度已經達到了令研究者滿意的水平，足以支持後續的"最優刺激"圖像生成實驗。這意味著，至少在相當程度上，他們建立的AI模型已經能夠"懂得"神經元在想什麼。

---

七、反向驗證：生成的圖像真的能激活神經元嗎

生成了"最愛圖像"之後，研究團隊做了一個關鍵的驗證實驗。他們把這些AI生成的"最優刺激"圖像真正展示給獼猴看，同時記錄目標神經元的實際反應，看看這些圖像是否真的比普通自然圖像更能激活該神經元。

驗證結果是肯定的。對於大多數測試的神經元，AI生成的"最優刺激"圖像確實引發了比隨機自然圖像更強烈的神經元反應，有時候強出一大截。這個結果相當於一次漂亮的"實戰檢驗"——理論預測和現實相符，說明這套方法是真實有效的，而不只是紙面上的數字遊戲。

這個驗證環節的重要性不亞於發現本身。因為在神經科學研究中，理論和實驗相符並不是理所當然的事情——大腦比任何人工系統都複雜得多。這次驗證的成功，為後續更大規模地將AI工具應用於神經科學研究奠定了信心基礎。

贊助商廣告

---

八、從獼猴到人類：這套方法能否遷移

自然地，讀者可能會問：這些都是在獼猴身上做的實驗，和人有什麼關係？

這是一個合理的擔憂，研究團隊也認真對待了這個問題。獼猴的視覺皮層結構與人類高度相似，在神經科學研究中，獼猴一直是最常用的視覺研究模型動物。研究團隊在論文中詳細討論了這種相似性提供的外推可能性，同時也明確指出了直接將結論推廣到人類時需要謹慎的地方。

此外，團隊還探索了在人類被試中應用類似框架的初步可能性。由於在人類身上植入電極有嚴格的倫理限制，他們主要藉助功能性核磁共振成像（fMRI）來間接測量人類視覺皮層的活動。fMRI的時間和空間解析度雖然不如電極記錄精細，但它提供了一種無創的觀測窗口。這部分工作還屬於探索性質，結論相對初步，但方向已經指向了人類視覺神經科學研究的新可能性。

---

九、這項研究意味著什麼：打開了一扇新的門

說到底，這項研究最重要的貢獻不只是具體發現了哪些神經元喜歡什麼圖像，而是提供了一套可復用的、系統性的研究框架。

在此之前，神經科學家們研究神經元的偏好，基本上靠"碰運氣"——設計一批圖像刺激，看哪張更有效果，效率極低。現在有了這套AI驅動的框架，研究者可以更系統、更高效地探索神經元的特性，甚至可以針對特定神經元"定製"最有效的刺激圖像，大大加速神經科學研究的進程。

從更長遠的視角看，這種框架對於腦機接口技術、視覺假體（幫助盲人重獲視覺的設備）的開發，以及理解視覺相關疾病的神經機制，都有潛在的應用價值。以視覺假體為例，如果能精確知道人工電信號如何激活視覺皮層神經元，就能更精準地設計假體的刺激模式，讓盲人看到的"人工視覺"更接近真實視覺體驗。

歸根結底，這項研究講述的是一個AI和神經科學"互相幫助"的故事。神經科學給了AI靈感——CNN的結構本來就是受大腦啟發的；而AI反過來，幫助神經科學家更清晰地看懂大腦在做什麼。兩者在這裡形成了一個美妙的閉環。

贊助商廣告

當然，大腦的奧秘遠未被解開。這項研究就像在一片茂密森林裡開出了一條小徑——有了方向，有了工具，前路還很長，但至少再也不是漫無目的的摸索了。如果你對這些內容感興趣，可以通過DOI: 10.1038/s41593-023-01468-4找到這篇發表在《自然·神經科學》上的完整論文，原文中有更多技術細節和豐富的實驗數據值得深入探索。

---

Q&A

Q1：視覺皮層神經元"最優刺激"圖像是怎麼生成的？

A：研究團隊先用真實神經元的反應數據訓練一個預測模型，讓AI學會預測任意圖像對神經元的激活強度。然後通過一種叫做"梯度上升"的技術，不斷調整圖像像素，讓神經元的預測反應越來越強，同時用生成對抗網路（GAN）保證圖像看起來真實自然，最終找到能最大程度激活該神經元的圖像。

Q2：用獼猴做實驗得出的結論能適用於人類嗎？

A：獼猴的視覺皮層結構與人類高度相似，因此研究結果具有一定參考價值。但研究團隊強調，直接將結論推廣到人類需要謹慎。他們也初步探索了用功能性核磁共振成像（fMRI）在人類身上應用類似框架的可能性，這部分研究還屬於早期階段，尚無完整定論。

Q3：深度神經網路為什麼能模擬大腦視覺皮層的工作方式？

A：卷積神經網路（CNN）在設計之初就受到了大腦視覺皮層層級結構的啟發，二者都是"從簡到繁"地處理視覺資訊——低層處理邊緣和紋理，高層處理複雜形狀和概念。這種結構上的相似性，使得CNN能夠在一定程度上"模擬"神經元的反應規律，從而用於預測真實神經元對不同圖像的反應強度。