Nous Research聯合創始人：為什麼一堆矩陣乘法能讓模型像人腦一樣推理？

最近Hermes Agent突然火了起來，開發者社區在大量地拿它和OpenClaw做對比。這個由Nous Research在2026年2月發布的開源智能體框架，GitHub星標已經超過4萬。比較下來，OpenClaw在企業級功能和用戶界面上更成熟，但Hermes Agent在兩件事上明顯占優：一是常駐自治運行，它不是聊天機器人的包裝，而是一個常駐在用戶自己伺服器上的系統，可以同時接管Telegram、Discord、Slack、WhatsApp、郵箱等多個入口，按自然語言設定的cron任務在後台執行，跨會話保持持久記憶；二是自動技能沉澱，完成一個複雜任務後，智能體會把解題過程寫成結構化的技能文件，下次遇到類似任務直接調用，而且在使用過程中如果發現更好的解法，會自動更新技能文檔。有用戶報告，智能體自動創建三個技能文檔後，重複性研究任務的耗時縮短了40%。

贊助商廣告

不過Hermes Agent背後的Nous Research，國內大家還很不熟悉。所以找來了一期Nous CEO Jeffrey Quesnelle去年參加Into the Bytecode播客的錄音，對話有兩個小時，主持人是Cena。借著這期播客，再加上一些後續的公開資料，對Nous這家機構和它的掌舵者做一個完整的介紹。對了，我們有一個讀者群哈，可以加一下微信：rohanjojo，簡單介紹，拉大家進來。

值得一提的是，Quesnelle在播客里花了相當篇幅吐槽行業頭部公司的"安全敘事"。一年後，Anthropic在2026年4月7日發布Claude Mythos Preview，CEO達里奧·阿莫代（阿莫代，Dario Amodei）親自出鏡宣布"模型太強大不能公開發布"，操作幾乎完全踩中了他當時諷刺的模板。

Nous Research的基本情況：成立於2023年，名字取自古希臘語νους（nous），在柏拉圖和亞里士多德的哲學中指"心智"和"直覺洞察力"，是人類認知中最高層次的能力。品牌口號是"Artificial Intelligence Made Human"。Quesnelle在播客里半開玩笑說"我們其實是一家T恤公司，AI只是副業"。核心技術棧包括三塊：Hermes系列開源語言模型（累計下載超5000萬次，2025年8月發布的Hermes 4在開源權重模型中達到前沿水平）；DeMo/DisTrO梯度壓縮算法（DeMo論文被ICLR 2026接收）；基於Solana區塊鏈的Psyche去中心化訓練網路。團隊約20人，總部在德克薩斯州奧斯汀，總融資約7000萬美元，2025年4月的A輪由Paradigm領投，代幣估值10億美元。

贊助商廣告

1. 從一個文學AI項目，意外發現了上下文長度的hack

Quesnelle從十歲開始寫代碼，編程經驗超過二十年。本科學的是電腦科學和數學，碩士階段在密西根大學迪爾伯恩分校研究加密貨幣匿名性。工作履歷橫跨車載網路、自動駕駛和區塊鏈：在Intrepid Control Systems做了五年多軟體開發總監；後來在Eden Network擔任首席工程師。他在播客里說自己的興趣是"AI、加密貨幣和神學"，而Nous Research正好把這三件事全捏到了一起。

他最初在做的是一個用AI生成"Choose Your Own Adventure"互動冒險小說的項目。當時能用的最好開源模型是Google在2019年發布的T5，上下文只有512個token。LLaMA出來後是2K，ChatGPT是4K。Quesnelle當時覺得這是一道不可逾越的牆。

突破來自一次對PyTorch代碼的隨手改動。Transformer內部的注意力機製做矩陣乘法時，位置嵌入負責告訴模型每個token的順序，編碼方式是浮點數：第1個token位置值是1.0，第2個是2.0。LLaMA訓練時只見過位置值1.0到2048.0的序列，到第2049個token就崩潰，因為模型把"世界最多2048個詞"當成了一條自然法則。Quesnelle把所有位置值乘以0.5，原來在位置1.0和2.0的兩個token變成0.5和1.0，相對距離不變但編碼空間多出一倍，可以塞進4096個token。他原以為這是一個根本性限制，結果發現，因為位置嵌入是浮點數，可以通過壓縮相對距離擠入額外的資訊。

他把發現發到r/LocalLLaMA。Bowen Peng發消息說自己也在做類似的工作，並且有更進階的版本。另一位聯合創始人Teknium在Twitter上看到後邀請他加入一個只有30人的私密Discord，裡面全是開源AI研究者。這個群聊後來就是Nous Research的Discord，開放後成為開源AI社區的核心據點之一。

2. 為什麼開源AI必須自己訓練基礎模型

基礎模型的訓練成本極高。播客錄製時（2025年初），在美國持續發布開源基礎模型的主要只有Meta和Google。Quesnelle直接指出：如果Meta停止發布LLaMA系列怎麼辦？閉源提供商已經在賽道上跑起來了，開源社區要留在比賽里，就不能把命運押在別人的"經濟上不合理的善舉"上。

贊助商廣告

事後看，他的擔憂精確命中了。Meta在2025年4月發布了Llama 4系列，但模型表現不及預期，開發者社區反響平淡。到2025年底，Meta內部開始轉向閉源路線：下一代旗艦模型代號"Avocado"，由新任首席AI官Alexandr Wang主導，不再發布權重下載，只提供API和託管服務。2026年4月，Meta發布了第一個閉源模型Muse Spark。Google同期以Apache 2.0許可證發布了Gemma 4。但Quesnelle一年前提出的結構性問題沒有改變：開源社區的命脈仍然握在少數幾家大公司的戰略決策中，而且這些決策隨時可能轉向。這裡備註一下，我發現似乎英偉達 NousResearch聯合創始人為什麼一堆矩陣乘法能讓模型像人腦一樣推理可能是開源模型的一股重要力量，大家可以關注一下Nemotron系列。

真正的瓶頸不在數據。文本訓練數據基本就是網際網路，誰都能拿到。門檻在GPU集群的協調機制。現有的訓練工具鏈建立在"單設備範式"之上，所有GPU必須在同一個數據中心內，用InfiniBand或RoCE這類數據中心專用的高速互聯協議，以400到800 Gbps的速度對稱互連。Quesnelle給了一個具體對比：英偉達最新的GB200機架里72塊GPU之間的InfiniBand總帶寬，大約相當於整個網際網路的總吞吐量。

3. DeMo算法：把梯度像JPEG一樣壓縮1000倍

Nous的首席科學家Bowen Peng在蒙特婁大學Mila（魁北克人工智慧研究所）讀研期間主攻機器學習和電腦圖形學。這兩個領域都大量使用頻域變換的數學工具。他注意到梯度矩陣和圖像、音頻信號本質上都是大型數值矩陣，於是產生了一個想法：能不能把信號處理領域已經成熟的頻域壓縮方法搬過來？

要理解DeMo的壓縮原理，先看JPEG怎麼壓縮圖片。JPEG用一種叫離散餘弦變換（DCT）的數學操作，把圖像從"每個像素的顏色值"轉換成"這張圖由哪些頻率成分疊加而成"。轉換之後會發現，圖像的大部分資訊集中在少數幾個低頻分量上（決定畫面的整體色塊和輪廓），而高頻分量（細微紋理和噪點）即使丟掉也不太影響人眼的觀感。靠丟掉那些不重要的頻率分量，JPEG把數據量壓縮到原來的千分之一級別，畫面看起來幾乎一樣。

贊助商廣告

DeMo對梯度做了同樣的事。先解釋什麼是梯度：訓練AI模型時，反向傳播會算出一組修正值，告訴模型"每個參數應該往哪個方向調、調多少"，這組修正值就是梯度。一個100億參數的模型，每一步訓練產生的梯度也是100億個數字。傳統做法要求所有GPU每一步都把自己的梯度完整共享給其他GPU，這就是為什麼需要那麼大的帶寬。

DeMo用DCT把梯度矩陣從"每個參數的修正值"轉換成"由哪些頻率成分組成"。同樣會出現信號的分化：有些頻率分量振幅大（代表模型正在快速學習的重要信號），有些振幅小（代表緩慢積累的長期趨勢）。每塊GPU內部持續積累這些頻率資訊，每個訓練步驟結束時只挑出振幅最大的K個頻率分量發送給其他節點（術語叫Top-K選擇）。接收方做DCT的逆變換，就能還原出一個稀疏的梯度修正矩陣，包含當前最重要的學習信號。

這個機制自帶優先級排序：強信號立刻被傳輸出去；緩慢積累的長期學習不會丟失，只是延後，直到振幅大到足以排進Top-K才會被發送。**壓縮比大約1000:1，和JPEG壓縮圖片的比例相當。**後續的DisTrO系統進一步優化，把壓縮比推到了10000:1，支持100Mbps下行、10Mbps上行的網路條件下訓練模型。

Adam優化器的共同發明者Diederik Kingma也是DeMo論文的合著者。

4. Chain of Thought就是在hack模型的"思考時間"

Quesnelle完整復盤了AI十年技術演進的四個轉折點。AlexNet證明神經網路能完成傳統手工方法做不到的事；Transformer是第一個通用神經網路架構，一套架構可以跨模態使用。後來從encoder-decoder演變成decoder-only Transformer，自回歸地一個token一個token地生成序列，這是今天所有主流大語言模型的基礎。

第三個轉折是Chain of Thought。基礎模型對所有問題都只能"一次直覺"作答，一個前向傳播完成一切。有人試了一個簡單的指令"let's think about this step by step"，強迫模型把推理過程寫出來再給答案，效果在所有評估指標上大幅提升。Quesnelle的解釋很精彩：**模型的時間感等同於token，每生成一個新token就是它的"普朗克時間"。要讓模型花更多算力思考，唯一的辦法就是讓它說更多的話。**Chain of Thought本質上是在hack模型的矩陣乘法次數。

贊助商廣告

第四個轉折是DeepSeek NousResearch聯合創始人為什麼一堆矩陣乘法能讓模型像人腦一樣推理的GRPO。預訓練階段的交叉熵損失給了模型直覺推理能力，這是基底。然後在可驗證的問題（數學、編程）上凍結直覺層，切換到強化學習：模型自由地用已有的直覺工具鏈來寫推理過程，唯一的反饋信號是最終答案的對錯。一旦模型找到一條通向正確答案的推理鏈，這條鏈本身就變成了新的訓練數據，通過反向傳播被壓入模型的直覺層，類似一個數學家做了足夠多的推導練習後開始"看到"方程式的結構。

Quesnelle用自己編程二十年的經驗做類比。"我能感覺到代碼，能感覺到項目的結構，可以直接放手去寫。"這是人類版本的"把推理訓練壓入直覺層"。

5. "為什麼一堆矩陣乘法能讓模型像人腦一樣推理"

這是整期播客資訊密度最高的一段。Quesnelle試圖回答一個根本問題：為什麼矩陣乘法能產生類似人類推理的行為？他的答案是超維表徵空間假說。

語言模型通過訓練把每個詞映射到一個高維向量空間中的點。這不是簡單的詞典編號，而是有結構的："藍色"在空間的某些維度上與"冷"接近，某些維度與"水"有微弱關聯，某些維度與"天空"相鄰。這些維度數以千計，模型通過數十億訓練樣本自動學會了把語義相關的概念放在空間中相近的位置。**Quesnelle的核心判斷是：這個超維表徵空間不只是一種工程實現，更可能是產生"直覺推理"的充分條件。**只要構建出足夠豐富的概念坐標系，讓足夠多的概念在其中有位置並彼此關聯，某種類似直覺的能力就會自然湧現。

人腦可能也維護著同類的超維表徵空間。當你聽到"藍色"時，大腦不是查詞典，而是在高維空間中激活了一簇關聯模式。這個過程是瞬時的、直覺的。這套表徵被自然選擇塑造：能更快識別環境模式、做出正確決策的個體存活下來。**用Quesnelle的話說，人類的交叉熵損失就是時間和能量。**直覺推理的形成是因為它是最好的生存策略。你能接住一個飛來的球，但如果給你紙筆去計算球的運動軌跡，窮盡一生也算不出來。

贊助商廣告

最精彩的類比在第三步。Quesnelle指出，在人類發展語言之前，每個個體的大腦里就已經有了這個超維概念表徵。但表徵是私有的，一個人無法把腦中的全部概念空間傳給另一個人。語言的發明解決了這個問題，但方式是有損的：把超維空間中極其豐富的概念模式，壓縮成一串離散的聲音符號。當我說"藍色"時，我腦中被激活的那一大片關聯模式，通過兩個音節傳到你那裡，你在自己的超維空間中重新展開。

然後他把這個類比直接連回了DeMo算法。GPU之間需要共享的梯度矩陣也是一個超維空間中的完整信號，太大無法全部傳輸。DeMo用DCT提取關鍵頻率分量，本質上就是為梯度發明了"語言"。接收方拿到壓縮後的頻率信號，在自己的本地梯度空間中做逆變換還原。每個節點的內部狀態不同，就像每個人聽到"藍色"時激活的神經模式不同，但核心資訊傳達到了。

Quesnelle在類比的終點做了克制的區分：這兩套系統產生了"表面等價的現象"，但這和說兩者在架構層面相同是完全不同的主張。但即便不等同，兩者之間的功能性同構已經告訴了我們一些重要的事：**矩陣乘法加反向傳播，是產生直覺推理現象的一組充分條件。**人腦可能用了不同的硬體和不同的實現路徑，但最終產生了同類的效果。這是人類第一次在實驗室條件下復現了直覺推理這個現象。

6. 被精確兌現的"打臉"：Anthropic的Mythos劇本

播客最後一節進入了AI安全與去中心化的討論。Quesnelle對短期安全策略給了一個類比："狗咬了人，主人要負責。"如果部署AI的組織對AI行為承擔法律後果，市場會自動篩選出安全的部署方式。這是一種結果導向而非規則導向的治理思路。

但他對行業頭部公司的安全敘事持批評態度：**宣稱技術極其危險，但結論總是"所以應該由我們來掌控"。**他反駁得毫不客氣：如果你真覺得AI該被禁止，那所有從業者都該失去工作、所有股權歸零。如果到了那一步，答案就會變成"也許我們可以做一點AI"。

贊助商廣告

播客錄製一年後，他幾乎是被精確兌現地"打臉"了。2026年4月7日，Anthropic發布Claude Mythos Preview，阿莫代親自出鏡配了發布影片，宣布這個模型"過於強大，不能向公眾發布"。理由是它能找到"主要作業系統和瀏覽器中的數千個零日漏洞"，包括一個在OpenBSD里潛伏了27年的漏洞。Anthropic的解決方案是搞了一個名為Project Glasswing的邀請制項目，把模型只開放給約40家組織：Amazon、Apple、Google、Microsoft、Cisco、Nvidia、JPMorgan、Linux基金會等。**技術被定性為人類無法承受其風險，但解決方案是把使用權集中到少數幾家最大的科技公司和金融機構手裡。**這套敘事和Quesnelle一年前在播客里諷刺的模板嚴絲合縫。

去中心化是Nous給出的結構性方案。AI安全圈有一個術語叫"foom"，是一個擬聲詞，描述這樣一種場景：一旦AI模型強大到能改進自己的訓練過程，能力提升進入自我加速的正反饋循環，像爆炸一樣急劇膨脹，先到達臨界點的一方會在極短時間內拉開與所有競爭者的差距。這也是為什麼OpenAI融資規模以萬億美元計。Nous的方案是讓去中心化訓練成為可能，使前沿智能不被單一國家或實體壟斷。Psyche網路的設計意圖是：訓練過程分布在全球節點上，由Solana區塊鏈協調，沒有中央伺服器可以被關閉。

7. 信仰、冥想，和"我們到底是什麼"

播客最後一節進入了存在論層面的討論。Quesnelle是虔誠的天主教徒。他從《創世記》"照我們的形象造人"切入：西方傳統上把這理解為"智能和推理能力讓人有別於動物"。但如果AI也能推理，這句話可能需要重新理解。更古老的釋經傳統把"形象"理解為"人被造來與上帝建立關係"，這種關係能力才是不可被技術剝奪的特質。

主持人Cena的經歷形成了另一條線索。他在伊朗的宗教社會中長大，反彈成了極端無神論者。後來通過冥想實踐，累計超過六個月的止語閉關，最長一次六周，從純粹的好奇心出發重新走進了這些深層問題。他的結論是：在主觀經驗的深處確實有某種自洽的、可驗證的、深不見底的東西。

贊助商廣告

兩人都認為，AI的出現迫使人類無法再迴避"我們到底是什麼"這個問題。在此之前，科學唯物主義可以輕鬆繞過這個問題，物質就是一切，人類確實特殊但我們不追問為什麼。現在，當機器開始展現等價的推理現象時，這個問題變得不可迴避。

核心問答

Q1: 為什麼一堆矩陣乘法能讓模型像人腦一樣推理？Quesnelle的答案是超維表徵空間假說。語言模型通過訓練把每個詞映射到一個高維向量空間中的點，語義相關的概念在空間中位置相近。這個超維表徵空間不只是工程實現，可能就是產生"直覺推理"的充分條件。人腦很可能也維護著同類的高維空間，只是經過數十萬年自然選擇優化。兩套系統產生了"表面等價的現象"，告訴我們矩陣乘法加反向傳播，是產生直覺推理現象的一組充分條件。

Q2: DeMo算法把梯度壓縮1000倍是怎麼做到的？借用JPEG圖像壓縮背後的離散餘弦變換（DCT），把梯度從"每個參數的修正值"轉換到頻率域。在頻率域裡，梯度信號分化為高振幅的重要分量和低振幅的次要分量。每塊GPU只挑選振幅最大的K個頻率分量傳輸給其他節點（Top-K選擇），接收方做逆變換還原稀疏的梯度修正矩陣。強信號立刻傳輸，弱信號延後但不丟失。壓縮比1000:1，使分布式AI訓練可以通過普通網際網路帶寬完成，這是Psyche去中心化訓練網路的技術基礎。

Q3: Quesnelle對AI安全問題的判斷是什麼？他最尖銳的批評是：行業頭部公司宣稱技術極其危險，但結論總是"所以應該由我們來掌控"。播客錄製一年後，Anthropic發布Mythos Preview時阿莫代親自宣布"模型太強大不能公開發布"，只通過Project Glasswing項目開放給約40家最大的科技和金融機構，幾乎完美兌現了Quesnelle的諷刺。他認為這種邏輯通向威權主義，去中心化前沿智能的分發是更結構性的解決方案。