Attention Is All You Need論文作者：我參與發明了Transformer，但現在只想取代它

2017年，八位Google研究員發表了一篇論文，需要一個標題。威爾斯人Llion Jones脫口而出："Attention Is All You Need"——靈感來自披頭士的"All You Need Is Love"。他後來回憶說，這個主意"花了五秒鐘"，"我沒想到他們真會用這個名字"。

贊助商廣告

這篇論文引入了Transformer架構，而"Transformer"這個名字也是Jones取的。如今，ChatGPT、Claude、Gemini——幾乎所有你能叫出名字的AI系統——都運行在Transformer之上。這篇論文的引用量超過17萬次，躋身21世紀被引用最多的十篇論文之列。八位作者曾全部離開Google——不過2024年8月，其中一位Noam Shazeer帶著27億美元的交易回歸，現在共同領導Google的Gemini項目。其餘七位中，多人創辦了總估值超過100億美元的AI公司。

Jones本人在Google待了近12年。他最初是YouTube的軟體工程師，2015年轉向機器智能研究。2023年8月，他離開Google，與前Google研究科學家David Ha在東京創辦了Sakana AI。離開的原因很直白：大公司病。他告訴媒體："官僚主義已經嚴重到讓我覺得什麼都做不成。"

這不是Jones一個人的感受。Google聯合創始人Sergey Brin在今年5月的All-in Summit上吐槽了他重返公司後的遭遇：他發現公司內部有一份清單，規定哪些工具可以用來寫代碼——而Google自家的Gemini居然在禁止名單上。"理由是一堆非常奇怪的原因，"布林說，"我和他們大吵了一架。"他去找CEO皮查伊，原話是："我沒法跟這些人打交道，你來處理這個。"

就在上個月的TED AI大會上，Jones公開宣布：他今年做了一個決定，大幅減少對Transformer的研究投入，轉向探索"下一個大東西"。他說："聽到Transformer的作者之一站在台上說他已經對Transformer厭煩透頂，可能有點爭議——但這也挺合理的，對吧？除了另外七位作者，沒人比我研究它更久了。"

這不是空談。他和Sakana AI的研究科學家Luke Darlow——一位來自南非、在愛丁堡大學拿到機器學習博士學位的年輕研究者——剛剛發布了一篇獲得NeurIPS 2025 Spotlight的新論文：連續思維機（Continuous Thought Machine, CTM）。最近，兩人一起做客Machine Learning Street Talk——深度學習領域最硬核的技術播客之一，以超長對話和對技術細節的窮追猛打著稱。這期節目的標題是："I Invented the Transformer. Now I'm Replacing It."（我發明了Transformer，現在我要取代它。）

贊助商廣告

AttentionIsAllYouNeed論文作者我參與發明了Transformer但現在只想取代它

公眾對Transformer的印象是"已經贏了"——規模定律、湧現能力、通用智能的曙光。但Jones和Darlow拋出了一個刺耳的判斷：整個行業可能正被困在一個"局部最優解"里。Transformer太成功了，成功到阻止我們去尋找真正的突破。

有一個細節可以說明這種"成功的詛咒"有多強：Jones說，在研究CTM的八個月里，他們從來沒有擔心過被"搶發"——因為根本沒有人在做類似的事情。

1. Transformer的發明者正在主動逃離Transformer

Jones開場就承認了一種"發明者的倦怠"。他說，除了論文的另外七位作者，沒有人比他研究Transformer更久了。但正因如此，他做出了一個反直覺的選擇：把精力從Transformer上撤出，轉向更具探索性的方向。他的原話是："這是一個過度飽和的空間。"

這不是因為Transformer沒有新東西可做，而是因為回報率在急劇下降——所有人都在同一條賽道上內卷。Jones說，他想利用自己的位置去做一些真正不同的事情，提高探索的比例。

2. Transformer的誕生不是規劃的產物，而是自由探索的意外收穫

Jones回憶了Transformer誕生時的氛圍，那和今天完全不同。沒有人從高層下達命令說"我們要研究這個方向"。Transformer是一群人午餐時聊天的產物——他們討論當前技術的瓶頸、頭腦風暴可能的解法，然後有幾個月的自由時間去嘗試，最終這個新架構就"掉出來了"。

Jones感嘆，這種氛圍今天已經很難複製。資源多了，人才多了，但自由反而少了。每個人都在賽跑，都在擔心被搶發，都在被要求證明短期價值。

3. 行業正在經歷"技術捕獲"，被自己的成功產品綁架

主持人提出了一個類比：YouTube上有一種現象叫"觀眾捕獲"（audience capture），創作者為了迎合算法和粉絲，逐漸失去創作自由，被自己的觀眾"綁架"了。AI領域正在經歷類似的事情——Jones稱之為"技術捕獲"（technology capture）。

OpenAI開始做搜索、做社交、做LinkedIn式的應用平台。學術界的論文變成了微調競賽：LayerNorm（一種防止訓練崩潰的"穩定器"組件）放在網路的哪一層？位置編碼（告訴模型"這個詞排第幾位"的標記方式）用哪種新變體？這些改動能帶來一點點性能提升，但本質上是在同一個框架里做裝修，不是蓋新房子。初創公司剛拿到融資就開始被追問"什麼時候出產品"。整個生態系統都被Transformer這個"成功的囚籠"鎖住了。

贊助商廣告

Jones說，他創辦Sakana的一個核心使命就是"保護研究者的自由"。公司內部是Kenneth Stanley那本《Why Greatness Cannot Be Planned》的忠實信徒——這本書的核心論點是：讓人追隨自己的興趣梯度，不被目標和委員會束縛，才是發現真正新東西的方式。Stanley下周要去Sakana演講，辦公室里擺著這本書的日文譯本。

但Jones也承認，隨著公司成長，這種自由會不可避免地被侵蝕。投資人要回報，產品要上線，壓力會越來越大。他的工作之一就是儘可能延緩這個過程。

4. 進化算法的遺憾：整個行業All-in Transformer時，沒人願意聽別的

Jones透露了一個遺憾。他曾經想做大規模的進化搜索實驗——把當年用幾萬美元算力跑的"人工生命"模擬放大到幾億美元的規模，看看會湧現出什麼。

但他提出這個想法的時候，整個行業都在All-in Transformer。沒有人感興趣。零反饋。

這成了他創辦自己公司的原因之一：既然在大公司里推不動這些方向，那就自己建一個地方來做。

5. RNN時代的"1.26到1.24"內卷，正在Transformer時代重演

Jones回憶了Transformer出現之前的日子。那時候主流是RNN（循環神經網路），一種能"記住"之前輸入內容的神經網路，特別適合處理文本、語音這類有先後順序的數據。但RNN有個致命問題：處理長序列時，早期資訊會逐漸被遺忘。於是研究者們發明了LSTM和GRU——兩種靠"門控機制"來管理記憶的改進方案。想像你腦子裡有個筆記本，每讀到新資訊，你要決定：寫進去嗎？擦掉舊內容嗎？把內容說出來嗎？LSTM有三道這樣的"門"，GRU簡化成兩道。

那個年代的論文就是在這些細節里打轉：門放在哪一層？初始化用什麼值？層與層之間怎麼連接？每篇論文帶來的進步用"bits per character"來衡量——這個指標表示模型預測下一個字符需要多少資訊量，數字越低越聰明。進步的節奏是：1.26 → 1.25 → 1.24。這種微小的改進足以發表頂會論文。

贊助商廣告

然後Transformer來了，一步跨到1.1。有同事跑到他們桌前說："你們是不是搞混單位了？是nats不是bits吧？"——因為如果結果真的是bits，那就好得離譜了。所有那些精細的RNN改進工作，一夜之間變得毫無意義。

Jones的警告是：我們現在可能正在重蹈覆轍。下一個"1.1時刻"會讓今天所有關於Transformer的微調論文同樣變成歷史的註腳。

6. "更好"不夠，必須"壓倒性地好"才能撼動既有架構

為什麼明明有論文證明某些架構比Transformer更好，行業卻不換？

Jones給出了一個冷酷的答案：訓練Transformer的軟體已經高度成熟，所有人都知道怎麼微調、怎麼做推理、怎麼調試，內部機制被研究得很透。整個生態系統——從硬體到框架到人才儲備——都是圍繞Transformer建立的。

"比Transformer好"是不夠的。必須好到像當年Transformer碾壓RNN那樣——快10倍、准10倍——才可能讓整個行業遷移。而這種"碾壓級差距"反過來提高了發現下一個突破的難度：因為每次有人做出一個小改進，OpenAI那邊就把模型做大10倍，又追平了。引力太強，逃逸速度太高。

7. "螺旋應該被表達為螺旋"——這句話揭示了當前AI最深層的缺陷

Jones提到了一篇被拒稿的論文，但他把它當作"海報案例"來講。

那篇論文用經典的螺旋數據集測試不同的神經網路——想像一張圖上有兩條纏繞的螺旋線，紅點和藍點各分布在一條線上，任務是讓網路學會區分它們。ReLU網路和tanh網路都能正確分類所有點——測試準確率100%。但如果你畫出它們的決策邊界（也就是網路用來劃分"紅區"和"藍區"的那條線），你會發現：ReLU網路的邊界是無數條折線拼湊出來的"偽螺旋"，像是用樂高積木硬拼出一條曲線。而論文裡提出的矩陣指數層，決策邊界本身就是一條光滑的螺旋。

Jones的觀點是：前者"解決了問題"，但它並不"理解"螺旋是什麼。它無法外推——因為真正的螺旋是會繼續旋轉下去的，而那堆折線在訓練數據之外就會完全失效。

贊助商廣告

"如果數據是螺旋，我們難道不應該把它表示為螺旋嗎？"

這句話聽起來像是常識，但放在今天的AI語境下卻幾乎是異端。因為主流範式是：只要準確率夠高，內部表示是什麼不重要。Jones認為這正是當前AI"看起來聰明但容易犯低級錯誤"的根源——一種被他稱為"鋸齒狀智能"（jagged intelligence）的現象：能解決博士級難題，下一秒卻說出明顯荒謬的話。

他還舉了影片生成模型的例子。曾經有一段時間，AI生成的人像手指數量不對，這成了識別AI內容的方法。後來通過更多數據、更大模型、更好的訓練技巧，手指問題被"修復"了。但Jones質疑：我們真的解決了問題，還是只是用更大的蠻力把問題蓋住了？如果模型真的理解"人手有五根手指"，它一開始就不會畫錯。

8. CTM的核心理念：讓模型"走迷宮"而不是"看迷宮"

Luke Darlow接過話題，解釋了CTM的設計思路。

傳統方法處理迷宮問題是這樣的：給一個卷積神經網路看一張迷宮圖片，讓它直接輸出一張同樣大小的"路徑圖"——0表示牆，1表示通路。這相當於模型"一眼看穿"整個迷宮，瞬間輸出答案。對機器來說這很容易做到。

但如果你要求模型像人類一樣輸出一串導航指令——"上、上、右、左、上"——難度會急劇上升。因為這是一個本質上需要序列化思考的問題：你必須先走第一步，才能知道第二步該往哪走。

CTM的做法是引入一個"內部思考維度"（internal thought dimension）：模型可以在輸出答案之前，先進行多步內部運算。它不是一次性"看到"答案，而是一步步"走出"答案——每一步都可以回顧之前的狀態，調整方向，甚至回溯錯誤。這讓模型獲得了一種類似於"思考時間"的東西。

訓練方式也很特別。他們用了一種"自動課程學習"（auto-curriculum）：模型先學會預測第一步，等第一步穩定了，再訓練它預測第二步、第三步……逐步提升難度。這不是一次性灌輸100步的解法，而是讓模型自己bootstrap上去。

贊助商廣告

9. 神經元被重新定義：每個神經元本身就是一個小模型

CTM的第二個創新是對"神經元"概念的重塑。

傳統神經網路里的神經元是"無記憶"的：它只看此刻收到的輸入，立刻給出輸出，然後就"忘了"——下一時刻對之前發生過什麼一無所知。最常見的ReLU激活函數本質上就是一個開關：輸入大於零就輸出原值，小於零就輸出零。

但真實的生物神經元遠比這複雜。CTM讓每個神經元成為一個"神經元級模型"（Neuron-Level Model, NLM）：它不只看"現在輸入是多少"，而是看"過去一小段時間內，我的激活值經歷了怎樣的起伏"——就像看心電圖，你看的是一條曲線，不是一個點。基於這段"小歷史"，神經元再決定輸出什麼。這意味著同樣的當前輸入，如果歷史不同，輸出也會不同——神經元有了上下文感知的能力。

Darlow說，這是在生物學和深度學習之間找一條中間路線：既借鑑大腦神經元的動態特性，又保留反向傳播、並行計算這些讓深度學習高效的特性。

10. 同步性成為表示的核心：不是"此刻神經元什麼狀態"，而是"神經元們如何共舞"

第三個創新是CTM對"表示"（representation）的重新定義。

傳統做法是：模型在某一時刻的"狀態"就是所有神經元激活值的快照——一個向量。如果有1000個神經元，狀態就是一個1000維的向量，相當於1000個"詞彙"來描述世界。

CTM不這樣做。它測量的是神經元對之間的"同步程度"——兩個神經元的激活時間序列有多相似。如果兩個神經元總是同時活躍、同時沉寂，同步度就高；一個活躍時另一個沉寂，同步度就低。這個靈感來自神經科學：大腦的"思考"不是某一瞬間的快照，而是神經元群體隨時間共振、協調的模式。

這帶來一個有趣的數學結果：如果你有d個神經元，傳統表示的維度是d，但同步性表示的維度是d²/2——每一對神經元都貢獻一個維度。換算一下：1000個神經元從1000維暴漲到約50萬維，能捕捉的細微差別大幅增加。

贊助商廣告

但這50萬維不需要50萬套參數來支撐——它們是從1000個神經元的動態行為中"免費"衍生出來的，就像一個班30個學生，你不用考435次試就能知道每兩個學生之間的成績差距。而且因為同步性計算天然涉及所有時間步的資訊，梯度可以更順暢地傳播，訓練更穩定。

他們還引入了"指數衰減率"來處理不同的時間尺度：有些神經元對關心的是"剛才這一瞬間是否同步"，有些關心的是"過去很長一段時間的同步趨勢"。這借鑑了大腦中不同腦波對應不同思維狀態的現象。

11. 意外發現：CTM幾乎完美校準，簡單問題秒答、難題才深思

Darlow分享了兩個讓團隊驚喜的意外發現。

第一個是自適應計算時間。他們在ImageNet分類任務上測試CTM，損失函數的設計方式是：找到模型"最准"的那個時間點和"最確信"的那個時間點，在這兩個點上計算損失。結果發現，簡單圖片在1-2步就被正確分類了，模型幾乎立刻就"確信"了；而困難圖片會自然地使用更多思考步數。沒有任何顯式的懲罰項去約束計算量——這種行為是自然湧現的。

第二個是校準特性。傳統神經網路有個老毛病叫"過度自信"：訓練久了之後，模型預測"90%是貓"，但實際可能只有70%的時候是對的。業界有很多事後補救的技巧來修正這個問題。但CTM訓練完之後，幾乎完美校準——說90%就真的是90%。這完全不在設計目標里，是意外收穫。

12. 模型自己學會了"時間不夠就跳著走"的算法

Darlow分享了另一個讓他震驚的發現。

他們訓練CTM解決迷宮問題，但故意限制"思考步數"——比如迷宮需要100步才能走完，但只給模型50步的"思考預算"。結果模型沒有放棄，也沒有隻走一半路然後停下，而是自己發明了一種策略：

先跳到迷宮中大致正確的位置，從那裡往回追溯路徑；然後再跳到更遠的位置，再往回填；如此反覆，用一種"跳躍式回填"的方法，在有限時間內儘可能多地覆蓋正確路徑。

贊助商廣告

沒有人教它這樣做。沒有任何損失函數鼓勵這種行為。這是從約束中自發"湧現"出來的算法創新。

還有一個觀察：在訓練中期，模型會出現"走錯路然後回頭"的行為——它沿著一條路徑走下去，意識到錯了，回溯，嘗試另一條路。到訓練後期，它變得更高效了，這種回溯減少了。但早期那種"試錯"行為本身就很有趣——它說明模型在某種意義上有了"糾錯"的能力。

13. CTM與神經圖靈機的關係：離散vs連續

主持人問到CTM和Alex Graves的神經圖靈機（Neural Turing Machine）有什麼關係——那也是一種試圖給神經網路加入"思考"能力的架構。

Darlow說確實有關係，但有一個關鍵區別：神經圖靈機的核心是"讀寫記憶"，而讀寫是離散操作——你要麼寫入一個位置，要麼不寫。這帶來了訓練上的挑戰。

CTM的路線是讓推理在連續的潛在空間（latent space）中展開，迴避了離散操作的問題。Darlow沒有宣稱CTM是圖靈完備的，但他認為這種連續展開的方式為解決不同類型的任務打開了新的可能性。

14. 未來方向：長期記憶與多智能體"文化記憶"

主持人問到如何擴展CTM的能力，Darlow透露了團隊正在探索的一個方向：長期記憶。

他描述了一個實驗設想：把多個智能體放進同一個迷宮裡，但每個智能體只能看到自己周圍5×5的小區域。給每個智能體一套儲存和檢索記憶的機制，任務是找到出口。模型需要學會如何構建記憶——比如記住"上次在這個岔路口走錯了"，下次回到同一位置時選擇另一條路。

更有趣的是：如果多個智能體共享同一個記憶系統會發生什麼？它們能否形成某種"文化記憶"——一個智能體的探索經驗可以被其他智能體利用，從而協作解決更大的問題？

Darlow認為，記憶將是AI未來發展的關鍵要素之一。

15. AI Scientist：100%AI生成的論文被接收了，但Jones想要的是交互式合作

話題轉向Sakana的另一個項目：AI Scientist。這是一個端到端的系統，可以從一個種子想法出發，自動構思研究方向、寫代碼、跑實驗、收集結果、撰寫論文——全程不需要人類介入。

贊助商廣告

他們甚至讓一篇100% AI生成的論文被一個workshop接收了。

但Jones說，這更多是一個"概念驗證"——證明這件事技術上可行。他真正想要的，是一個交互式的AI研究夥伴。他希望能給AI一個初步想法，AI回來提更多想法，兩人討論，然後AI去寫代碼，他檢查代碼，一起看結果、一起分析。就像帶一個實習生：你不可能把一個模糊的想法扔給實習生然後消失四個月，你需要持續的對話和引導。

當被問到"未來AI會不會完全取代人類科學家"時，Jones說他來回搖擺。他用西洋棋做類比：曾經有一段時間，人類+AI的組合能打敗純AI；但那個時代已經過去了，現在加入人類反而會拖累AI的表現。如果AI科學家也到了那一天，人類該怎麼辦，是一個更大的話題。

16. Sudoku Bench：源自"腦中思維軌跡"的靈感

Jones在節目最後推介了他們發布的新基準測試：Sudoku Bench。

靈感來自Andrej Karpathy的一句話：訓練AGI真正需要的不是網際網路上的文本，而是人類在寫下這些文本時腦中的思維軌跡——如果你能從那個數據學習，才會得到真正強大的東西。

Jones想：這種數據肯定存在於某個地方。他最初想到哲學裡的"意識流"寫作，但後來發現了一個更好的來源——YouTube頻道"Cracking the Cryptic"。這個頻道的兩位英國紳士會用幾個小時解一道極難的數獨，全程詳細解釋自己的每一步推理。

這些不是普通的數獨。它們是"變體數獨"（variant Sudoku）——在標準規則之上，疊加各種手工設計的額外約束，每道題都有獨特的"機關"。有的謎題會在自然語言描述中故意寫錯一個數字，解題的第一步是先找出規則描述里的錯誤；有的謎題在數獨格子上疊加一個迷宮圖案，老鼠必須從起點走到奶酪，而走過的路徑上的數字必須滿足特定的數學約束。

他們獲得了頻道的許可，爬取了數千小時的影片，把專家的思維軌跡整理成數據集開源——這可能是世界上最高質量的"人類推理過程"數據之一。

贊助商廣告

17. 為什麼當前的RL方法在Sudoku Bench上失敗

目前最好的模型只能解決約15%的題目，而且全是最簡單的那些。Jones說，GPT-5有進步，但仍然無法解決人類專家能解的謎題。

他們內部也嘗試用強化學習（RL）來攻克這個基準，但失敗了。Jones認為問題在於採樣：這些謎題的解法需要找到一個獨特的"突破口"（breakin）——某個反直覺的切入點，讓整個謎題瞬間變得可解。人類專家看一眼就能識別出"這是一個集合論問題"或者"這裡需要用路徑追蹤"。

但要讓RL學會這種推理模式，你首先需要碰巧採樣到它。而這些模式太稀疏、太特殊了，隨機探索幾乎不可能撞上。所以模型會退化為暴力枚舉："這格填1？不行。填2？不行。填3……"——這和人類專家那種充滿創造性的推理完全是兩回事。

Jones的判斷是：如果有人能真正攻克這個基準，他們必然已經創造出了極其強大的推理系統。這不是一個靠"再加點算力"就能解決的問題。