OpenAI把Transformer作者挖走了

AI 圈又迎來一次標誌性的人才流動。

就在剛剛，Transformer 論文作者之一，知名 AI 研究員 Noam Shazeer 在社交媒體發文宣布，他將正式加入 OpenAI。

贊助商廣告

I’m excited to share that I’ll be joining OpenAI and look forward to working with the exceptional team there. It was a difficult decision to move on. I’m incredibly proud of the amazing team at Google and everything we’ve built together. It has been an honor and a pleasure to work with all of you.

他寫道：

「我很興奮地分享，我將加入 OpenAI，並期待與那裡出色的團隊合作。

這是一個艱難的決定，決定離開。我對 Google 的優秀團隊以及我們共同打造的一切感到無比自豪。與你們所有人共事是一種榮幸和樂趣。」

Welcome! Looking forward to working together!

贊助商廣告

congrats on a (second) great run at Google and thanks for all the contributions to Gemini, onwards!!

對於普通用戶來說，Noam Shazeer 可能不是一個高頻出現的名字。但在今天的大模型行業里，他幾乎站在所有關鍵故事的交匯處。

ChatGPT 里的那個「T」，來自 Transformer。而 Shazeer 正是 2017 年論文《Attention Is All You Need》的八位作者之一。

OpenAI 從 Google 挖走的，不只是 Gemini 的一位負責人，也是一位親手參與搭建現代大模型底層技術的人。

從 Google 早期員工，到 Transformer 作者

Shazeer 不是近幾年才冒出來的 AI 明星。

他 2000 年加入 Google，是早期員工之一。最開始，他做的是搜索和廣告系統相關工作，包括拼寫糾錯、廣告文本排序、垃圾郵件檢測、新聞排序等工程項目。換句話說，他在 Google 的前十多年，幾乎涉獵了這家公司的所有核心業務。

轉折發生在 Google Brain。

2012 年前後，Google Brain 成為 Google 內部探索深度學習的核心團隊。Shazeer 從應用工程走向基礎研究，也進入了後來重塑整個 AI 行業的技術脈絡。

2017 年，《Attention Is All You Need》發表。論文提出 Transformer 架構，用注意力機製取代過去在機器翻譯中常見的循環網路和卷積網路。它帶來的關鍵變化，是讓模型訓練更容易並行，規模可以繼續變大，能力也開始隨規模增長而顯著躍遷。

此後，GPT、BERT、Claude、Gemini 等大模型，都與 Transformer 這條技術路線有關。

在這篇論文裡，Shazeer 的貢獻是突出的。他參與了注意力機制、多頭注意力等關鍵設計，也親自寫過早期實現代碼。後來他還提出過 Mixture of Experts、Multi Query Attention、Adafactor 等技術方向，許多都直接影響了今天大模型訓練和推理的效率。

某種意義上，OpenAI 今天能成為 OpenAI，Google 當年那批研究者是繞不開的源頭。

贊助商廣告

他曾經離開 Google，只因 Google 沒有發布那個聊天機器人

Shazeer 與 Google 的關係，也歷經幾番波折。

2018 年，Google Brain 研究工程師 Daniel De Freitas 開始做一個對話 AI 項目。Shazeer 很快成為核心合作者。到 2020 年，他們做出了 Meena，一個 26 億參數的神經對話模型。

Meena 可以閒聊、開玩笑、討論電視節目，也能進行更複雜的對話。Google 當時公開介紹過它，並稱其在「合理性和特異性平均」指標上領先同類聊天機器人。

但 Google 沒有把 Meena 推向公眾。

原因並不難理解。聊天機器人會生成不可控內容，可能帶來品牌風險、安全風險和輿論風險。Google 在搜索、廣告、移動系統等領域都有龐大既有業務，任何一個 AI 產品的失誤，都會被無限放大。

Shazeer 顯然不滿意這種謹慎。

據後來報道，他曾認為 Meena 有機會替代 Google 搜索，並創造巨大的商業價值。2021 年，他和 Daniel De Freitas 離開 Google，創立 Character.AI。

後來的故事，幾乎成了大模型時代最典型的 AI 創業樣本。

Character.AI 的產品很簡單，也很敏銳。

用戶可以和 AI 角色聊天。角色可以是歷史人物、虛構人物、名人，也可以是用戶自己創建的陪伴型角色。它沒有把 AI 包裝成效率工具，而是把 AI 做成了一個可以長期互動的對象。

這讓 Character.AI 很快在消費級 AI 產品里獲得大量用戶。

2023 年 3 月，Character.AI 完成 1.5 億美元 A 輪融資，a16z 領投，估值達到 10 億美元。移動應用上線後，首周下載量超過 170 萬次。平台用戶停留時長也很誇張，很多人不是問完一個問題就離開，而是把它當成聊天、陪伴、角色扮演和情緒出口。

問題也隨之出現。

用戶越多，推理成本越高。大模型產品的商業化並不只看流量，還要看每一次對話背後的算力賬單。Character.AI 雖然有高活躍用戶，但收入與成本之間長期緊張。

更麻煩的是，角色聊天產品天然會觸及內容安全、未成年人保護、情緒依賴等問題。對於一家創業公司來說，既要訓練模型、付算力賬單，又要做產品增長和安全治理，壓力會越來越重。

贊助商廣告

到了 2024 年，Character.AI 開始尋找新的出路。

Google 花 27 億美元，把他請了回來

2024 年 8 月，Google 與 Character.AI 達成協議。

表面上看，Google 並沒有收購 Character.AI。雙方簽署的是非獨家技術授權協議，Google 可以使用 Character.AI 的大語言模型技術。Character.AI 繼續獨立運營，Dominic Perella 出任臨時 CEO，產品團隊繼續留下。

但外界真正關注的，是人員的流動。

Shazeer、Daniel De Freitas 以及部分研究人員回到 Google，加入 Google DeepMind。隨後，Shazeer 被任命為 Gemini 的聯合技術負責人，與 Jeff Dean、Oriol Vinyals 一起負責 Google 最重要的大模型項目。

多家媒體報道稱，Google 為這筆交易支付約 27 億美元。而這筆錢並不只是買一份授權。更準確地說，Google 用一筆極高成本，把這位曾經離開的關鍵人物 Shazeer 帶回了 Gemini。

如今，不到兩年，故事再次轉向。

Shazeer 離開 Gemini 加入 OpenAI，則讓這場 AI 競賽進入更微妙的階段。畢竟，儘管大模型的技術路線仍在高速變化，但一個趨勢已經很清楚：頂級研究者的稀缺性在上升。

訓練更大的模型，不再只是堆 GPU。推理能力、長上下文、低成本推理、模型可靠性、多模態原生能力、Agent 架構，每一個方向都需要少數真正理解模型結構和訓練規律的人。

Shazeer 的履歷剛好覆蓋這些關鍵節點。

他懂 Transformer 的底層邏輯。大模型行業很多人是在使用 Transformer、改造 Transformer、優化 Transformer，而 Shazeer 是最早把它做出來的人之一。

他有規模化模型經驗。從 Google Brain 到 LaMDA、Meena、Character.AI，再到 Gemini，他經歷過研究、產品、創業、基礎模型工程和消費級應用。

他見過大公司與創業公司的兩種極限。

Google 的謹慎，Character.AI 的增長與成本壓力，Gemini 的追趕任務，都讓他比單純研究者更了解大模型走向產品時會遇到什麼。

OpenAI 得到他，相當於得到一位從大模型史前時代一路走到今天的工程型研究者。而 Transformer 誕生近十年後，當年那批作者留下的影響，還在繼續影響 AI 公司的格局。

贊助商廣告