編者按:「一次人類智慧的匯聚,創造出一台機器,而這台機器最終可能會主宰一切」。這篇來自 WIRED 的專訪,為我們講述了現代人工智慧的起源,以及 transformer 創始團隊 8 人組偶遇的背後故事:
1. 科學論文「Attention Is All You Need」如今已經到達了傳奇地位,其中所提及的 Transformer 架構正在影響著所有人的生活。
2. Transformer 的故事始於 Uszkoreit,遞歸神經網路在解析較長文本時遇到困難, 因此從 2014 年起他開始構思一種不同的方法:自注意力(self-attention)。
3. Uszkoreit 與 Google 的兩位同事共同起草了文檔,他們用「Transformer」命名除了單詞意義與技術原理相近,還因為 Uszkoreit 本人小時候對孩之寶玩具有著美好的回憶。
4. Shazeer 的加入對團隊至關重要,他拿出了自己的基本想法,並且把它做出來了。Shazeer 將整個架構提升到了一個新的水平。
5. 在論文截止提交之前,他們測試了兩種 Transformer 模型超越了所有競爭對手,並徹底打破了之前的紀錄。
6. 後來,該模型幾乎應用於所有形式的人類表達,研究團隊計劃將其擴展「圖像、音頻和影片」領域的研究。
7. 這篇改變世界的論文標題,來源於 The Beatles(披頭士樂隊)的一首歌「All You Need Is Love」,Uszkoreit 提議把論文命名為「Attention Is All You Need」。
8. OpenAI 首席執行官 Sam Altman 所說「當 Transformer 論文發表時,我想 Google 的任何人都沒有意識到這意味著什麼。」
9. 論文在 2017 年 12 月引起了巨大關注,在長達四個小時的會議中,擠滿了想了解更多資訊的科學家,創始團隊聊到嗓子沙啞,直到晚上 10:30,人們仍然聚集在那裡。
10. 論文的 8 位作者都相繼離開了 Google,但他們創立的公司和旗下產品,都是基於 Transformer 技術。
原文地址:https://www.wired.com/story/eight-google-employees-invented-modern-ai-transformers-paper/
2017 年春天,一篇名為「Attention Is All You Need」的科學論文中,列出了 8 位作者。他們都是 Google 的研究人員,儘管其中一人那時已離開了公司。
當團隊中最資深的研究者 Noam Shazeer 看到論文初稿時,他驚訝地發現自己的名字排在第一位,暗示著他的貢獻是最重要的。
「我沒有想太多」他說。
在確定作者排名時,總是要小心翼翼——誰獲得那個令人垂涎的第一作者,誰被擠到後面。特別是在這樣一個案例中,每個參與者都在一個真正的集體努力中留下了獨特的印記。
研究人員們急於完成他們的論文,最終決定「破壞」對貢獻者排名的慣例。他們在每個名字旁邊加了一個星號,並附上腳註:「平等貢獻者,排名順序是隨機的」。
作者們在最後期限前將論文提交給了一個人工智慧會議,並引發了一場革命。
現在,「Attention」論文即將迎來第七個周年紀念日,它已經達到了傳奇地位。
作者們從一個蓬勃發展且不斷改進的技術——神經網路的 AI——中汲取靈感,並將其變成了另一種東西:一個如此強大的數字系統,其輸出感覺像是外星智能的產物。
這種架構被稱為 Transformer,它是那些令人驚嘆的 AI 產品(包括 ChatGPT 和圖形生成器,如 Dall-E 和 Midjourney)背後的秘密武器。

Shazeer 現在開玩笑說,如果知道那篇論文會變得如此出名,他「可能會更擔心作者順序」。現在,這 8 個簽名者都小有名氣。
「有人找我自拍,因為我出現在一篇論文上!」排名第 5 的 Llion Jones 說。
「沒有 transformers,我想我們現在就不會在這裡了」Geoffrey Hinton 說。他不是作者之一,但可能是世界上最著名的 AI 科學家。他指的是我們所處的時代,指的是 OpenAI 和其他公司正在建立可以與人類輸出相媲美甚至超越的系統。
自從論文發表以來,這 8 位作者都離開了 Google,像其他數百萬人一樣,他們現在以某種方式與他們在 2017 年創造的系統合作。在與 Transformer 8 人組交談里,我們試圖拼湊出創新的本質:
一次人類智慧的匯聚,創造出一台機器,而這台機器最終可能會主宰一切。
Transformer 的故事始於第 4 個名字:Jakob Uszkoreit。

Jakob Uszkoreit.
Uszkoreit 是知名計算語言學家 Hans Uszkoreit 的兒子。20 世紀 60 年代末,Hans 還是一名高中生時,因抗議蘇聯入侵捷克斯洛伐克而在東德被監禁 15 個月。獲釋後,他逃到西德,在柏林學習電腦和語言學。後來他到了美國,在加州門洛帕克的一個研究機構 SRI 的人工智慧實驗室工作時,Jakob 出生了。
最終,他和家人一起回到了德國,Jakob 也在那裡一直上完了大學。一開始,他並沒有打算專注於語言,但在開始研究生學習時,他在 Google 的山景城辦公室實習,進入了公司的翻譯組。
後來他選擇加入家族企業,為此還放棄了博士計劃,並於 2012 年決定加入 Google 的一個團隊,該團隊正在研究一個系統,可以在不將用戶轉向其他網站的情況下,在搜索頁面本身對用戶的問題做出響應。
那時,蘋果剛剛推出 Siri,一個承諾提供一次性答案的虛擬助手,Google 的高管聞到了巨大的競爭威脅:Siri 可能會吞噬他們的搜索流量。他們開始更加關注 Uszkoreit 的新團隊。
「這是一場假恐慌」Uszkoreit 說。Siri 從未真正威脅過 Google。但他歡迎有機會深入到那些可以與我們進行某種對話的系統。
當時,遞歸神經網路——曾經是學術界的冷門——突然開始超越其他 AI 工程方法。這些網路由許多層組成,資訊通過這些層傳遞,再傳遞,以確定最佳的響應效果。神經網在圖像識別等領域取得了巨大的勝利,AI 復興突然開始。

Google 也在同一時期瘋狂地重新安排其勞動力以採用這些技術。它們希望擁有能夠生成類似人類的響應系統——在電子郵件中自動完成句子,或創建相對簡單的客服聊天機器人。
但是,這個領域正遇到局限性:遞歸神經網路在解析較長文本時遇到困難。
例如, 「Joe 是一名棒球運動員,吃了一頓好早餐後,他去了公園並得到了兩次擊球」,為了理解「兩次擊球」,語言模型必須記住關於棒球的知識。
公認的解決方案是一項名為「長短期記憶」(LSTM)的發明,這項創新允許語言模型處理更大、更複雜的文本序列。

但是,電腦仍然嚴格按順序處理這些序列——逐字逐句——並且錯過了後來在段落中可能出現的內容線索。「我們應用的方法基本上是創可貼」Uszkoreit 說,「我們無法讓正確的東西真正大規模工作」。
大約在 2014 年,他開始構思一種不同的方法:自注意力(self-attention)。這種網路可以通過參考段落中的任何部分來翻譯一個詞。這些部分可以澄清一個詞的意圖,並幫助系統產生良好的翻譯。
Uszkoreit 說「它實際上考慮了所有內容,並為您提供了高效地查看許多輸入同時取出的方式」。儘管人工智慧科學家小心翼翼,儘量不將神經網路的比喻與生物大腦的實際工作方式混淆,但 Uszkoreit 似乎相信,自注意力與人類處理語言的方式在某種程度上相似。
Uszkoreit 認為,自注意力模型可能比遞歸神經網路更快、更有效。它處理資訊的方式也正好適合大量生產出來的強大並行處理晶片,以支持機器學習熱潮。它沒有採用線性方法(按順序查看每個詞),而是採用更並行的方法(一起查看一堆詞)。如果做得正確,Uszkoreit 懷疑,人們可以專門使用自注意力來獲得更好的輸出結果。
並非所有人都認為這個想法會顛覆世界,包括 Uszkoreit 的父親。
Uszkoreit 在 Google 工作時,還獲得了兩項 Google Faculty 研究獎。
「人們揚起眉毛,因為這拋棄了所有現有的神經網路架構」Jakob Uszkoreit 說,「我和我爸爸在餐桌上的對話中,我們並不一定看法一致」,爸爸甚至認為捨棄遞歸神經網路是「異端」的想法。
Uszkoreit 說服了一些同事和他一起研究自注意力。他們的工作很快證明了這項新技術的前景,並在 2016 年發表了一篇論文。
Uszkoreit 想要推動他們的研究更深入——團隊實驗只使用了微小的文本片段——但他的合作者都不感興趣。不過這依然無法阻止他的腳步:
懂得那篇論文的人,對收穫成果並將其部署在 Google 的各種地方感到興奮,包括搜索,最終還包括廣告。在很多方面,這都是一個驚人的成功,但我並不想就此止步。
Uszkoreit 認為,自注意力可以承擔更大的任務。這時,他在 Google 園區北緣查爾斯頓路 1945 號的白板上,勾勒出他的願景。
2016 年的一天,Uszkoreit 在 Google 咖啡館與一位名叫 Illia Polosukhin 的科學家共進午餐。出生在烏克蘭的 Polosukhin 已經在 Google 工作了近三年。他被分配到提供直接回答搜索領域問題的團隊,但是工作並不順利。

Illia Polosukhin.
要在 Google.com 上回答問題,你需要非常便宜且高性能的東西,因為你有隻有毫秒級的響應時間。
當 Polosukhin 抱怨時,Uszkoreit 毫不費力地提出了解決方案:「為什麼不使用自注意力?」。
Polosukhin 偶爾會與 Ashish Vaswani(Google 的同事)合作,他出生在印度,於中東長大,後來去了南加州大學,在該校的精英機器翻譯組獲得博士學位。之後,他搬到山景城,加入 Google 中一個名為 Brain 的新興組織。

Ashish Vaswani.
他將 Brain 描述為「一個激進的小組」,相信「神經網路將推動人類理解」。但他仍在尋找一個大項目來工作。Vaswani 的團隊在 1965 號樓工作,隔壁剛好是 1945 號樓的語言團隊,他聽說了自注意力的想法後,覺得這可能就是期待中的大項目,因此也參與到了這項研究當中。
這三位研究者一起起草了一份名為「Transformers: Iterative Self-Attention and Processing for Various Tasks」的設計文檔。Uszkoreit 說,他們從「day zero」選擇了「Transformer」這個名字。因為,這項技術的機制是轉換它所接收的資訊,允許系統提取儘可能多的理解——或者至少給人留下印象。
另外,Uszkoreit 小時候對孩之寶玩具(變形金剛的英文是 Transformers,由美國孩之寶公司與日本特佳麗公司合作製作)有著美好的回憶。
文檔最後是一幅卡通圖像,六個變形金剛在山區地形中相互發射雷射。
2017 年初,Polosukhin 離開 Google,並創辦了自己的公司,新的合作者紛紛加入。
一位名叫 Niki Parmar 的印度工程師在美工作時移居美國。她於 2015 年從南加州大學獲得碩士學位,並且收到了所有大型科技公司拋來的橄欖枝,她最終選擇了 Google。剛開始工作時,她就加入了 Uszkoreit 的團隊,致力於改進 Google 搜索的模型變種。

Niki Parmar.
另一位新成員是來自威爾斯的 Llion Jones。在伯明罕大學就讀期間,他上了一門人工智慧課程,並對神經網路產生了好奇心,這些網路在當時被視為歷史遺留問題。

Llion Jones.
2009 年 7 月,Jones 獲得了碩士學位,不過他在畢業後失業了一段時間,靠救濟生活了幾個月。後來,他在當地一家公司找到了工作,然後向 Google 遞交了一份「絕望的賭注」申請。不出意外,他得到了這份工作並最終加入了 Google Research,他的經理就是 Polosukhin。
有一天,Jones 從一位名叫 Mat Kelcey 的同事那裡聽說了自注意力的概念,後來他也加入了 Transformer 團隊。
有意思的是,在 Jones 加入了 Transformer 後,還向引薦人 Kelcey 介紹了該項目,但 Kelcey 並不買賬,她並不認為這項技術會起作用,
「這基本上是我一生中最大的錯誤預測」,Kelcey 說。
Transformer 的工作吸引了其他也在嘗試改進大型語言模型的 Google Brain 研究員。這當中包括波蘭出生的理論電腦科學家 Łukasz Kaiser 和他的實習生 Aidan Gomez。

Łukasz Kaiser.
Gomez 在加拿大安大略省的一個小農場村長大,每年春天他的家人都會在楓樹上取糖漿。作為多倫多大學的一名三年級學生,他「愛上了」人工智慧,並加入了機器學習小組——Geoffrey Hinton 的實驗室。

Aidan Gomez.
在此期間 Gomez 開始聯繫在 Google 寫過有趣論文的人,並提出擴展他們工作的想法。Kaiser 就上鉤了,還邀請他到 Google 實習。直到幾個月後,Gomez 才得知這些實習機會是給博士生準備的,而不是像他這樣的大學生。
Kaiser 和 Gomez 很快就會明白,自注意力看起來像是一個有前途的、更激進的解決方案,而且他們正在解決這個問題,Gomez 說:
我們曾就是否想要合併這兩個項目進行過一次深思熟慮的討論,答案是肯定的。
此時,Transformer 團隊開始構建一個自注意力模型,用於將文本從一種語言翻譯成另一種語言。他們使用一個名為 BLEU 的基準來衡量其性能,該基準將機器的輸出與人類翻譯員的工作進行比較。
從一開始,他們的新模型就表現良好,Uszkoreit 說「我們已經從沒有任何概念,證明到了至少與當時最好的 LSTM 替代方法相媲美的水平,但與長短期記憶相比,它並沒有表現得更好」。
他們已經達到了一個平台期——直到 2017 年的一天,Noam Shazeer 偶然聽說了他們的項目。

Noam Shazeer.
Shazeer 是一位經驗豐富的 Google 員工——他在 2000 年入職,並以公司早期廣告系統方面的工作而成為內部傳奇人物。Shazeer 在深度學習領域工作了五年,最近對大型語言模型產生了興趣。但這些模型遠未達到他所相信的可能產生流暢對話的水平。
正如 Shazeer 回憶的那樣,他當時正在 1965 號樓的走廊里走著,經過 Kaiser 的工作空間。他發現自己正在聽一場熱烈的談話:「我記得 Ashish 在談論使用自注意力的想法,Niki 對此非常興奮。我想,哇,這聽起來是個好主意。這看起來是一群有趣、聰明的人在做一些有前途的事情。」
Shazeer 發現現有的遞歸神經網路「令人煩躁」,他想:「我們去替換它們吧!」
Shazeer 的加入對團隊至關重要。「這些理論,如自注意力,總是需要非常仔細的實施,通常由少數經驗豐富的魔法師來展示」Uszkoreit 說,對此 Shazeer 立即開始施展他的魔法。他決定自己編寫 Transformer 團隊代碼的版本。
對於這段經歷, Shazeer 分享到「我拿出了基本想法,並且自己把它做出來了」。他在此期間使用的一些技術和技巧,團隊後來會用「魔法」、「鍊金術」和「鈴鐺和哨子」這樣的詞來描述,
總之,Shazeer 將系統提升到了一個新的水平。
「那引發了衝刺」Gomez 說。他們充滿動力,也想要趕上即將到來的截止日期——5 月 19 日,這是年度最大 AI 活動,12 月神經資訊處理系統會議提交論文的截止日期。隨著矽谷的冬天變成春天,實驗的步伐加快了。
他們測試了兩種 Transformer 模型:一種經過 12 小時訓練產生的模型,以及一個經過三天半訓練的更強大的版本,名為 Big。他們將它們用於英德翻譯。
基本模型超越了所有競爭對手——Big 獲得的 BLEU 分數,徹底打破了之前的紀錄,同時計算效率也更高。
Parmar說「我們用的時間比外面任何人都要少,而且這才剛剛開始,因為數字還在不斷提高」。當 Uszkoreit 聽到這個消息時,他從他的卡車裡拿出一瓶陳年香檳。
在截止日期前的最後兩周,他們陷入了瘋狂。儘管團隊中有些人名義上仍在 1945 號樓有辦公桌,但他們大部分時間都在 1965 號樓工作,因為那裡有一個更好的濃縮咖啡機。「大家都沒睡覺」Gomez 說,作為實習生,他一直處於不斷地調試狂潮中,並為論文製作了一些圖表。
在這樣的項目中,剝離是很常見的過程,拿掉一些看似累贅的東西,看看剩下的是否足以完成工作。
「這裡面有各種技巧和模塊組合——哪個有用,哪個沒用。我們把一些部分扯出來,再用其他的來代替」Gomez 說。
在Shazeer的助力下,Transformer 產生了「一些極簡的東西」,對此,Jones 認為 Noam 是個巫師。
Vaswani 回憶起一天晚上,在團隊寫論文時,他在辦公室沙發上睡著了。他盯著將沙發與房間其他部分隔開的窗簾,被上面的圖案吸引,這讓他想起了突觸和神經元。Gomez 在那裡,Vaswani 告訴他,他們正在研究的東西將超越機器翻譯:
最終,就像人腦一樣,你需要將所有這些模式——語音、音頻、視覺——統一在一個架構下,我有一種強烈的預感,我們正在研究更通用的事情。
然而,在 Google 的高層看來,這項工作只是另一個有趣的 AI 項目。
但 Uszkoreit 說在當時「我們明白這可能是一件相當大的事情,這讓我們真正著迷於論文最後一段中的一句話,我們在那裡評論未來的工作。」
後來,Transformer 模型幾乎應用於所有形式的人類表達。研究團隊對基於注意力的模型的未來感到興奮,並計劃將 Transformer 擴展到涉及除文本以外的輸入和輸出模式的問題,而且還要繼續開展在「圖像、音頻和影片」領域的研究。
在截止日期前的幾個晚上,Uszkoreit 意識到他們需要一個標題。Jones 覺得他們的團隊已經對注意力進行了激進的拒絕,特別是長短期記憶網路(LSTM),The Beatles(披頭士樂隊)有一首歌叫「All You Need Is Love」,那為什麼不把論文命名為「Attention Is All You Need」?

他們一直在收集實驗結果,直到截止前的最後兩分鐘的時候,他們發送了論文。
幾乎和所有科技公司一樣,Google 迅速為這項工作申請了臨時專利。這樣做的目的不是阻止他人使用這些想法,而是為了建立專利組合以進行防禦。(該公司的理念是:如果技術進步,Google 將從中受益。)
當 Transformers 團隊從會議同行評審員那裡得到反饋時,他們的反應是複雜的:「一個正面,一個極其正面,還有一個說這個還可以」。
這篇論文被列為其中一個晚上的海報會議。
到了 12 月,這篇論文終於引起了人們的關注。12 月 6 日,在長達四個小時的會議中,會議室一直擠滿著想了解更多資訊的科學家。創始團隊成員一直聊到嗓子沙啞,直到晚上 10:30,人們仍然聚集在那裡,在保安告知不得不散場離開後,回憶才算結束。
對 Uszkoreit 他來說,這個過程中,最滿意的時刻之一可能是電腦科學家 Sepp Hochreiter 走過來讚揚這項工作,考慮到 Hochreiter 是長短期記憶的聯合發明者,這對 Transformers 來說是一個很大的讚美,因為 Transformer 剛剛取代了它在 AI 工具包中的首選地位。
Transformer 並沒有立即接管世界,甚至 Google。Kaiser 回憶說,在論文發表的時候,Shazeer 建議 Google 的高管放棄整個搜索,並用 Transformer 訓練一個巨大的網路——這基本上是改變 Google 組織資訊的方式。

那時,即使是 Kaiser 也認為這個想法很荒謬。但現在,普遍的觀點是:這只是時間問題。
一家名為 OpenAI 的初創公司反應非常快。論文發表後不久,OpenAI 的首席研究員 Ilya Sutskever 建議科學家 Alec Radford 跟進這個想法。結果,誕生了第一批 GPT 產品。
正如 OpenAI 首席執行官 Sam Altman 去年所說:
當 Transformer 論文發表時,我想 Google 的任何人都沒有意識到這意味著什麼。
而 Google 內部的情況更為複雜,Uszkoreit 說「對我們而言, Transformer 很明顯能做到神奇的事情,現在你可能會問,為什麼 2018 年 Google 沒有 ChatGPT?實際上,我們可能在 2019 年,甚至 2020 年就有了 GPT-3 或 3.5。關鍵問題不是他們看到了什麼?問題是,我們看到了什麼,為什麼不去做任何事情?這個問題的答案很棘手。」
許多技術評論家指出,Google 正在從以創新為中心的遊樂場,轉變為以底線為重點的官僚機構。正如 Gomez 告訴《金融時報》的那樣,「他們沒有現代化。他們沒有採用這項技術」。
但對於一個技術領先行業幾十年並從中獲得巨大利潤的巨頭公司來說,這樣做需要很大的勇氣。
Google 確實在 2018 年開始將 Transformer 集成到產品中,從翻譯工具開始。同年,它還引入了一種名為 BERT 的新基於 Transformer 的語言模型,從第二年開始應用於搜索。
但這些底層變化與 OpenAI 的量子躍進和微軟大膽地將基於 Transformer 的系統集成到其產品線相比,似乎有些畏縮。去年,當被問及為什麼 Google 沒有率先推出像 ChatGPT 這樣的大型語言模型時,CEO Sundar Pichai 爭辯說:
在這種情況下 Google 發現讓別人領導是有利的。對我來說,這並不是完全清楚它可能會成功。事實是,人們看到了它的工作方式後,我們可以做得更多。
一個不可否認的事實是,論文的 8 位作者都相繼離開了 Google:

Polosukhin 的公司 Near 建立了一個市值約 40 億美元的區塊鏈。
Parmar 和 Vaswani 在 2021 年成為商業夥伴,創辦了Adept(估值 10 億美元),現在正在創辦他們的第二家公司,名為 Essential AI(800 萬美元資金)。
Llion Jones 的總部位於東京,他們研發的 Sakana AI 估值為 2 億美元。
Shazeer 在 2021 年 10 月離職,與他人共同創辦了 Character AI(估值 50 億美元)。
實習生 Aidan Gomez 在 2019 年與他人共同創辦了位於多倫多的 Cohere(估值 22 億美元)。
Jakob Uszkoreit 的生物技術公司 Inceptive ,估值為 3 億美元。
除了Near,上述所有的公司和旗下產品,都基於 Transformer 技術。
Kaiser 是唯一一個沒有創立公司的人。他加入了 OpenAI,並且是名為「Q*」的新技術的發明者之一,Altman 去年表示這項技術「將無知之幕推回,並將發現的前沿推向前進。」
在接受 WIRED 的採訪時,記者試圖向 Kaiser 詢問有關 Q* 的業務時,OpenAI 的公關人員幾乎跳過桌子來阻止他出聲。
Google 是否想念這些「逃亡者」?當然,除了從公司遷移到新的 AI 初創公司的人,因為 AI 領域的流動非常非常動態。但 Google 可以吹噓它創造了一個支持追求非傳統想法的環境。
Parmar 認為「在很多方面,Google 一直走在前列——他們投資了正確的大腦,並創造了我們可以探索和突破的環境,花時間接受它是瘋狂的,而 Google 實際上有更多的賭注」。
沒有這樣的環境,就沒有 Transformer。不僅是因為作者都是 Google 員工,他們還在同一棟辦公樓里工作,走廊相遇和無意間聽到的午餐對話導致了重要的時刻。
並且,這個團隊在文化上也是多元化的。八個作者中有六個出生在美國以外;另外兩個分別是兩個持綠卡的德國人在加州暫住期間生的孩子,以及一個逃離迫害的第一代美國人。
在柏林辦公室的 Uszkoreit 說,創新完全取決於正確的條件:
這是要找到那些對某事超級興奮的人,他們正處於生活中的正確時刻,如果你有這個(條件),並且在做這件事的時候感到快樂,並且你在正確的問題上工作——而且你很幸運——那麼魔法就會發生。
Uszkoreit 和他的著名父親之間也發生了某種神奇的事情。他的兒子報告說,在所有那些餐桌上的辯論之後,Hans Uszkoreit 現在與人共同創立了一家公司,該公司正在構建大型語言模型。
當然,它們使用的也是 Transformer。