宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

Google DeepMind首席科學家Jeff Dean訪談:谷歌大腦項目起因是吳恩達和我談神經網路,看好未來AI兩個方向

2025年08月26日 首頁 » 熱門科技

The Moonshot Podcast發布了一期深度訪談影片,X公司"創始人"Astro Teller與Google DeepMind首席科學家Jeff Dean進行了一場近一小時的對話,回顧了Google Brain項目的早期歷程。

Jeff Dean可能是矽谷最被低估的"架構師"之一。不是因為他的技術不夠牛,恰恰相反,連那些工程英雄都把他當作偶像。而是因為他總是在建好一座大廈後就悄然離開,去尋找下一片空地。

GoogleDeepMind首席科學家JeffDean訪談谷歌大腦項目起因是吳恩達和我談神經網路看好

他在Google做過搜索算法、做過BigTable和Spanner這樣的存儲系統,又創立了Google Brain,每次都是從零開始,每次都改變了整個領域的遊戲規則。看完這期播客,我的感覺Jeff有很強的問題驅動特徵,一個問題,往往帶來一個重大技術方向的價值,比如語音識別帶來的用戶算力需求,直接催生了TPU。

接下來我們就講故事了。

有個細節很有意思。Jeff說他小時候搬了11次家,上了11所學校,唯一不變的是他的樂高積木總是跟著搬家車一起到達下一個地方。這種不斷重新開始、不斷建造的人生模式,似乎從9歲就開始了。當時他爸爸從雜誌背面看到一個電腦套件的廣告,可以自己焊接組裝。那是1970年代末,比Apple II還早一年多。最初這台機器只有閃爍的燈光和前面板的開關,後來有了鍵盤,再後來有了BASIC解釋器。Jeff從一本印刷的書上抄下101個BASIC遊戲程序,一行一行地輸入,然後開始修改它們。

這讓我想起文藝復興時期的工匠們。他們不是站在高處指揮的建築師,而是親手雕刻每一塊石頭的人。Jeff就是這樣一個數字時代的工匠,只不過他雕刻的是算法和系統架構。而Google Brain的故事,就像是他用2000台電腦搭建的一座數字大教堂。

1、"我有點愛恨交織的關係"

當Astro問Jeff最常用什麼編程語言思考時,Jeff的回答出人意料地坦誠:"我可能用C 最多,因為它是一種非常底層、性能導向的語言,我做的很多分布式系統工作都需要這種底層語言。但我和它有種愛恨交織的關係。它完全不安全,你可以覆蓋內存,而更現代的語言有很多好的特性。"

他提到在研究生期間,導師發明了一種叫Cecil的語言,具有非常好的面向對象特性和模塊化設計。他們用Cecil寫了一個編譯器,10萬行Cecil代碼,後端可以生成3000萬行C代碼。"那種語言的表達力和標準庫設計其實相當不錯,但可能全世界只有50個人用過。"

2、1990年,神經網路的第一次春天

Jeff第一次真正接觸人工智慧是在明尼蘇達大學的大四。那是1990年,他選修了一門分布式和並行編程的兩學期課程。"作為課程的一部分,我們接觸到了神經網路,因為它們是高度並行的計算形式。"

那時正值神經網路的一個小高潮期。"80年代末90年代初,神經網路有過一些興奮點,因為它們似乎能解決其他方法無法解決的有趣小規模問題。"Jeff解釋說,神經網路的抽象很簡單:人工神經元從下面獲取輸入,決定是否激發以及激發的強度,然後構建更複雜的系統。"當時3層的神經網路就算深了,現在我們在做100層的神經網路。"

他找到教授Vipin Kumar,申請做一個關於並行神經網路的畢業論文。"我想,也許我們可以用系裡的32處理器機器來訓練更大的網路,而不是用一個處理器。結果發現,我們需要的不是32倍的計算能力,而是100萬倍。"

即便如此,Jeff還是實現了兩種並行化神經網路訓練的方法:一種是數據並行(他當時叫"模式並行"),把輸入分成不同批次,每個處理器有網路的副本但只看到部分數據;另一種是模型並行,把大網路切成片,所有數據通過所有片。這些概念在30多年後的今天仍然是深度學習的核心。

3、在微廚房遇見吳恩達(Andrew Ng)

2011年,Jeff正在Google做Spanner大規模存儲系統。項目逐漸穩定,他開始尋找下一個要做的事情。就在這時,他在Google的微廚房碰到了Andrew Ng。

"Andrew是斯坦福的教授,我想是你或Sebastian把他帶到Google X的。他每周來一天。我問他,'你在這裡做什麼?'他說,'我還不知道。但我的學生在斯坦福開始在神經網路上獲得有趣的結果,用在語音和視覺應用上。'我說,'真的嗎?我喜歡神經網路。我們應該訓練真正大的網路。'"

這就是Google Brain團隊的起源。Andrew有一個"秘密":網路越大,效果越好,但沒人相信他。而Jeff正好是那個能把這個想法規模化的人。"Andrew的描述是,'我們需要的是Jeff。我們需要讓這個項目對Jeff有足夠的吸引力,這樣1 1就能等於10萬。'"

他們決定用Google數據中心的電腦來做分布式神經網路訓練系統。當時Google的數據中心還沒有GPU,所以他們用了2000台電腦、16000個CPU核心。"我們訓練了一個20億參數的電腦視覺模型。"

4、YouTube上的貓

最著名的突破是那隻"平均貓"。團隊用無監督學習算法,從YouTube隨機抽取了1000萬幀影片進行訓練。"這基本上是在為YouTube的隨機照片尋找一種壓縮算法。"Jeff解釋道。

模型的最高層有4萬個神經元,研究人員可以觀察是什麼讓這些神經元激發。"有趣的是,模型通過無監督學習基本上發明了'貓'的概念,因為在優化算法中,為與圖像底層像素中的'貓性'高度相關的特徵分配一些容量是有意義的。"

除了貓,他們還發現了其他特徵:行人的背影、有點詭異的人臉。"如果你平均那些讓特定神經元最興奮的東西,就可以創建出讓這個神經元最強烈激發的輸入模式。這就像進入某人的大腦,碰巧能夠刺激他們的'祖母神經元',然後他們開始想起祖母。"

在ImageNet 20000類別的基準測試中,這個巨型神經網路實現了60%的相對錯誤率降低,比之前的神經網路大50倍。在語音識別上,他們用800台機器訓練5天,實現了30%的詞錯誤率相對改善。Jeff強調:"這相當於20年語音研究進展的總和。"

5、如果1億人每天對手機說話3分鐘

2013年,語音識別的突破讓Jeff開始擔心一個"幸福的煩惱"。他做了一個思想實驗:"如果語音識別效果很好,人們會開始更多地使用它。以前每5個詞就有一個錯誤,聽寫到手機上然後糾正很多詞其實並不省時間。但如果每30或40個詞才有一個錯誤呢?"

"如果1億人開始每天對手機說話3分鐘會怎樣?"Jeff在幻燈片上計算,如果部署在CPU上,"我們每天需要18後面跟28個零的浮點運算。必須有更好的方法。"

這促成了TPU(張量處理單元)的誕生。神經網路有兩個很好的特性:主要是線性代數運算(矩陣乘法、向量點積),而且對精度降低有很強的容忍度。"不像高性能計算的數值模擬軟體需要64位或32位浮點數,神經網路實際上可以使用非常低的精度。第一代TPU只有8位整數運算,根本沒有浮點運算。"

後來的TPU增加了Bfloat16格式。"IEEE有一個16位格式,但對機器學習來說不太好,因為它同時失去了一些尾數位和指數位。對神經網路來說,你關心的是能夠表示非常寬的值範圍,而不太關心小數點後第五位。"

6、注意力就是你需要的一切

Jeff詳細介紹了語言理解的三個突破。首先是詞的分布式表示:"不是把'紐約市'表示為字符,而是用一個千維向量來表示它在高維空間中的內在含義和出現的上下文。"

這就是Word2Vec算法的魔力:"國王減去男人加上女人等於女王。在高維空間中,方向變得有意義。從公牛到母牛的方向,與從國王到女王的方向相同,與從他到她的方向相同。"

第二個突破是序列到序列模型,由Oriol Vinyals、Ilya Sutskever和Quoc Le開發。這個模型使用LSTM(長短期記憶網路)來處理序列。"你可以吸收一個句子,最終得到一個向量,代表模型對該句子的理解。然後用這個向量來初始化你要生成的序列的解碼。"這不僅適用於機器翻譯,還適用於醫療記錄、基因組序列等。

第三個突破是Transformer和注意力機制,由Noam Shazeer等八位合著者開發。"不是在每個詞更新單個向量,而是記住所有向量,所有我們經歷過的中間狀態,然後關注所有這些。"

雖然這在序列長度上是N平方的複雜度,但有一個巨大優勢:"處理文本時,你可以並行處理。不像LSTM有順序瓶頸,這裡你可以取1000個詞並行處理,計算所有需要的狀態然後關注它。這更適合現代ML處理器的高度並行矩陣單元。"

7、從製造到設計的轉變

談到AI的未來,Jeff認為我們正在經歷一個根本性轉變:"我們將看到從人類製造東西到人類更多地指定他們想要什麼的巨大轉變。這不一定更容易,但我認為會更有趣。它將為人們釋放大量創造力。"

他舉了Notebook LM的例子:"你可以輸入一堆PDF,說'請為我生成一個播客,用兩個AI生成的聲音來討論這份公司季度報告'。模型在幕後實際上可以做大量工作。"

當Astro問他個人如何使用AI時,Jeff說:"我用它來探索新領域。我會說,'告訴我某個我不太熟悉的新領域的令人興奮的新趨勢'。它會給我一些資訊,然後我可以提出後續問題。"

他強調個性化的重要性:"這種通用世界知識與你自己的個人狀態結合起來將是一個非常重要的趨勢。比如,'你能幫我在亞利桑那州找到下周我可能喜歡的餐廳嗎,類似於我去年在東京去過的那些?'它應該在你的許可下知道你做了什麼,並能夠提供非常個性化的建議。"

8、100萬個老師和一個學生

在討論AI的社會影響時,Jeff提出了一個有趣的願景:"我的一個觀點是,我們如何能有1億個老師和一個學生,或者說幾個能力很強的模型,一直被人們教授新東西,然後每個人都從這些教學中受益。"

他對教育特別興奮:"在學生教師比例很大的地區,你可以為每個學生配備一個個性化導師,幫助他們學習任何感興趣的東西。我認為這將是令人難以置信的變革。"

在醫療保健方面:"連接那些對個體醫生可能不太明顯但在訓練模型以獲得許多醫生經驗時非常明顯的模糊趨勢。"

但他也認識到挑戰:"虛假資訊不是新問題,但突然間你可以製作逼真的聲音和逼真的影片,讓某人說他們實際上沒有說的話。"這就是為什麼他與其他8位作者共同撰寫了一篇關於"塑造AI"的論文,探討AI發展中的社會問題。

9、理解他們的理解

關於理解神經網路的挑戰,Jeff指出:"這些模型現在如此之大,我們基本上已經放棄了像理解代碼那樣理解這些模型。我們現在理解它們的理解更像是神經科學,我們觀察這些數字大腦的部分,試圖推斷它們為什麼做它們所做的事情。"

他認為可解釋性研究的一個方向是交互式探測:"如果我想理解你為什麼做出某個決定,我會和你對話。我會說,'你為什麼選擇綠卡?這似乎是個奇怪的選擇。'然後你會回復,我可能會提出後續問題。"

"這有點像事後的辯解。僅僅因為我說這就是我這麼做的原因,並不一定意味著我相信這就是原因,或者即使我相信,那也不一定是我當時的真實動機。"

10、五年後的Jeff Dean

當被問到接下來五年的計劃時,Jeff的回答依然聚焦於實際問題:"我想花一些時間弄清楚如何讓能力極強的模型更具成本效益,能夠部署給數十億人。現在,我們最有能力的模型在計算成本方面相當昂貴。"

"我有一些正在醞釀的想法,可能行得通,也可能行不通。但這就是嘗試朝一個方向前進的美妙之處。有時你確實到達了你認為要去的地方,有時你走到一半就偏離了一點,但在過程中你會產生有用的東西。"

這很符合Jeff的風格。從11次搬家的孩子,到用2000台電腦訓練神經網路的工程師,他一直在建造、離開、然後重新開始。也許這就是真正的"登月精神":不是占據山頭,而是不斷尋找下一座要攀登的山峰。

三個核心洞察:

Q:為什麼Jeff Dean能一次次成功"重新開始"?

A:他有一種罕見的能力組合:既能深入底層細節(比如8位整數運算),又能看到系統全貌(2000台機器的協調)。更重要的是,他不戀棧權力,而是享受從零開始建造的過程。

Q:Google Brain最大的貢獻是什麼? 

A:不只是技術突破,更是證明了"規模"的力量。當學術界還在爭論神經網路是否有用時,他們用工業級的資源證明了:只要足夠大,它就能工作。這改變了整個領域的思維方式。

Q:AI的下一個突破會在哪裡? 

A:Jeff暗示了兩個方向:一是成本效率(讓強大的模型能被數十億人使用),二是個性化(將通用知識與個人狀態結合)。這意味著AI不再是少數人的工具,而會成為每個人的"認知延伸"。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新