第一條就是能夠吸取經驗並從中充分學習,以便對離散行為的結果做出某種預測。對於這個過程,我們通常稱之為思考。另一個重點則在於經歷並改造這個物質世界。稱霸這個世界的第三點必要條件,則是在很低的能量消耗配額之下完成這一切。而第四個關鍵要素,體現在集體行動與個體犧牲——也就是思考與行動之間的融合上,這也是人類與生態鏈中低等動物之間的最大區別所在。
而從英偉達聯合創始人兼首席執行官黃仁勛的主題演講來看,AI系統似乎正在順利實現第一點。日前,英偉達在拉斯維加斯消費電子展(CES)上發布的全新的Cosmos世界基礎模型,更是標誌著其正朝著第二個重點奮力前進。
好消息是,人類似乎每天仍只需消耗幾千卡路里的熱量就能維持思考和行動——但這種低功耗狀態下的思考和行動速度,明顯跟不上英偉達及其合作夥伴為人類社會的未來構想的數十億人形機器。或者更確切地說,是他們新手塑造並把握的未來形態。相信曾經為人父母、撫養孩子上過大學的朋友都知道,人類的培養與成長過程是極其昂貴的。整個周期至少需要18年,大多需要23年甚至25年,期間投入大量金錢(往往在30萬到50萬美元之間)才能最終培養出一個具備參與生產與自給自足能力的成年人。
雖然鮮有人直接提及,但這其實就是AI及其驅動的機器人將在未來幾年顛覆的客觀經濟規律。
在CES主題演講之前以及期間,英偉達公司高管所做的預發布會一直在暗示這一「機遇」的重要意義。而最終敲下定音一錘的黃仁勛,則為華爾街乃至全球觀眾描繪了一幅關於AI技術的未來圖景。
三相之力
可能很多朋友都聽過這種說法,即世界上的大多數組織都只需要三台電腦。我們需要一套DGX系統來訓練AI模型,該系統搭載有大量英偉達GPU、CPU以及DPU。旗艦級DGX設備為DGX GB200 NVL72機架級系統,黃仁勛不僅用自己閃亮的鱷魚皮夾克讓拉斯維加斯現場的觀眾們眼前一亮,還拿一個巨大的晶圓晶片模型當作教具給大家上起了課。理論上,這樣一塊晶圓可以容納全部晶片,下面我們將對此做出更具體的說明:

NVL72系統及其NVSwitch互連是僅次於板材切割晶圓級NVL72的最佳選項,而且作為容納伺服器和交換機組件的機架,其成本明顯更低且產量更高。但在不久的將來,如今的機架級系統將被塞進單一晶片插槽之內,類似於上世紀九十年代後期的NUMA伺服器系統如今被壓縮成單個插槽的情況。這種小型化趨勢既是一種經濟需要,也符合技術的發展規律,因為AI模型對於計算和內存組件之間的延遲顯然極其敏感。
除了這套DGX訓練系統,或者由ODM乃至OEM廠商打造的同類系統之外,在物理世界中應用AI技術的組織還需要依靠Omniverse系統來為自己的工作環境、車輛或者其他業務場景建立數字孿生。Omniverse需要輔以一套物理AI模型,該模型要能夠真正理解現實世界中的物理特性,而英偉達剛剛發布全新Cosmos世界基礎模型扮演的正是這一角色。
負責實現第三點的,則是現實世界中業已存在的GPU加速工廠、倉庫、汽車乃至機器人,它們正被賦予更大的自主權。
當把這三者連接起來,也就構成了「三相之力」,得以在其之間建立起良性反饋循環,即一套運用現實世界數據進行訓練、並在數字孿生世界中執行實踐的終極模型。這套模型理解物理規律、運行速度比客觀現實快得多,並能夠通過合成現實來進行大規模增強,從而圍繞更多場景接受訓練並加快學習速度。
黃仁勛在主題演講中解釋道,「這三台電腦將以交互方式協同運作。長久以來我們一直在強調,英偉達針對產業世界的基本戰略就是這樣一套三電腦系統。於是乎,看似無解的「三體問題」就迎來了「三相之力」這個答案。」
看來單買一台、兩台是肯定不夠了,但就像英偉達的宣傳語一樣,「買得越多、省得越多」……
說了半天,那麼這套所謂Cosmos模型到底是個什麼東西?去年秋季,英偉達稱該模型為「一套全面的圖像與影片連續及離散標記器」,並強調其工作原理與大語言模型所依賴的文本標記器略有不同。總的來說,Cosmos模型能夠跨越空間切割圖像、跨越空間和時間切割影片,這樣基礎模型和擴散模型就能繪製出各個數據片段之間的關係,之後使用派生的token輸出圖像。從當時的貼文來看,使用Cosmos標記器生成的圖像和影片結果確實令人印象深刻。
而短短幾個月後,英偉達就將Cosmos從一組標記器完善成了一套成熟的應用平台:

有了大語言模型,我們就可以使用機器學習算法處理數據,進而建立起一套神經網路。這套網路通過統計學方法將語言的語義分布封裝起來。而通過對多種語言執行統計和封裝,就能實現不同語種之間的往來轉換;再配合接入擴散生成模型,即可將一種輸入形式(文本、語音、圖像或者影片)轉換成另外一種輸入形式。
在黃仁勛看來,物理AI代表著AI革命的下一個階段。其處理的不再是數據,而是現實世界。需要強調的是,英偉達提到AI的後續階段其實是以誕生於上世紀四十年代的感知器AI為起點,並在五十年代的IBM 704超級電腦上初步實現,最終在美國海軍研究實驗室的定製化設備上真正落地。
隨後經過近80年的研究和探索,生成式AI才正式翻開人工智慧的新篇章。在此階段,人們建立起擁有大量參數的大語言模型,並展示了一系列從外部看來類似于思考和推理活動的突現行為。
第三個階段則是代理AI,基本上就是將針對不同任務進行微調的生成模型的各個層次結構交叉鏈接在一起。通過這種方式,我們就突破了先輸入查詢和上下文數據、再由大模型根據統計概率給出更可能出現的下一響應詞這種僵化能力,轉而賦予其更加深邃的思考能力。
黃仁勛在主題演講中具體闡釋了物理AI的含義:
「我們真正要做的,是有效建立起一套世界模型——而非GPT,畢竟後者只是一種語言模型。這套世界模型必須能夠理解現實世界中的語言,必須理解物理動力學,例如策略、摩擦力和慣性。它必須理解幾何結構與空間關係,還必須能夠掌握因果關聯。如果把某樣東西丟在地上,再用力一推,它就會翻倒。該模型還必須理解物體的持久性,即如果把球滾過廚房操作台,它會從另一邊掉下去。這時候雖然不在視野當中,但球並不會跳進另一個量子宇宙,而只是靜靜躺在操作台後面。」
通過日常生活,我們早就總結出了這些經驗,而且完全屬於無意識的學習過程。公平地講,從統計學角度出發,這個過程與神經網路通過GPU中的張量和向量核心所運行的模擬神經元非常相似。我們相信球還在廚房當中,是因為我們無數次見到過它甚至拾起了它,所以認定事物絕不會「噗」的一聲直接消失!這也許還因為我們的大腦基於神經二元結構,且量子化程度還不夠,所以感受不到我們周遭乃至體內都有大量基本粒子在來來去去……也許如果換個角度思考,或者換個空間場景來思考,小球確實會直接消失。至少現在的擴散模型,基本就是逆向運行整個過程,使得小球不再憑空消失、而是突然出現。
不好意思,有點跑題了。
在接下來的主題演講部分,黃仁勛詳細介紹了Cosmos模型:
「Cosmos模型能夠吸納文本、圖像或者影片提示,並以影片形式生成虛擬世界狀態。Cosmos的生成內容會優先考慮視音影片及機器人用例的獨特要求,例如真實世界環境、照明效果與物體持久性。開發人員先使用英偉達Omniverse構建起基於物理規律和地理空間的精確場景,而後將Omniverse渲染結果輸出到Cosmos,由後者生成具有照片級精度、基於物理特性的合成數據。無論需要哪些不同物體還是各類環境(包括不同天氣、一天中的不同時段乃至其他極端情況),開發人員都可以使用Cosmos生成世界以進行強化學習AI反饋,藉此改進策略模型或者測試/驗證模型性能,甚至可以跨多個傳感器生成視圖。Cosmos能夠實時生成token,將前瞻洞察與多元宇宙模擬的能力引入AI模型,生成所有可能的未來並幫助模型選擇正確的發展路徑。」
其實際效果如下所示:
這不就是我們設想下一步行動的基本流程嗎?
黃仁勛表示,作為全球第一套世界基礎模型,Cosmos接受了總長2000萬小時的影片素材訓練。這些影片展示了人們如何移動或者用手操縱物體的動態物理過程,旨在幫助AI模型理解現實世界中的物理規律及操作方式,最終為未來的機器人提供驅動和指引。
最後還有件有趣的事情。在前文介紹的主題演講部分,我們實在不確定黃仁勛的聲音和話語是否由英偉達的AI模型生成。其內容聽起來有種奇怪的單調感,缺乏這位英偉達聯合創始人那滿滿的活力和情緒。
Cosmos世界基礎模型將通過Hugging Face及英偉達GPU Cloud在「開放模型」類別下免費發布。順帶一提,英偉達GPU Cloud是該公司為其全球雲開發基礎設施打造的品牌。但與純開源的Cosmos不同,據我們所知英偉達在GPU Cloud中只開放了其CUDA庫、即圖像驅動程序。
現在讓我們聊聊錢的問題,相信這也是很多朋友最最關心的重點。
在代理AI的支持下,模型之間的對話速度要比人類直接閱讀或者解釋圖像/影片的速度快得多,因此需要體量更大、帶寬更誇張的設備來支持。預計建立此類代理系統至少需要兩個數量級以上的算力資源,這些系統本質上就是封裝在軟體算法當中的類人機器人。
據英偉達方面介紹,目前全球大約有10億知識型員工。其中有3000萬是軟體開發人員,這群知識型員工中的代表雖然收入相對優渥,但也因此成為生成式AI支持下的代碼助手和代碼生成工具的主要「替代對象」。
英偉達還提到,全球共有1000萬家工廠和20萬個倉庫在晝夜不停地服務於分銷與零售商。其中倉庫負責存放這些工廠生產的產品,再交由配送系統將其分段交付到我們手中。通過網路搜索和粗略估算,這些工廠和倉庫可能會額外雇用10億左右的勞動力。由此看來,在目前全球超過80億的總人口當中,從事各種服務業的人數超過10億,而勞動力總量則在30億上下。
基於生成式AI的虛擬機器人正將矛頭指向知識型雇員,而擁有物理實體的機器人也在伺機替代工廠和倉庫中的勞工。
我們完全相信,對這數十億勞動力進行部分甚至全面取代將對應一個價值數萬億美元的巨大商業機遇。如果大家跟我們一樣對技術深深痴迷,那感受到的肯定是興奮之情。但技術升級的最終影響會是什麼?過度泛濫的技術應用會不會徹底擊垮人類經濟,導致資金無法在個人、企業和政府之間有序流動?
我們也不清楚。但可以參考黃仁勛在其主題演講中透露的觀點:
「從各方面來看,每家企業的IT部門都將成為未來AI智能體的人力資源樞紐。今天,我們負責管理和維護來自IT行業的各種軟體;未來,他們將維護、培養、添加並改進大量數字化智能體,並將其交付給公司內各業務部門以供使用。因此,您的IT部門將轉型成為AI智能體的人力資源中心。」
過往的幾場技術革命已經讓一切都起了變化,於是隨著經濟體量增加出現了新的經濟部門,勞動力則需要掌握新的勞動技能。但隨著機器人變得更高、更快、更強,而且完全不需要耗費幾十萬美元和數十年時間來培養和訓練,我們實在難以想像未來的人類社會會遭受怎樣的衝擊。也許時機成熟時,我們可以直接下載這些AI智能體並在雲端虛擬運行,或者購買一部只等電力就能工作的實體機器人並享受它長達幾十年的服務。英偉達方面公開預測,在不久的未來世界範圍內將有數十億人形機器人被部署到位。
多年以來的現實已經反覆證明,英偉達在AI實現的形式豐富度、願景完整性以及計劃落地等方面始終遙遙領先於市場上的其他競爭對手。黃仁勛正面向未來規劃生活新形態,而他構想中的前景正在將我們熟讀過的許多經典科幻小說產生共鳴並將其照進現實。在AI新興浪潮的推動之下,整個人類社會的後續發展仍有待觀察,但這一次不是小說、而是科學與現實。隨著其經濟影響的發展成型,AI的力量也將在政治層面得以體現,而且具體時間可能比很多人想像中更早、速度更快。
對此,我們將拭目以待。
總而言之,英偉達胸中的溝壑似乎遠遠超過在Meta Platforms上完成的Llama 3.1模型企業級實現,也絕不止於用Grace CPU和Blackwell GPU搭建新一代台式電腦——儘管二者也都非常有趣。不過和許多行業觀察者一樣,我們也希望從細微處跟蹤這波變革,看看一台價值3000美元的Grace-Blackwell PC如何以微型電腦的尺寸提供千萬億次級別的FP4張量性能,進而運行起高達2000億參數的生成式AI模型並相網際網路,最終重塑計算科學與AI應用的全新形態。對於這樣一個引領時代的產物,相信很多人都想上手體驗,其最終甚至有望在數億規模的用戶群體中得到普及。
面對這樣一個美麗新世界,做出準確預測的唯一可能就是繼續關注、投身其中並攜手共進。一切質變都是量變的積累,任何超出想像的未來也只能一分一秒、步步為營地走向現實。好在世界上還沒有充足的GPU能以自然粒度模擬我們所有人,至少目前還不行,所以對於未來的掌控權暫時還把握在我們自己手中。