身為英偉達公司CTO,Kagan解釋了AI計算需求如何推動半導體技術突破摩爾定律的邊界。
英偉達正積極擁抱一種新的計算範式,利用大規模並行電腦系統為新一代應用程序提供服務。而這場變化的開端,主要始於以色列。
英偉達公司CTO Michael Kagan指出,「雖然計算元件隨著發展而尺寸愈小,但21世紀的計算設備本體卻向著大小兩極延伸——小至智能手錶、大至超大規模數據中心。」
「數據中心本身就相當於一台電腦,而英偉達正在建立數據中心架構。我們正在打造幾乎一切的必要元素,包括調整晶片、框架乃至應用程序,以便讓這台21世紀機器上的一切都高效執行。」
Kagan居住在以色列海法區,三年前經由Mellanox Technologies收購案正式加入英偉達,目前擔任公司CTO。英偉達創始人兼CEO黃仁勛對Kagan寄予厚望,任命他督導一切系統架構事宜。
超越摩爾定律
著名的摩爾定律,源自戈登·摩爾 (Gordon Moore) 1965 年撰寫的一篇論文《在集成電路上塞入更多元件》。這位後來擔任英特爾CEO的技術先驅在文中預測,隨著技術與經濟的雙重驅動,未來半導體行業每年都將在同樣大小的空間內將電晶體的布置數量翻倍,而且這種情況將持續10年。
他的觀察和總結後來被稱為摩爾定律,且10年後稍做修改就繼續適用。1975年,摩爾表示發展的速度將變成約每兩年翻一番。他還提到,在可預見的未來,這樣的情況將一直持續下去。直到2005年左右,晶片製造商都始終保持著這樣的發展速度,但之後情況開始變化——無論是在經濟還是在物理特性上,各電晶體元件間的距離已經太小,每過兩年將相同空間內的電晶體數量增加一倍將難以實現。
為此,晶片製造商想出了各種辦法來提高算力水平。其一就是增加核心數量,另一種則是用網路替代容易引發性能瓶頸的共享總線,將不同組件間直接互連以改善多晶片/處理器和內存之間的通信能力。
半導體製造商還發明了其他提升計算能力的新方法,包括研究算法、加速器和新的數據處理方式。加速器是一類專用組件(通常採取晶片形式),能夠以極快速度執行特定任務。一旦系統遇到此類任務,就會將其交由加速器處理,從而實現整體性能提升。
廠商們還特別關注人工智慧(AI)。與電腦行業慣用的馮·諾依曼架構相比,AI用例中的數據處理方式可謂截然不同。
Kagan解釋稱,「AI基於神經網路,這是一種與馮·諾依曼架構大相徑庭的數據處理方式。馮·諾依曼架構的本質,是一種執行指令、查看結果、再決定下一步做什麼的串行機器。」
「而處理數據的神經網路模型則受到人腦研究的啟發。向神經網路提供數據,它就會從中學習。其工作原理類似於向三歲的小孩展示狗和貓,最終讓對方學會區分這兩者。在神經網路的幫助下,我們得以解決眾多以往在馮·諾依曼架構上不知該如何處理的問題。」
AI與數字孿生等新型應用也加快了對於計算性能的需求,新需求自然需要搭配新的範式。以往,軟體開發只需要很少算力,主要算力需求都集中在程序的運行過程上。相比之下,AI則需要大量算力來訓練神經網路,但訓練完成之後的運行成本卻要低得多。
單個GPU或CPU都不足以訓練大型AI模型。例如,ChatGPT的訓練就需要使用約1萬個GPU。所有GPU並行工作,彼此之間也自然需要相互通信。除了大規模並行處理之外,新的計算範式還要求使用新型專用晶片,名為數據處理單元(DPU)。
黃氏定律
Kagan談到,「2003年時,世界上最快的電腦器是Earth-Simulator地球模擬器,性能為每秒萬億次浮點運算。而當今最快的電腦是Frontier,運算速度已經達成百億億級別,是當初的100萬倍。是的,20年間從萬億級提升到了百億億級。」
他補充道,「在1983年至2003年這20年間,計算性能則提高了數千倍。從數千倍到數百萬倍,這種計算性能的飛躍就是很多人說的「黃氏定律」。即我們英偉達CEO黃仁勛觀察到的,GPU加速計算性能每隔一年就會翻一番。」
「事實上,算力的增長速度還不止每年倍增。現在我們討論的是AI工作負載和數據處理的新方法。如果把目光轉向這一代英偉達Hopper GPU上運行的應用程序,就會發現與上代Ampere相比,速度的增幅超過了20倍。」
Kagan表示,這種計算速度的提升主要源自算法和加速器的雙重加持:「每推出新一代GPU,都會添加更多、更強的加速器,以及更複雜的數據處理方式。」
「新設計完全取決於如何在不同部件之間劃分功能。現在我們面對三大計算要素——GPU、CPU和DPU,外加連通彼此的網路。是的,網路本身也執行一部分計算。在英偉達收購的Mellanox公司,我們引入了網路內計算技術,能夠在數據流經網路時執行一部分計算。」
從當初每兩年讓電晶體數量倍增、從而令計算性能翻一番的摩爾定律,到如今依靠GPU加速計算實現每年翻番的黃氏定律,半導體行業仍在不斷突破新的極限。但目前來看,即使是黃氏定律恐怕也跟不上AI應用不斷增長的需求。畢竟AI應用已經給出了明確的性能需求:每年算力提升10倍!