曾幾何時,或者說就在短短几年之前,數據中心晶片市場還是個資金門檻極高但卻相對簡單的市場。CPU戰團主要有英特爾、AMD和Arm,GPU陣營則是英偉達、AMD和英特爾等廠商的舞台。儘管AI初創公司數量可觀,但普遍並未在數據中心領域建立起真正的話語權。
但最近一段時間,情況發生了巨大變化。
除了英特爾、AMD、英偉達和Arm等老面孔之外,晶片領域出現了更多選擇。一方面是持續生成、體量龐大且不斷增長的待分析數據素材,另一方面則是快速湧現的生成式AI與大語言模型——兩股驅力交織之下催生出無數希望在市場上占據一席之地的晶片初創公司。
此外還有亞馬遜雲科技、即將推出Maia 100的微軟以及掌握張量處理單元(TPU)的Google Cloud等超大規模基礎設施運營商,他們都在努力打造自己的原研處理器方案。
市場上已經存在大量晶片可供選擇,雲基礎設施服務商則在整合現有成果方面發揮著重要作用。目前,大約70%的AI工作負載都運行在雲端,而且隨著企業更多採用AI技術並擴展相關工作負載,這一數字預計還將保持增長。
在亞馬遜雲科技方面,其擁有自研的Trainium(顧名思義,用於訓練類AI工作負載)與Inferentia(明顯是面向AI推理用例),再加上旗下頗具知名度的Graviton CPU與Nitro DPU——這一切都要歸功於其2015年收購的以色列晶片設計公司Annapurna。亞馬遜雲科技還掌握著大量英偉達GPU,即AI計算的基石。隨著AI技術的興起,特別是生成式AI技術的加速創新與應用,新的處理器環境正在形成,也要求亞馬遜及其他雲服務商不得不加以適應並嘗試駕馭。
亞馬遜雲科技EC2產品管理總監Chetan Kapoor表示,亞馬遜目前已做好使用英偉達GPU、Trainium和Inferentia的準備,但未來的發展方向仍須進一步探索。
Kapoor在採訪中解釋稱,「我們正處於探索問題解決方法的早期階段。目前可以確定的是,AI應用領域的實際需求正在快速增長,我們還有很大的空間繼續提升英偉達產品的應用規模。與此同時,我們也將繼續擴大原研Trainium和Inferentia晶片的容量。目前想要判斷這部分市場的發展前景還為時過早,但我們認為最終結果應該不會是零和遊戲。隨著需求的指數級增長,我們的英偉達GPU集群規模將保持顯著增長;而在另一方面,我們將繼續尋找機會將Trainium和Inferentia引入各類外部及內部用例。」
與其他競爭對手一樣,亞馬遜雲科技正在全力開發AI,而目前最大的問題在於該如何設定內部研發目標、又該怎樣挑選市場投資對象。上個月末,亞馬遜雲科技向AI廠商Anthropic進一步投資27.5億美元,意味著對其總投資已經達到40億美元。幾周之前,這家雲巨頭宣布Anthropic的Claude 3系列模型正在Amazon Bedrock AI託管服務之上運行。這與微軟同OpenAI(投資超過100億美元)以及谷歌同Anthropic(投資超過20億美元)的合作夥伴關係可謂是遙相呼應。
為了運行該系列模型,亞馬遜雲科技堅持使用現有英偉達GPU配合自家晶片。而負責EC2硬體加速業務的Kapoor表示,亞馬遜「將繼續與其他提供商保持合作,採用英特爾或AMD等其他廠商帶來的真正引人注目、而且能夠為我們現有英偉達解決方案帶來補充的產品。我們非常樂意在這部分應用場景內與各方開展合作。」
亞馬遜雲科技在最近的GTC 2024展會上進一步加大了對英偉達的支持力度,表示將與微軟Azure、Google Cloud和甲骨文雲基礎設施一樣,著手採用該GPU製造商推出的新款Blackwell GPU。其中最值得一提的當數GB200 Grace Blackwell超級晶片,這款產品搭載雙B200 GPU,並通過600 GB/秒NVLink互連接入單塊Grace CPU。
目前還不清楚其他AI晶片能否同樣登陸亞馬遜雲科技的運行環境。Groq、Mythic及SambaNova Systems等廠商也在為AI工作負載開發處理器,但Kapoor表示問題的答案不僅取決於加速器本身。另一方面,OpenAI公司CEO Sam Altman也提出由該公司自行設計AI訓練與推理晶片,這明顯是看到市場對於英偉達GPU的需求猛增,因此想通過原研方式補充緊張供應、滿足AI工作負載的運行需求。
他感嘆道,「晶片製造真的非常困難,而構建服務器、管理並部署數萬甚至數十萬張加速器則是難上加難。而更具挑戰性的,是在此基礎之上建立起能夠真實利用算力資源的開發者生態系統。根據我們的經驗,晶片只是產品側的一部分,並不足以決定一切。我們還需要考慮如何將晶片配置為計算平台、如何加以管理和擴展、找到其中最重要的影響因素、把握解決方案的易用性水平、衡量產品擁有哪些可用的開發者生態系統,以及客戶能夠以怎樣的速度完成晶片部署及實際應用等等。」
生成式AI的加速普及背景,意味著組織根本不可能花費幾個月時間學習並使用新的硬體架構。只有那些既易於上手、又具有成本效益的整體架構,才能得到受眾群體的接納和喜愛。
Kappor表示,「必須要以晶片為中心建立起開發者社區,才能在該領域產生真正的吸引力。如果有一家初創公司能夠實現這一壯舉,那可就太好了,而且他們必將獲得市場成功。所以從這個角度來分析,未來真正能夠勝出的晶片必須具備高性能、低成本、廣泛可用且上手門檻極低——哪怕是對於老牌晶片巨頭來說,同時滿足這麼多目標也將非常非常困難。」
但各組織正承受著巨大壓力,必須採用AI以保持與競爭對手之間的相對關係。在這些企業看來,基礎設施層面的AI工作負載運行決策,往往取決於實際解決方案的性能和成本水平。
Kappor解釋稱,「我們將看到這樣的趨勢:一部分客戶只關註上市速度,而對對於支出優化問題表現得比較寬容。這部分客戶往往更青睞基於英偉達的解決方案,因為這有助於他們儘快將產品投放市場。而在另一方面,我們也已經切實觀察到了這種趨勢,即部分客戶會更多關注成本問題、承認自己拿不出更高的技術應用預算。在這種情況下,他們更傾向於尋求英偉達之外的替代性解決方案,在獲取所需性能的同時將模型的訓練和部署總成本削減30%甚至40%。正是由於存在這樣的實際需求,我們及其他晶片合作夥伴的替代性解決方案才能在市場上占據一席之地。」
也就是說,市場對於英偉達產品的旺盛需求將持續存在。Kapoor表示,不少新出現的基礎模型都是在GPU巨頭的產品之上構建而成,畢竟研究和科學界在使用英偉達硬體和軟體構建並訓練AI模型方面擁有著豐富經驗。此外,英偉達也在繼續擴大其GPU系統在原始性能方面的優勢。他解釋稱,這家GPU巨頭「不僅非常擅長構建晶片,還特別精通系統設計,在性能優化方面也做得非常出色,因此保證了他們的客戶能夠從這些售價極為昂貴的加速器中獲取最大收益。」
因此,超大規模基礎設施運營商必須密切關注客戶方面傳來的信息。因為雖然目前約有70%的AI工作負載都運行在雲端,但這一數字在未來幾年還將繼續增長。亞馬遜雲科技及其他廠商在英偉達A100及H100晶片上運行的系統已經極為複雜且規模化;而隨著Blackwell的推出,其實際複雜度恐怕還將更上一層樓——這是因為Blackwell不僅需要配合液體冷卻等機架集成技術,還帶來了更高的部署密度。
Kapoor在採訪中指出,「對於此類系統的設計、構建和實際部署,會帶來更持久也更複雜的實際挑戰,因此我們預計此前選擇在本地自行部署系統的客戶將會遇上大麻煩。他們可能不具備液冷基礎設施,可能缺乏在原有機架空間內充分供電的能力。而我們將為客戶承擔盧所有高難度工作,並將這些資源通過API供其輕鬆使用和啟動,這意味著將有更多受眾傾向於直接選擇雲服務。安全方面的情況也差不多,目前我們已經在智慧財產權層面(通常體現為模型參數、權重和偏差等)做出嚴格的保障承諾,並表現出極強的保護意願與能力,客戶可以放心把自己的智慧財產權交由我們打理並隨時進行訪問。」
用於處理AI及機器學習工作負載的AI超級電腦也將很快面向企業客戶敞開大門。根據相關報道,亞馬遜雲科技正在與英偉達合作構建「Project Ceiba」系統。另據報道,微軟和OpenAI則正在規劃「Stargate」星際之門超級電腦。甚至由多處數據中心共同組成的超大規模超級電腦也將在不久的未來與廣大用戶見面。