這項新服務適用於那些想要私有AI超級電腦、但又缺乏支持這些系統的數據中心基礎設施和專業知識的企業。Nvidia高管Charlie Boyle表示,這項服務將幫助渠道合作夥伴「更快地賺錢,更快地完成業務,並最終為客戶提供更多的價值」。
Nvidia和Equinix表示,他們構建了一個解決方案,主要針對那些想要快速設置私有超級電腦來構建生成式AI應用、但缺乏支持系統的數據中心基礎設施和專業知識的企業。
本周三宣布推出的這項Equinix Private AI with Nvidia DGX服務,被兩家廠商描述為「交鑰匙型」解決方案,其中Equinix負責託管和管理企業通過Nvidia渠道合作夥伴購買的Nvidia DGX超級電腦。
該方案是為出於各種原因(包括安全性、數據主權和可審計性)而不想將數據存儲在公有雲中的企業而設計的。
Nvidia DGX系統副總裁Charlie Boyle表示,新的解決方案將幫助Nvidia Partner Network中的合作夥伴通過DGX系統「更快地賺錢、更快地完成交易,並最終為客戶提供更多的價值」。
「這使他們更容易售賣和完成交易,讓客戶更容易使用、啟動和運行人工智慧,因此這對於我們所有的[Nvidia Partner Network]合作夥伴來說將帶來巨大的好處,可以加速他們已經忙了數月的交易,並讓新的交易進入管道中。」
通過這項全面管理的服務,晶片巨頭Nvidia和數據中心巨頭Equinix希望解決許多企業面臨的問題:在私人數據中心規劃和部署Nvidia DGX系統集群需要花費大量時間,而且缺乏適當的設施來容納此類系統,以及缺乏管理這些系統的人員。
Boyle在一份簡報中表示:「客戶想要世界一流的AI功能,但他們中的大多數人都沒有數據中心基礎設施,也不具備構建、管理和運行這些系統的專業知識。」
Equinix高級副總裁、數據中心服務總經理Jon Lin表示,憑藉Equinix在建立和管理數據中心方面的專業知識,新的Private AI服務可以將部署DGX超級電腦的交付時間「從幾個月縮短到幾周,甚至是幾天」。
Equinix Private AI With Nvidia DGX中包含哪些內容
Equinix的Private AI服務專注於Nvidia DGX BasePod或者SuperPod集群配置,根據Nvidia的文檔顯示,後者的範圍可以從128個DGX H100系統擴展到多達2048個系統。
這些DGX系統每個都包含8個H100 GPU,使用Nvidia超低延遲的InfiniBand網路技術連接在一起,並由Equinix全球800多名員工組成的託管服務團隊進行管理。
該服務的另一個關鍵組件是Nvidia AI Enterprise,一個面向晶片設計師的軟體平台,其中包括了訓練和運行AI模型所需的所有構建模塊,從用於構建大型語言模型的NeMo框架到用於優化此類模型的TensorRT-LLM庫。
據Equinix稱,Private AI服務的客戶可以在全球近250個Equinix International Business Exchange數據中心部署他們的DGX集群,其中包括位於北美、南美、歐洲、亞洲和非洲的數據中心。
Equinix數據中心內的DGX集群通過高速專用網路與外界連接,Equinix還為雲服務和企業服務提供商提供了高帶寬互連。
該服務提供了「企業級」的支持和安全性,其中包括Equinix員工在構建和部署自定義AI模型方面提供的幫助,以及與Nvidia專家建立聯繫。
Lin表示:「全球各地的企業都傾注了巨大的精力希望做到這一點,但要以既不會從網路安全的角度或者智慧財產權泄露的角度暴露自己的方式。那麼,私有基礎設施就會成為能夠實現這一目標的一條關鍵途徑。」
Private AI服務確保快速DGX部署而非快速交付
Boyle表示,雖然Nvidia和Equinix把Private AI服務定位為企業建立私有AI基礎設施的一種快速而簡單的方式,但它不會對DGX系統的交付周期產生影響。
「無論部署在哪裡,所有DGX SuperPOD客戶從訂單到系統出貨的交貨時間都是相同的,」他說。
去年,原始設備製造商和渠道合作夥伴普遍抱怨說,配置了Nvidia H100 GPU(包括DGX)的系統交貨時間過長。這是由於對處理器的高需求造成的,處理器因其高性能而受到無數AI開發者的歡迎,包括OpenAI等大公司。
過去幾個月,Nvidia一直在努力增加H100的產量以滿足需求,但有合作夥伴稱,交貨時間仍然很長。
一位Nvidia合作夥伴公司高管表示:「你只是在出售缺貨訂單,一個排隊的位置。」他要求匿名以便能夠坦率地談論與這家晶片設計商之間的業務情況。
另一位Nvidia合作夥伴公司高管表示,基於H100的系統的交貨時間正在有所改善,但面向客戶的交貨時間仍然需要四到八周,「保守一點的話」。他補充說,在某些情況下,系統的交付速度能更快一些。