Nvidia今天透露,已經收購了Run:ai,一家開發優化顯卡集群性能軟體的初創公司。
此次收購交易的條款並未披露。TechCrunch援引兩位知情人士的話報道稱,此次交易對Run:ai的估值為7億美金,這幾乎是這家總部位於特拉維夫的初創公司在收購之前籌集的資金金額的6倍。

Run:ai的正式名稱為Runai Labs Ltd,提供的軟體主要用於加速配備了GPU的伺服器集群。據該公司稱,由其技術支持的GPU環境可以運行的AI工作負載比其他方式要多出10倍,而且它是通過修復幾個經常影響GPU驅動的伺服器的常見處理效率低下問題來提高AI性能的。
Run:ai解決的第一個問題,源於AI模型通常使用多個顯卡進行訓練。為了將神經網路分布在GPU集群上,開發人員會將其分成多個軟體片段,並在不同的晶片上訓練每個片段。這些AI片段必須在訓練過程中定期相互交換數據,這可能會導致性能問題。
如果AI片段必須與當前未運行的神經網路的不同部分交換數據,則必須暫停處理,直到後一個模塊上線,由此產生的延遲會減慢AI訓練的工作流程。Run:ai可以確保促進數據交換所需的所有AI片段同時在線,從而消除不必要的處理延遲。
Run:ai的軟體還避免了所謂的內存衝突。在這種情況下,兩個AI工作負載會嘗試同時使用GPU內存的同一部分。GPU會自動解決此類錯誤,但故障排除過程需要時間。在AI訓練過程中,修復內存衝突所花費的時間會顯著增加並減慢處理速度。
在同一GPU集群上運行多個AI工作負載還可能導致其他類型的瓶頸。如果其中一個工作負載需要的硬體超出預期,那麼它可能會使用分配給其他應用的基礎設施資源並放慢這些應用的速度。Run:ai提供的功能可以確保每個AI模型都獲得足夠的硬體資源,在沒有延遲的情況下完成分配的任務。
Nvidia副總裁、DGX雲部門總經理Alexis Bjorlin在一篇博客文章中詳細介紹了這一點,他說:「該公司在Kubernetes上構建了一個開放平台,這是現代AI和雲基礎設施的編排層,支持所有主流的Kubernetes變體,並與第三方AI工具和框架進行了集成。」
Run:ai主要銷售核心基礎設施優化的平台以及其他兩種軟體工具。首先是Run:ai Scheduler,它提供了一個為開發團隊和AI項目分配硬體資源的接口,其次是Run:ai Dev,可以幫助工程師更快地設置用於訓練神經網路的編碼工具。
Nvidia已經在自己的多款產品中附帶了Run:ai的軟體,包括Nvidia Enterprise,是Nvidia為自己數據中心GPU提供的一套開發工具,以及DGX系列AI優化型設備。Run:ai也可在DGX Cloud上使用,並且通過該產品,企業可以訪問主流公有雲中的Nvidia AI設備。
Bjorlin表示,「在可預見的未來」,Nvidia將繼續在當前定價模式下提供Run:ai的工具,與此同時,Nvidia將發布該軟體的增強功能,重點關注有助於優化DGX雲環境的功能。
Bjorlin詳細介紹道:「客戶可以期望他們將受益於更好的GPU利用率、改進的GPU基礎設施管理以及開放架構帶來的更高靈活性。」