IBM 研究部門 IBM Research將旗下人工智慧超級電腦 Vela (IBM雲的一部分)的容量增加了一倍,以應對 watsonx 模型的強勁增長,IBM Research還制定了積極的計劃,利用自家研發的加速器 IBM AIU 繼續擴展和增強人工智慧推理能力。
IBM研究院一年前宣布建立用於訓練基於英偉達A100 GPU的人工智慧基礎模型的大型雲基礎設施,名為Vela。IBM 客戶正在迅速採用人工智慧技術,目前已有數百個開發項目正在使用 IBM watsonx。IBM 在去年的一次分析師活動上分享了一些令人印象深刻的成功案例,並正在吸引更多的人工智慧項目加入他們的管道。IBM 首席執行Arvind Krishna在最近的財報電話會議上表示,watsonx 的管道規模自上一季度以來大約翻了一番。
IBM Research 日前完成了 Vela 的第一階段升級,並且計劃繼續進行升級,以滿足業界對訓練更大規模基礎模型的需求。IBM Research 提供了有關細節,為其他希望在控制成本的同時升級人工智慧基礎架構的公司提供了寶貴的經驗。
新的 Vela
最初的 Vela 配備了總數不詳的 GPU 和英特爾至強 CPU,都是通過標準的 2x100G 以太網 NICS 互連。IBM Research 放棄了性能更好、成本更高的 Infiniband,以更低的資本成本展示了接近裸金屬的性能,同時實現了 Kubernetes 的雲標準容器支持。
為了處理不斷增加的負載,IBM 的研究人員面臨的選擇是:用更多的 Nvidia A100 GPU 升級 Vela或全部換成速度更快的 H100。IBM 的研究人員意識到,如果實施功率封頂策略,就可以在相同的可用功率範圍內將每個機架的 GPU 數量增加一倍,進而可以提高 GPU 的密度。
IBM 研究人員確定了要將 GPU 數量翻倍的計劃後,就需要在不拆除網卡和交換機的情況下解決網路帶寬問題。為此,他們部署了以太網 RDMA 和英偉達 GPU-Direct RDMA(GDR),將 GPU與GPU之間的帶寬提高了 2 到 4 倍,延遲則降低了 6到10 倍。
IBM 研究人員指出,「人工智慧伺服器的故障率高於許多傳統雲系統。而且,人工智慧伺服器發生故障的方式會讓人意想不到(有時甚至難以檢測)。此外,當節點(甚至單個 GPU)出現故障或性能下降時,可能會影響到在數百或數千個節點上運行的整個訓練任務的性能。」IBM 研究團隊成功提高了故障診斷能力,並將發現和解決問題的時間縮短了一半。
下一步是什麼?
IBM制定了計劃應對Vela需求的不斷增加。我們預計Vela的下一次重大升級將添加 H100 GPU甚至下一代 GPU(B100)。IBM Research還希望提供更具成本效益的推理處理基礎設施,例如其自家研發的原型的「AIU」推理加速器原型。早期測試結果顯示,AIU原型只需 40 瓦就能運行推理,其吞吐量與 A100 GPU 在該功率下的吞吐量相同。IBM 已在約克鎮設施中部署了約 150 個 AIU並計劃在技術成熟後將 AIU 的容量增加到 750 個以上。
結論
IBM 在各方面利用人工智慧煥發活力,內部的人力資源諮詢(Ask HR)和其他應用都用上了人工智慧進行,IBM Z 的代碼現代化也用了人工智慧,IBM還利用人工智慧為客戶定製開發自己的基礎模型。所有這些都幫助 IBM 積累了新的技能和專業知識,IBM並將其應用於客戶諮詢項目,取得了良好的效果。IBM 在大規模部署 AIU後將可能比其他雲提供商更具競爭優勢,原因是其他雲提供商使用的推理技術更為昂貴,效率卻不盡如人意。
如果三年前有人告訴我 IBM 將成為人工智慧領域的主要參與者,我肯定不會相信。但到現在基於 IBM 在 watsonx 業務上取得的進展以及人工智慧超級電腦Vela的相應增長,IBM 顯然擁有正確的計劃和技術,可以繼續大幅增長旗下的人工智慧業務。