Nvidia通過採用AI的系統方法來保持領先地位。其中,一個關鍵差異化因素就是NVLink和NVSwitch,它們使GPU
之間能夠實現更好、更快地進行連接,從而為推理等任務提供幫助。
大型語言模型的規模和複雜性不斷增長,因此市場對高效且高性能計算系統的需求也在增長。在最近的一篇博客文章中,Nvidia研究了NVLink和NVSwitch技術在實現大型語言模型推理所需的可擴展性和性能方面(特別是在多GPU環境中)所發揮的作用。
Nvidia公司加速計算產品總監Dave Salvator、AI平台推理產品經理Nick Comly和AI網路高級產品營銷經理Taylor Allison跟我們更深入地介紹了NVLink和NVSwitch是如何顯著加快推理過程的。
NVLink和NVSwitch架構
Salvator表示,NVLink和NVSwitch的架構至關重要。「這個架構如今正在幫助我們,未來還將為我們提供更多幫助,為市場提供生成式AI推理,」他說。
實際上,這源自於我們從未在矽層應用過的基本網路原則。例如,如果我們用點對點連接幾台電腦,性能會很糟糕,但通過交換機,性能則會大大提高。
「這是思考該問題的一個好方法,我的意思是,點對點有很多限制,我們在博客中談到了計算與通信時間的概念。通信成為性能方程的其中一部分越多,你最終從NVSwitch和NVLink中看到的好處就越多。」
多GPU推理帶來的挑戰
Nvidia在博客中指出,大型語言模型是計算密集型的,通常需要多個GPU的強大功能才能有效處理工作負載。在多GPU環境中,每個模型層的處理分布在不同的GPU上。
但是,在每個GPU處理完自己的部分之後,還必須與其他GPU共享結果,然後才能繼續下一層。這一步至關重要,需要GPU之間極快的通信,以避免可能減慢整個推理過程的瓶頸。
傳統的GPU通信方法(例如點對點連接)是有限制的,因為要在多個GPU之間分配可用帶寬。隨著系統中GPU的數量不斷增加,這些連接可能會成為瓶頸,導致延遲增加和整體性能下降。
Nvidia NVLink:解決GPU到GPU的通信問題
NVLink是Nvidia針對大規模模型中GPU到GPU通信挑戰的一個解決方案。在Hopper這一代平台中,它提供了GPU之間每秒900Gb的通信帶寬,遠遠超過了傳統連接的能力。NVLink確保數據可以在GPU之間快速高效地傳輸,同時最大限度地減少延遲並保持GPU得到充分利用。Blackwell平台將帶寬提高到每秒1.8 Tb,NVIDIA NVLink交換晶片將在一個72 GPU NVLink域(NVL72
)中實現每秒130 TB的GPU帶寬。
Taylor Allison分享了有關NVLink的更多細節。他說:「NVLink是一種不同於InfiniBand的技術,我們能夠利用我們在InfiniBand方面的一些知識和最佳實踐來設計這種架構——特別是我們在InfiniBand中已經做了很長時間的網路內計算,已經能夠將其移植到NVLink,但兩者是不同的。」
他快速比較了InfiniBand和以太網,然後描述了NVLink的適用情況。他說:「InfiniBand和以太網一樣,使用的是傳統的交換/路由協議——NVLink中沒有的OSI模型。NVLink是一種計算結構,使用不同的語義。」
他告訴我,NVLink是一種高速互連技術,可以實現共享內存池。以太網和InfiniBand有不同的範例。Nvidia設計了NVLink的架構,使其能夠隨著GPU數量的增加而擴展,確保即使將GPU添加到系統中,通信速度也能保持一致。這種可擴展性對於大型語言模型至關重要的,因為大型語言模型的計算需求是不斷增加的。
NVSwitch:實現無阻塞通信
為了進一步增強多GPU通信,Nvidia推出了NVSwitch,一種網路交換機,可使系統中的所有GPU以NVLink總帶寬同時進行通信。與點對點連接不同,點對點連接中多個GPU必須分割帶寬,而NVSwitch可以確保每個GPU都能以最大速度傳輸數據,而不會受到其他GPU的干擾。
Salvator說:「Blackwell擁有我們第四代的NVSwitch,這項技術一直在發展中。這不是我們第一次在我們的平台上開發交換晶片。第一個NVSwitch是在Volta架構中的。」他補充說,NVSwitch在推理和訓練方面都具有優勢。
訓練和推理
Salvator說:「訓練是你投資AI的一個方面,當你進行推理和部署時,組織就會開始看到這項投資的回報。因此,如果你能在兩方面都獲得性能優勢,那麼NVSwitch和NVLink結構的存在就會帶來價值。」
NVSwitch的非阻塞架構可以實現GPU之間更快速的數據共享,這對於在模型推理期間保持高吞吐量至關重要,尤其有利於Llama 3.1 70B等具有大量通信需求的模型。在這些場景中使用NVSwitch可以使吞吐量提高1.5倍,從而提高系統的整體效率和性能。
案例研究:對Llama 3.1 70B模型的影響
這篇博文探討了NVLink和NVSwitch對使用Llama 3.1 70B模型的影響。在Nvidia的測試中,結果顯示,配備NVSwitch的系統優於使用傳統點對點連接的系統,尤其是在處理較大批量任務時。
據Nvidia稱,NVSwitch縮短了GPU到GPU通信所需的時間,提高了整體推理吞吐量。這種改進意味著實際應用中的響應時間更快,這對於在AI驅動的產品和服務中保持無縫的用戶體驗來說,是至關重要的。
展望未來:Blackwell架構
Nvidia的Blackwell架構引入了第五代NVLink和新的NVSwitch晶片。這些升級將帶寬提高了2倍,達到每GPU每秒1800 GB,並提高了GPU到GPU的通信效率,從而能夠實時處理更大的、更複雜的模型。不過,只有時間才能證明這一點。
最後的一些想法
Nvidia的NVLink和NVSwitch技術是大型語言模型持續發展的關鍵組成部分。在思考這些技術和快速的發展速度時,有三個關鍵點需要牢記:
增強的GPU通信即將到來:Nvidia的NVLink和NVSwitch將改善GPU到GPU的數據傳輸,並減少大型語言模型推理中的延遲。
可以實現更大模型的可擴展性:這些技術可以在多GPU系統中實現高效擴展,同時在模型規模增加時保持高性能。
Nvidia已經準備好迎接Blackwell:即將推出的Blackwell架構將帶來更多改進,提升更複雜AI模型的性能。
這些發展進步令人興奮,看看行業和客戶對此會有怎樣的反應吧。Nvidia繼續推動AI的發展,並保持領先地位,但競爭還遠未結束。