AI有望以多種方式改變數據中心,例如改變數據中心就業市場以及改進數據中心監控和事件響應操作。
然而,AI可能對數據中心產生的最大影響是改變數據中心的工作方式。對於那些想要充分利用現代AI技術的企業來說,數據中心所容納的基礎設施及其管理方式必須有所改變。
AI將會引發數據中心怎樣的發展還有待觀察,但以下是一些值得期待的關鍵變化。
AI對數據中心的獨特需求
要評估AI對數據中心的影響,你必須首先了解的是AI工作負載與數據中心中其他類型的工作負載(例如標準應用託管)之間有什麼不同。
雖然AI工作負載有很多形式且要求各異,但大多數都滿足以下的獨特需求:
需要大量的計算資源,尤其是在執行模型訓練的時候。
運行在裸機硬體上使其從中受益,特別是那些可訪問GPU資源的伺服器。
資源消耗率可能會大幅波動。在訓練階段,AI工作負載需要大量的資源,但訓練完成之後,大多數情況下資源消耗會顯著下降,直到再一次訓練模型。
需要超低延遲的網路才能實時做出決策並交付結果。
當然,其他類型的工作負載也可能有這些要求,例如,運行AI應用和服務並不是唯一可以從裸機伺服器中受益的用例,但總的來說,AI軟體要比其他類型的工作負載需要更多上述資源。
為了AI升級數據中心
為了優化AI工作負載的設施,許多數據中心運營商需要做出改變,以滿足AI獨特的需求。以下是數據中心在這方面的關鍵升級。
重新設計或更換裸機伺服器
至少在過去十年中,虛擬機一直是託管工作負載的首選基礎設施資源。但考慮到AI應用和服務對於裸機硬體的需求,有越來越多的數據中心運營商可能會發現擴展裸機產品變得十分重要。
在某些方面,這實際上是簡化了數據中心的運營。如果你在裸機上運行工作負載,最終會得到一個不太複雜的託管堆棧,因為你沒有混合使用虛擬機管理程序和虛擬機編排器。
另一方面,擴展用於託管工作負載的裸機基礎設施可能需要數據中心對託管的伺服器以及伺服器所在的機架進行更新升級。傳統上看,在數據中心設置伺服器的最簡單方法,就是配置非常強大的裸機機器,然後根據工作負載的需求將其分配到任意數量的虛擬機中。但如果你需要直接在裸機上運行工作負載,那麼則可能需要更多的伺服器來隔離工作負載——這意味著數據中心必須將高功率伺服器更換為較小的伺服器,並且可能要相應地更新伺服器機架。
共享支持GPU的伺服器
儘管在AI工作負載進行訓練的時候,使用支持GPU的伺服器是有利的,但AI應用不一定需要GPU來進行日常操作。因此,許多企業只需要臨時訪問支持GPU的基礎設施即可。
為了滿足這一需求,數據中心運營商應該考慮那些讓企業能夠共享基於GPU的基礎設施的產品。少數企業可能希望擁有配備GPU的伺服器,因為他們並不會永遠都需要這種伺服器。但如果數據中心運營商能夠臨時提供對GPU資源的訪問(例如通過GPU即服務的模式),那麼他們就能夠更好地吸引那些有AI工作負載需求的企業。
增強的網路解決方案
大多數企業級數據中心已經提供了對高性能網路基礎設施的訪問,以及有助於儘快將數據移動到外部設施的互連。但為了充分利用AI,數據中心網路產品可能需要變得更加強大。
那些擁有AI工作負載的企業需要兩個關鍵功能:首先,高帶寬網路連接,可以非常快速地移動大量數據,這在分布式基礎設施上訓練AI模型的時候尤其重要。其次,網路能夠提供個位數的延遲,如果你希望AI應用和服務真正做到實時執行,這一點至關重要。
更高的數據中心靈活性
由於AI工作負載的資源需求波動很大,因此可能需要在支持基礎設施數量方面更加靈活的數據中心。AI還可能讓人們更加需要能夠讓企業在其他數據中心內按需部署伺服器、而不是自己設置這些伺服器的服務,因為按需基礎設施是解決資源需求波動的一個好方法。
為此,那些想要優化AI的數據中心運營商應該考慮使其設施更加靈活的產品。短期合同,和那些不僅僅包括了客戶可以建立自己基礎設施的機架空間服務,二者的結合可能對於那些需要部署AI工作負載的組織來說是有吸引力的。
結論
AI變革仍在上演,現在想要確切地知道AI將如何改變數據中心的運營方式或者其中部署的基礎設施類型,還為時過早。但可以相對肯定地是,支持GPU的伺服器和更靈活的解決方案等變化,可能在以AI為中心的世界中變得至關重要。想要分一杯羹的數據中心運營商應該確保更新他們的設施,以滿足AI工作負載的獨特要求。