影片已經占領了網際網路,幾乎有80%的流量都是來自影片。過去幾年,數據中心越來越依賴GPU加速卡來對網路上運行的大量影片流量進行轉碼,從而卸載CPU的大部分工作,以期降低延遲、成本和功耗。
隨著影片性質的轉變,這也只會變得更具挑戰性。過去流行的模式,是由Netflix這樣的公司為主導的一對多點播環境,或者是像體育比賽直播這樣的賽事,其中影片源從一個地方開始,流經雲數據中心運行,內容交付網路(CDN)和邊緣伺服器,然後到達企業辦公室或者是消費者家中。
但是這個過程中總是存在一點點延遲的,因為需要在數據中心完成大量處理和計算以確保良好的質量,或者因為廣播公司需要幾秒鐘的延遲來進行影片編輯。在這種情況下,這種程度的延遲並不是一個很大的問題。
但影片的交互性越來越強,不僅是Twitch影片遊戲直播服務等消費者應用,還有在疫情期間被在家辦公群體採用的影片會議等企業工具。2019年12月,Zoom每天有1000萬用戶。到2020年6月,隨著疫情席捲全球,這個數字達到了3億,其他服務例如微軟的Teams和思科的Webex,也出現了類似的增長。
這種交互式影片環境帶來了更大的壓力,也就是需要數據中心資源來減少延遲或者是消除延遲。2021年,影片市場中有70%的影片都是交互式影片。
AMD公司高級產品營銷經理Vincent Fung表示:「在網路管道和伺服器端處理方面,這開始給基礎設施造成壓力。以前傳統[的基礎設施]模型開始沒有太大經濟意義了,要跟上發展步伐滿足這些場景的需求,變得越來越困難。」
此類用途正是AMD首席執行官Lisa Su和其他高管在去年初以350億美元收購可編程晶片製造商賽靈思(Xilinx)時想到的。通過Zen微架構、Epyc伺服器CPU以及Radeon GPU,AMD過去幾年中大舉回歸數據中心,占據了超過25%的數據中心CPU市場,同時看到了在GPU市場的增長空間。
將賽靈思收入囊中,讓AMD在數據中心領域的影響力越來越大,不僅通過FPGA,還通過AI引擎、自適應片上系統、以及用於網路和邊緣等領域的軟體。賽靈思還構成了AMD自適應和嵌入式計算事業部的基礎,帶來了一系列專用影片編碼卡。
這其中,還包括了賽靈思在2020年推出的Alveo U30媒體加速卡,旨在用於實時流媒體工作負載,通過雲端的Amazon Web Services EC2 VGT1實例或者在預配置設備中進行現場影片轉碼。Fung表示,AMD「一直期待互動媒體的發展,因此我們推出了第一代產品,即U30。」現在,AMD正在推出下一代產品Alveo MA35D的樣品,這是一款數據中心媒體加速卡和專用影片編碼卡,與U30相比有顯著的改進。
Fung說,實時影片流越來越多,這「造成了流量的急劇增加」。「在一對多變成多對多的情況下,當我們查看這些交互式用例時,從影片的角度,這就需要做更多的處理。你消除了為解決這些非常苛刻的交互式用例而必須做出的妥協。有很多人在使用它,所以你需要高性能。你希望將帶寬成本降至最低,因為帶寬占用量是很大的,耗電量都成為了一部分支出。」
與Alveo U30一樣,MA35D專為實時交互式影片編碼而設計,是AMD收購賽靈思之後推出的首款產品。MA35D包含了2個5nm ASIC影片處理單元(VPU),可以提供4倍的同步影片流——最多32個1080p60通道——並支持8K和AV1解析度編碼,Fung表示,這是計算密集型的最新標準。
根據AMD公司影片戰略和開發負責人Sean Gardner表示,現在有很多大公司都採用了該標準,包括Meta、微軟和思科,以及谷歌YouTube、Netflix和Roku等此類服務。
Gardner說:「這項標準已經問世,但十分有限,每一個新標準,理論目標都是實現比以前標準高50%的壓縮效率。如果我們鎖定在了視覺質量,那麼我需要多少字位才能達到這一質量標準?每個新標準都力求降低50%的帶寬來實現這一質量水平,但每個步驟都要在編碼端有所花費,因為這就是差異所在。你要讓解碼成本更低,因為編碼體積很大——或者曾經體積很大,現在已經開始有所改觀——但這會導致每個新編解碼器有5到7倍的損失。」
他說,延遲是關鍵。
「Netflix沒有延遲[問題],他們可能需要10個小時——確實如此——來處理一小時的影片,並且他們可以在產能過剩的下班時間使用這些帶寬。但現場直播需要在16毫秒內進行,否則你就落後於實時,每秒60幀。想想這個場景,你可以使用Zoom、Teams或者Webex,可能有數十億人同時使用這些服務。或者像Twitch這樣擁有數十萬個用戶的服務。另一方面是,對於實時[流媒體]來說,你不能使用類似緩存CDN的架構,因為你無法承受它所帶來的延遲。這就是為什麼需要加速。」
除了4倍的通道密度外,測試還表明,將於第三季度投產、建議零售價為1595美元的MA35D每通道成本降低2倍,壓縮率降低1.8倍,延遲降低4倍。此外MA35D還可以進行擴展,從帶有卡的32個流到擴展到有8個卡的伺服器格式256個流,然後擴展到機架或數據中心級別,提供高達52%的比特率降低以節省帶寬。
除了VPU,該加速卡還包括了編碼器和解碼器、自適應比特率縮放器、用於沉浸式計算的合成器引擎、視覺質量引擎和「Look-Ahead」,用於分析運動內容以及高效壓縮,此外還有用於優化視覺質量的AI處理器。
主機CPU通信是通過PCI-Express 5.0總線進行,該總線向後兼容Gen4。
Fung表示:「加速器是整個影片管道,目標是不必把任何這類任務放在晶片之外,這樣我們就可以保持一致的性能水平。我們可以交付的內容不會受到近實時用例的影響。一切都在這裡,硬體化了。我們這裡有一個AI模塊,典型的編碼、解碼都在這裡進行,但同時我們也有基礎的優化。」
在影片領域,AMD正在尋求擺脫Nvidia的GPU戰略,Nvidia的T4 Tensor Core主要針對AI推理和L4圖形,而英特爾及其GPU Flex系列則主要用於數據中心媒體流。Gardner說,當流媒體影片數量開始增加的時候,唯一真正厲害的是Nvidia GPU。
現在大家都看到這類加速卡有兩個關鍵應用,分別是影片和人工智慧。影片市場現在很龐大,但AI也在興起。AMD正在針對這兩大用例制定策略。
他還說:「一切都開始開放了,英特爾和Nvidia繼續通過GPU推動發展,或者英特爾正在嘗試用大AI和小影片,英特爾正以一種中等影片、中等AI來解決這個問題。我們從99%的影片開始,已經添加了一些小型AI,但我們並沒有試圖進入智能城市和監控領域。這種AI專門針對在線的、像素級的處理。」