
Nvidia在AI模型訓練和產品部署具有主導地位,市場占有率超過90%,目前最受矚目的AI模型及其產品即是OpenAI的ChatGPT,結合大量電腦設備和數千個Nvidia A100晶片來訓練模型。而自2016年以來,Google一直在設計和部署稱為Tensor Processing Units(TPU)的自研AI晶片,現在有進一步的成果。
Google 4日發布論文,公開其中一部AI超級電腦的詳細資訊,聲稱比競爭對手Nvidia的系統運算更快、功耗更低。
Google已經構建一套系統,其中包括超過4,000個TPU,並結合執行和訓練AI模型的定製化零件,這部以TPU為基礎的AI超級電腦稱為TPU v4。它從2020年開始運行,用於訓練自家PaLM模型超過50天。
「在性能、可擴展性、可用性上TPU v4成為大型語言模型的主力」,Google研究人員表示,TPU v4能比Nvidia A100組成類似大小的系統,運算快1.2~1.7倍,功耗低1.3~1.9倍。不過,Google的TPU並未與Nvidia最新AI晶片H100進行比較,因為後者推出不久,且採用更先進的製程。
另一方面,由學術界和產業人士組成的人工智慧領袖聯盟制定出MLPerf基準,在5日公布全產業AI晶片測試結果和排名。對此Nvidia首席執行官黃仁勛表示,Nvidia H100的測試結果明顯優於上一代。
「今日MLPerf 3.0突顯出以Hopper架構為基礎的H100,其性能是A100的4倍」,黃仁勛在官方博客寫道,並認為下一階段的生成式AI(Generative AI)需要新的基礎設施,以訓練高性能的大型語言模型。
AI所需的大量算力是相當昂貴的,於是Nvidia、Google等產業人士大多專注於開發新的晶片、光學連接零件等,或從軟體技術方面著手,以減少大量運算所需的功耗。
Google被認為是AI領域的主要先驅,旗下研究人員在過去10年已經取得重要進展。然而隨著OpenAI推出ChatGPT,引爆人工智慧熱潮,部分人士認為Google AI技術商業化方面明顯落後,這也迫使Google現在競相發布產品並試圖證明沒有揮霍領先優勢。
(首圖來源:shutterstock)