市場傳出,特斯拉(Tesla Inc.)28日啟動眾所矚目的超級電腦,準備用於各式人工智慧(AI)應用,其運算能力特別強大、甚至可用來執行高性能計算(HPC)任務。事實上,這款基於英偉達(Nvidia Corp.)「H100」晶片的超級電腦,將成為全球最強大的電腦之一。
爆料可信度一向很高、同時也是特斯拉投資人的Sawyer Merritt通過社交平台X指出,特斯拉將在28日啟動的10,000顆H100 GPU集群,會協助訓練全自動輔助駕駛(FSD)系統。H100 GPU的運算性能是前一代A100的五倍快,可加快特斯拉訓練FSD的速度、訓練成果也會比過去更優秀。不過,H100 GPU非常昂貴,單顆要價近40,000美元。
Merritt指出,由於英偉達無法追上市場對GPU的需求,特斯拉只能斥資十多億美元打造自家超級電腦「Dojo」。Dojo使用公司高度優化的定製晶片,2024年有望成為全球最強大的超級電腦之一。這款超級電腦也會訓練特斯拉的車隊並處理這些車隊傳回的數據。特斯拉首席執行官馬斯克(Elon Musk)7月曾表示,「老實說,若英偉達交出足夠GPU,我們也許不需要Dojo。」
Merritt表示,特斯拉的英偉達H100 GPU集群與Dojo將同時啟動,這能大幅拉升特斯拉的運算能力,目前沒有任何一家汽車企業能夠與之匹敵。Merritt並附上一張圖,顯示特斯拉內部預測,Dojo運算能力有機會在2024年10月達到100 Exa-Flops。
Tomorrow,@Teslawill turn on a massive and very expensive 10,000 unit NVIDIA H100 GPU cluster to help it train FSD. But that got me wondering, what is the difference between these new H100 GPUs and the older A100 graphics processing units (GPUs) Tesla has been using for the last…pic.twitter.com/ZoCjR1SdjI— Sawyer Merritt (@SawyerMerritt)August 28, 2023
Merritt並指出,特斯拉的FSD V12版終端對終端訓練已觸及運算瓶頸,但該公司會積極確保未來不會如此。根據馬斯克說法,特斯拉光2023年就會耗資超過20億美元訓練運算力,2024年也會採取同樣行動。
Tom's Hardware報道,特斯拉AI推論兼AI平台工程經理Tim Zaman 27日則解釋,在真實世界影片的訓練下,特斯拉擁有的也許是世界最大訓練資料庫,緩存熱層的容量超過200PB,數量級(orders of magnitudes)比大型語言模型(LLMs)還高。
Tesla AI 10k H100 cluster, go live monday.Due to real-world video training, we may have the largest training datasets in the world, hot tier cache capacity beyond 200PB – orders of magnitudes more than LLMs.
Join us!https://t.co/F4A0Qb0CXG
— Tim Zaman (@tim_zaman)August 26, 2023
根據報道,10,000顆H100 GPU集群對技術性運算的性能峰值可達340 FP64 PFLOPS,對於AI應用的性能峰值則可達39.58 INT8 ExaFLOPS。相較之下,Leonardo旗下的全球第四優秀超級電腦性能僅304 FP64 PFLOPS。
(首圖來源:shutterstock)