宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

數據中心GPU使用壽命短得驚人!可能最多只有3年

2024年10月31日 首頁 » 遊戲速遞

據Alphabet(谷歌母公司)一位高級專家稱,數據中心GPU的使用壽命可能僅為1到3年,具體則取決於其利用率。由於GPU幾乎承擔了AI訓練和推理的所有負載,所以其性能下降的速度比其他任何組件更快。

雲巨頭們運營的數據中心中,GPU在AI工作負載中的利用率在60%到70%之間。據Tech Fund援引Alphabet一位首席GenAI架構師的觀點稱,在這種程度的利用率下,GPU的壽命通常只有一到兩年,最多只有三年。

數據中心GPU使用壽命短得驚人!可能最多只有3年

這位架構師將這一言論發表在美國社交媒體X上,引發一系列討論。儘管GPU僅1-3年的壽命看似有些誇張,但卻有其合理性,因為用於AI和HPC應用的數據中心GPU的TDP達到甚至超過了700W,這對於矽晶片是實實在在的壓力。

並且,這位GenAI架構師還表示,延長GPU使用壽命的方法之一就是降低其利用率,這能讓GPU性能下降的速度變慢,但投資回報率的周期也會拉長,並不能滿足業務對快速敏捷的要求,因此雲巨頭們通常選擇了讓GPU保持更高的利用率。

數據中心GPU使用壽命短得驚人!可能最多只有3年

無獨有偶,此前Mete也發布了一項研究(《AI訓練54天,每3小時就故障一次,GPU故障率是CPU的120倍!》),詳細描述了其在16384個Nvidia H100 80GB GPU組成的AI集群上訓練Llama 3 405B模型的故障率情況。據數據顯示,該AI集群訓練模型時的利用率約為38%(基於BF16精度訓練),在419次突發故障導致的訓練停頓中,148次(30.1%)是由於各種GPU故障(包括NVLink故障)導致的,72次(17.2%)是由HBM3高帶寬內存故障引發的。HBM3通常也是GPU上的必備核心組件之一,如果兩者相加的話,那麼在利用率為30%左右時,GPU的故障率約為47.3%。

如果以Meta的數據來看,H100的質量似乎還不錯,其年化故障率大約在9%左右,三年內的年化故障率為27%,儘管GPU的故障率會隨著使用時間的延長而不斷增加。

數據中心GPU使用壽命短得驚人!可能最多只有3年

而另外需要注意的是,Meta訓練集群中的利用率為30%,如果按照Alphabet公司GenAI架構師的觀點,GPU以60%-70%利用率(2倍於Meta)運行,那麼GPU的故障率也會成倍增加。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新