Nvidia創辦人黃仁勛承認,Nvidia最新Blackwell GPU在設計上出現缺陷,導致生產率大幅下降,但問題已於數月前修正。經改良後的B100/B200處理器版本現已準備進入量產階段,而合作夥伴台積電也協助Nvidia解決相關問題。根據Reuters報道,黃仁勛強調設計問題完全源於Nvidia自身。
黃仁勛指出Blackwell設計錯誤導致生產良率低下, 100%是Nvidia的責任(圖片來源:TOM's Hardware)
黃仁勛指出:「Blackwell的設計確實有缺陷,功能上沒有問題,但設計上的錯誤導致生產良率低下, 100%是Nvidia的責任。」部分媒體曾誤指責台積電導致此問題,並暗示Nvidia和台積電之間的合作關係可能受損。對此,黃仁勛反駁並否認了相關傳言,稱其為「假新聞」,表示Nvidia的設計失誤才是問題根源。
針對Blackwell B100和B200 GPU的技術細節,處理器使用台積電的CoWoS-L封裝技術,並通過具備本地矽互聯(LSI)橋接的RDL中介層連接雙晶片,以達到每秒約10 TB的數據傳輸速度。而由於GPU晶片、LSI橋接、RDL中介層和主板基材之間的熱膨脹係數不一致,導致該系統出現變形失效。Nvidia針對問題修改了GPU矽片的頂層金屬層和凸點設計,以提升生產良率,並需使用新的掩膜圖案完成修復。
半導體領域中生產良率低下和功能性缺陷並非罕見,通常公司會通過修改一層或數層金屬層來修正問題,並稱之為「步進」更新。例如Intel的Sapphire Rapids曾因500項問題進行多達12次步進修正,其中5次為基本重新設計。每一次步進更新需耗時約三個月完成,包括問題識別、修復以及生產新版本的處理器,因此Nvidia和台積電對於Blackwell GPU問題的快速修正速度實屬罕見。
目前修正後的Blackwell GPU將於10月底進入量產,預計明年初即可出貨至市場,仍屬於Nvidia 2025財政年度。Nvidia於今年初披露,為了滿足AWS、Google和Microsoft等大型雲計算服務供應商對Blackwell GPU的需求,2024年內仍會出貨部分最初生產良率較低的Blackwell處理器。惟尚不清楚2024年將有多少Blackwell GPU出貨至數據中心。
數據及圖片來源:TOM's Hardware、BlockTempo