

1. 建造了 Colossus——世界上最大的 GPU 集群,目前擁有 100000 個 GPU,很快將擴展至 200000 個 GPU。
2. 發布了我們的前沿模型 Grok 2。

「Colossus 在 122 天內全面投入運行,並在第一台伺服器交付後僅 19 天就開始運行工作負載。很快,xAI 將通過 NVIDIA Spectrum-X 以太網網路擴展至 200000 個 NVIDIA Hopper GPU。」
1. 確定瓶頸列表。
2. 放下其他所有事情。刪除 argmax(bottlenecks)。根據定義,沒有任何事情比最慢的環節更需要優先修復(P0)。
3. 從第 1 步開始重複。這是每一位經理,無論你處於何種職位,都應該學習的執行手冊。
