AI當CEO大賽：海外模型賺千萬，DeepSeek跑了3次全破產

CEO-Bench做了一個很有意思的測試：給AI大模型100萬美元初始資金，讓它運營一家模擬初創公司500天，看最後剩下多少錢。

贊助商廣告

近日測試成績終於出爐，13個智能體參賽，結果相當扎心。

五個模型跑了3次，3次全破產——Grok AI當CEO大賽海外模型賺千萬DeepSeek跑了3次全破產 4.20平均只活了28天，DeepSeek V4 Pro活了114天，Gemini 3 Flash和GLM 5.1也沒撐過160天，Claude Haiku 4.5也是3次全破產。

再加上Kimi K2.6破產1次、GPT-5.5破產2次，整個測試里接近一半的運行以破產收場。

更尷尬的是，一個不涉及任何AI的規則基線，就是按固定邏輯執行決策的簡單程序，最終拿到了1576萬美元，贏了10個AI模型。

也就是說，你花大價錢調用的智能體，還不如幾條if-else規則管錢管得好。

贊助商廣告

當然頭部模型確實厲害。Claude Fable 5最佳運行賺到4715萬美元，Claude Opus 4.8拿到2778萬，GPT-5.5拿到2130萬。但只有這三個的最佳成績超過了100萬初始資金，而且Claude Fable 5是唯一一個兩次運行都高於初始資金的模型，穩定性遠超其他。

GPT-5.5的策略很激進。3次運行里2次破產，但賺到2130萬的那次確實猛——它會根據市場變化反覆調整獲客、研發、定價，工具使用分布均勻，89%的研發預算精準投向客戶群定向改進。高風險高回報，賭對了就是第三名，賭錯了直接歸零。

Claude Opus 4.8的路子與GPT-5.5完全不同。它的最佳運行中途客戶數跌到0，靠控制成本硬撐到了2778萬。

有意思的是AI操作頻率跟結果沒什麼關係。GLM 5.1平均每周操作51.5次，3次全破產。Claude Fable 5平均每周只操作15.4次，卻跑出了最高分。忙著折騰不如折騰對了。

頭部模型還有個別的模型做不到的事——它們會自己寫代碼輔助決策。Claude Opus 4.8在運行中寫代碼模擬不同場景的現金流，GPT-5.5寫代碼從談判數據里推斷客戶的價格偏好。這已經不是調參數了，是AI給自己造工具。

但整體來看，AI當CEO這件事目前還很不靠譜。多數模型連500天都活不過去，距離AI真的能掌舵一家公司，路還很長。