CEO-Bench做了一個很有意思的測試:給AI大模型100萬美元初始資金,讓它運營一家模擬初創公司500天,看最後剩下多少錢。

近日測試成績終於出爐,13個智能體參賽,結果相當扎心。
五個模型跑了3次,3次全破產——Grok
4.20平均只活了28天,DeepSeek
V4 Pro活了114天,Gemini 3 Flash和GLM 5.1也沒撐過160天,Claude Haiku 4.5也是3次全破產。

再加上Kimi K2.6破產1次、GPT-5.5破產2次,整個測試里接近一半的運行以破產收場。
更尷尬的是,一個不涉及任何AI的規則基線,就是按固定邏輯執行決策的簡單程序,最終拿到了1576萬美元,贏了10個AI模型。
也就是說,你花大價錢調用的智能體,還不如幾條if-else規則管錢管得好。

當然頭部模型確實厲害。Claude Fable 5最佳運行賺到4715萬美元,Claude Opus 4.8拿到2778萬,GPT-5.5拿到2130萬。但只有這三個的最佳成績超過了100萬初始資金,而且Claude Fable 5是唯一一個兩次運行都高於初始資金的模型,穩定性遠超其他。
GPT-5.5的策略很激進。3次運行里2次破產,但賺到2130萬的那次確實猛——它會根據市場變化反覆調整獲客、研發、定價,工具使用分布均勻,89%的研發預算精準投向客戶群定向改進。高風險高回報,賭對了就是第三名,賭錯了直接歸零。
Claude Opus 4.8的路子與GPT-5.5完全不同。它的最佳運行中途客戶數跌到0,靠控制成本硬撐到了2778萬。

有意思的是AI操作頻率跟結果沒什麼關係。GLM 5.1平均每周操作51.5次,3次全破產。Claude Fable 5平均每周只操作15.4次,卻跑出了最高分。忙著折騰不如折騰對了。
頭部模型還有個別的模型做不到的事——它們會自己寫代碼輔助決策。Claude Opus 4.8在運行中寫代碼模擬不同場景的現金流,GPT-5.5寫代碼從談判數據里推斷客戶的價格偏好。這已經不是調參數了,是AI給自己造工具。
但整體來看,AI當CEO這件事目前還很不靠譜。多數模型連500天都活不過去,距離AI真的能掌舵一家公司,路還很長。






