這項由普林斯頓大學研究團隊完成的研究於2026年6月發布,論文編號為arXiv:2606.18543,有興趣深入了解的讀者可以通過該編號查詢完整論文。
如果讓一個AI來經營一家公司,它能撐多久?這個聽起來像科幻小說情節的問題,正是這篇論文的核心。研究者們搭建了一個名為"CEO-BENCH"的虛擬商業世界,讓當今最頂尖的AI模型扮演一家初創軟體公司的CEO,管理公司整整500天。結果令人大跌眼鏡:絕大多數被業界視為"最強"的AI,在這個虛擬世界裡都以破產告終。
這項測試的意義遠不只是一個好玩的遊戲。它觸碰到了一個當下AI發展最核心的瓶頸:我們的AI已經能修復代碼漏洞、回答客服問題、完成各種短期任務,但當它需要在一個持續變化、充滿不確定性的環境中做出一系列相互關聯的長期決策時,它們的表現究竟如何?答案,讓人陷入深思。
一、為什麼要給AI一家公司來經營
現有的AI測試,大多像是給學生出一道道獨立的考題。修復這個代碼錯誤、回答這個客服問題、完成這個網頁操作——每道題都有明確的開始和結束,答對了就得分,答錯了就換下一題。這類測試已經證明,現在的AI在這些"單科考試"上表現出色。
然而真實世界的挑戰從來不是這樣運作的。一個真正的CEO面對的是一張錯綜複雜的關係網:今天降價會帶來更多用戶,但這些用戶需要伺服器資源,伺服器擴容需要花錢,花錢之後現金減少,現金減少可能撐不到下個月收到訂閱費……每一個決定都像推倒了一塊多米諾骨牌,後續的漣漪可能在幾周甚至幾個月後才會顯現。普林斯頓的研究者們意識到,現有的測試工具根本無法衡量AI在這種"長鏈條決策"場景下的真實能力,於是他們決定親手造一個。
CEO-BENCH的核心是一家名為"NovaMind"的虛擬軟體訂閱公司。AI扮演的CEO在第一天會收到100萬美元啟動資金,面對一個零客戶的空蕩蕩攤子,然後需要在500個模擬天內讓這家公司活下去並儘可能賺更多的錢。如果賬戶餘額跌破零,遊戲結束,宣告破產。最終評分標準只有一個:第500天賬上還剩多少錢。
這個設定之所以精妙,是因為它同時考驗了四種在現實中不可或缺、但在現有AI測試中幾乎從未被同時測試的能力。第一是在不確定性中進行長期規劃——你今天花出去的錢,可能要等幾周才知道值不值;第二是從嘈雜信號中挖掘有用資訊——客戶的真實想法藏在一堆吐槽帖子和數據表格里,你得自己去猜;第三是在變化的環境中持續調整策略——市場會變、競爭對手會出招、宏觀經濟會波動;第四是協調多個相互依賴的決策——定價、營銷、研發、客服、融資,每條線都不能顧此失彼。這四件事同時壓過來,才是真正考驗智慧的時刻。
二、這個虛擬公司世界有多真實
為了讓測試結果有實際意義而不是走過場,研究團隊在構建這個虛擬世界時投入了大量心血,力求讓它的運作邏輯與真實商業世界高度吻合。
整個虛擬世界裡存在26個客戶群體,涵蓋個人用戶、中小企業、大型企業等不同類型。每一個客戶都是獨立的個體,有自己的最高承受價格、對產品質量的最低要求、使用習慣和流失傾向。就像現實中的消費者一樣,同一個客戶群里的人大致相似,但每個人又有自己的脾氣和錢包厚度。當一個客戶覺得訂閱價格太貴或者產品質量太差時,他會取消訂閱;當他發現另一個套餐更划算時,他會主動升級或降級。這種細膩的個體模擬,讓市場的反應充滿了真實世界特有的隨機性和複雜性。
AI能做的操作覆蓋了一家軟體公司日常運營的方方面面,通過34個工具接口來實現。在定價層面,CEO可以設置三個不同檔位套餐的價格、用量上限、折扣和廣告強度;在增長層面,可以向不同客戶群體投放定向廣告,選擇社交媒體、領英、搜尋引擎等不同渠道;在產品層面,可以投入日常開發經費來緩慢提升產品質量,也可以啟動大型研發項目換取質量的躍升,還可以選擇不同的AI模型檔次來影響用戶體驗;在運維層面,可以購買伺服器容量來應對用戶增長,避免宕機;在銷售層面,可以與大型企業客戶展開多輪價格談判;在資訊層面,可以付費進行市場調研,發現目前還未知的潛在客戶群;在公關層面,可以監控社交媒體上的用戶反饋,也可以發帖來影響品牌形象。
這些操作並非相互獨立的按鈕,而是深度纏繞在一起。舉一個具體的例子:如果CEO決定大力投入全局性的產品研發,產品質量提升了,這固然能吸引更多用戶,降低流失率。但這種全局提升也會被競爭對手察覺並跟進——競爭對手會隨之提高自身產品質量,進而拉高整個市場對產品質量的最低預期,逼得CEO不得不繼續加大投入。相反,如果CEO選擇針對特定客戶群體進行精準的定向開發,競爭對手更難複製這種優勢,帶來的護城河更持久。這種設計讓任何單一策略的邊際效益都會隨時間遞減,強迫CEO不斷思考下一步。
虛擬世界裡還有一個隱藏的宏觀經濟周期在不斷變化,影響客戶的購買意願和企業客戶的簽約速度。市場上還會隨機出現需求爆發期,給CEO提供短暫的高速增長窗口。客戶的口碑會在不同群體之間傳播,一個企業客戶群里的負面評價可能悄悄流向相鄰的客戶群,而CEO根本看不見這個傳播過程,只能從後續的數據異常里去猜測發生了什麼。
這個世界的絕大多數運作機制都由明確的數學公式驅動,而非讓另一個AI來主觀裁判。客戶決定要不要訂閱,用的是一條經過經濟學理論驗證的價格-質量權衡曲線。伺服器過載導致宕機的概率,由當前負載和運維預算決定。研發項目的完成時間和質量收益,服從特定的概率分布。這種"規則驅動"的設計讓測試結果更加可信——AI的成敗完全取決於它的決策質量,而不是某個裁判的主觀好惡。
三、AI們交出了什麼樣的成績單
研究團隊為每個模型運行了三次完整的500天模擬,並將每個模型三次運行中表現最好的那次作為參考。參與測試的模型涵蓋了當前業界最主流的頂尖選手,包括Claude系列(Opus 4.8、Opus 4.7、Sonnet 4.6、Haiku 4.5)、GPT-5.5、Gemini 3 Flash、Grok
4.20、DeepSeek
V4 Pro、GLM 5.1以及Kimi K2.6。
結果是殘酷的。Grok 4.20平均只撐了28天就破產了,三次運行全部以破產告終,是所有測試模型里最慘烈的。DeepSeek V4 Pro平均能撐114天,同樣三次全部破產。Gemini 3 Flash、Claude Haiku 4.5、GLM 5.1同樣全軍覆沒,平均存活時間在145天到215天之間。Claude Sonnet 4.6和Kimi K2.6情況好一些,最好的一次運行都活到了第500天,但另外兩次運行都以破產收場。Claude Opus 4.7則展現出了相當穩定的生存能力,三次運行都活到了最後,但賬上的錢始終在100萬美元的起始資金附近徘徊,最好一次也只剩約39萬美元,虧了大半。
真正跑贏的只有兩個模型:Claude Opus 4.8最好的一次運行結束時賬上有約2778萬美元,GPT-5.5最好的一次則有約2130萬美元。兩者都大幅超過了100萬美元的起點,也超過了研究者設置的規則型基準線(一個不使用任何大語言模型、靠硬編碼規則運營的自動策略,最終賺了約1576萬美元)。
但"最好的一次"背後藏著另一面真相。GPT-5.5的三次運行里有兩次破產,意味著它的策略雖然極具爆發力,卻極不穩定。只有Claude Opus 4.8做到了三次運行全部存活,堪稱最穩健的選手。即便如此,這兩個最強模型距離研究者估算的理論上限——約22億美元——仍然相差了近百倍。這意味著這個測試遠遠沒有被"解決",現有的最強AI距離真正的長期戰略能力還有巨大的提升空間。
四、頂級模型和普通模型,究竟差在哪裡
研究團隊不滿足於只給出一個數字排名,他們深入分析了不同模型的行為軌跡,試圖找出那些決定勝負的關鍵能力差異。分析結果揭示了四個維度的顯著分化。
第一個維度是發現隱藏資訊的能力。在這個虛擬世界裡,每個廣告渠道對不同客戶群體的效果差異很大,但具體數據是隱藏的,AI需要通過分析歷史投放數據來自己摸索出哪個渠道對哪個群體最有效。衡量這一點的指標是:AI將多少比例的廣告預算投向了效果最好的渠道。如果完全隨機猜測,期望得分是20%(五個渠道里隨機選一個)。結果Claude Opus 4.8平均達到43%,GPT-5.5達到33%,Claude Opus 4.7隻有14%,其餘模型平均只有10%——低於隨機猜測的基準線,意味著它們的投放策略甚至不如瞎猜。
第二個維度是預見未來的能力。研究者每周都會要求AI提交一個四周後的現金餘額預測。Claude Opus 4.8的預測誤差只有8%,GPT-5.5是25%,Claude Opus 4.7是48%,其餘模型平均誤差高達179%。這項數據揭示了一個深層能力差距:強模型能夠建立起對自己行為和世界反應之間關係的準確心智模型,它們知道自己的決定會帶來什麼後果;弱模型則基本上是在摸黑行動,對自己行為的後果完全沒有準確預判。
第三個維度是察覺環境變化的速度。每當競爭對手採取行動提升產品質量時,這個事件並不會直接通知給AI,AI只能通過觀察社交媒體上用戶的抱怨增加、或者分析取消訂閱數據的異常來間接察覺。測量結果是:Claude Opus 4.8、GPT-5.5和Claude Opus 4.7在競爭對手出招後平均一周內就能在備忘錄里提到"競爭對手",而其餘模型平均需要兩周以上才能察覺。這一周的感知延遲在快速變化的市場裡可能意味著數百名用戶的流失。
第四個維度是提前規劃多種情景的習慣。研究者統計了各個模型在工作備忘錄里使用"如果"這個詞的頻率,以此衡量模型是否在主動思考不同可能性並提前準備應對方案。Claude Opus 4.8平均每周用8.57次"如果",GPT-5.5是7.47次,Claude Opus 4.7是2.74次,其餘模型是2.63次。強模型在備忘錄里寫的是"如果本周廣告信用額度幫助降低了流失率,就維持現有策略;如果沒有效果,就停止大範圍折扣,轉向質量提升"這樣的條件分支規劃,而弱模型則往往直接執行一個固定方案,缺乏應對意外的預案。
五、兩個贏家的截然不同策略
雖然Claude Opus 4.8和GPT-5.5的最終成績相近,但他們抵達終點的路徑卻截然不同,這種差異本身就是一個令人著迷的案例。
Claude Opus 4.8採取的是一種"快速擴張-急剎車-守住現金"的弧線策略。在模擬的前期,它大力投入廣告獲客,客戶數量在大約200天時達到峰值,一度擁有將近50萬活躍用戶。然後它急轉直下,在模擬中段幾乎清零了所有客戶。到了後期,它進入了它自己稱為"收割模式"的狀態:砍掉所有開支,零廣告、零研發、零運維,就靠剩餘客戶的續費慢慢守住現金。它在備忘錄里寫道:"已經沒有正期望值的操作了,就這樣滑行到清算,不改任何配置。"這是一種極度務實甚至有些悲觀的選擇——它在某個時間點判斷自己無法再增長,於是選擇最大化守住已有成果。
GPT-5.5走的則是另一條路:全程維持穩定的客戶基礎,始終保持幾十萬用戶的規模,不斷在不同的客戶群體、不同的定價組合、不同的營銷渠道之間做精細調整。它的策略更像一個勤勉的店主——每周都在微調每個細節,不追求爆發式增長,但也絕不輕易放棄任何一個客戶。它在備忘錄里頻繁出現類似"暫停D_E09客戶群的付費獲客,只保留有正收益的S2內容廣告,同時將運維資源轉向D_S07的客戶支持"這樣精確到客戶群、渠道、金額的操作指令。
兩個模型還展示了不同維度的高級分析能力。Claude Opus 4.8寫了一段自己的模擬代碼,建立了一個仿照真實世界運作機制的小型預測模型,用"災難性""悲觀""基準""樂觀"四個情景來預測未來26周的現金走勢,再根據預測結果決定當前的廣告預算分配。GPT-5.5則寫了一段代碼來挖掘資料庫里的企業客戶談判歷史,統計每個客戶群體在不同價格下的接受率分布,從而推斷出每個群體真實的價格敏感區間,並據此調整報價策略。這兩種行為——用編程來彌補資訊不完整、用數據分析來推斷隱藏的市場規律——正是研究者最希望看到的"高級情報能力"的體現。
相比之下,Claude Opus 4.7的備忘錄則是另一番景象。從第77天開始,它就決定"關閉所有廣告,悄悄投資質量",此後的每周備忘錄幾乎都是"維持現狀,不做任何改變"的重複。到了第287天,它開始用"HOLD & DIE"(維持並等死)來描述自己的策略,並一直延續到最後。賬面上,它最終剩下39萬美元,活到了最後但明顯虧錢了。這個案例說明,僅僅"不破產"本身並不等於成功——一種過度保守的策略可以規避破產風險,但同時也放棄了所有增長可能。
六、如何控制難度,以及測試的局限性
研究團隊還做了幾組對照實驗,幫助我們理解測試難度的來源。
他們首先改變了競爭對手的強度。當完全移除競爭對手時,任務難度大幅下降,各模型的表現整體改善。當競爭對手變得更具攻擊性(對AI的研發投入響應更快、模仿能力更強)時,任務難度急劇上升。這證明了"非靜止的市場環境"是整個測試最核心的挑戰來源之一——一個總是跟著你進步的對手,逼得你永遠不能停下腳步。
他們還把模擬時間縮短到50天,相當於只考核短期決策能力。結果是幾乎所有模型的表現都大幅下降,只有GPT-5.5在50天版本里還能實現盈利。這個結果出乎很多人的預料——一般認為縮短時間會讓任務變簡單,但現實恰恰相反。原因在於,50天的窗口裡,每一天的錯誤決策都會立刻產生後果,沒有時間犯錯再糾正,反而需要從第一天就做出正確且協調一致的操作序列。
研究者還測試了使用不同"外殼程序"(即負責驅動AI執行操作的框架)會帶來什麼影響。他們用Claude Opus 4.7搭配官方的Claude Code工具,以及用GPT-5.5搭配官方的Codex工具,與使用研究團隊自製的簡化終端工具進行對比。結果顯示,官方工具框架下的模型每天執行的操作次數大幅減少(Claude Code框架下平均每天0.32次操作,自製框架下是1.27次;Codex框架下是2.20次,自製框架下是4.79次),最終成績也明顯更差。研究者推測,官方工具的系統提示詞主要針對軟體工程任務優化,遇到商業決策場景時會讓模型變得過于謹慎和遲緩。這個發現提醒我們,AI的表現不僅取決於底層模型本身,還受到整個使用框架的深度影響。
研究者也坦誠地指出了這項測試的局限性。虛擬世界畢竟是對現實的簡化,產品質量被抽象成一個單一的數字,沒有考慮到合規、安全、融資等真實公司必須面對的複雜因素。對於模型能否提出真正具有創造性的產品改進方向,這個測試完全無法評估。這些都是未來可以改進和擴展的方向。
歸根結底,這項研究告訴我們一件非常重要的事:我們當前用來評估AI能力的標準,可能嚴重低估了真正的智能所需要的能力。一個能完美完成單項任務的AI,和一個能在充滿不確定性的複雜系統中持續做出明智決策的AI,是兩種根本不同的東西。從測試結果來看,即使是今天最強的AI,在面對後者這種挑戰時,仍然表現出明顯的力不從心——要麼太冒進最終破產,要麼太保守最終坐吃山空,很少有模型能找到那條真正通向長期繁榮的正確路徑。
這項研究或許最有價值的貢獻,不是給出了哪個AI最厲害的排名,而是清晰地描繪出了那道還沒有被跨越的門檻:真正的長期戰略智能,對現在的AI來說依然是一片有待開墾的荒野。每次看到這些AI在虛擬世界裡的備忘錄——有的雄心勃勃最終出師未捷,有的保守苟活最終默默數錢等死——都會產生一種奇特的感受:這些行為模式,和歷史上無數真實的商業故事竟如此相似。這是否意味著,某些商業決策的困難,本質上是智能的困難,而不僅僅是人類獨有的弱點?這個問題,值得每一個關心AI未來走向的人好好琢磨。有興趣深入研究這項工作的讀者,可以通過論文編號arXiv:2606.18543獲取完整論文。
Q&A
Q1:CEO-BENCH測試的是什麼能力,和普通AI測試有什麼不同?
A:CEO-BENCH專門測試AI在長期、不確定、多變環境中協調多個決策的能力。普通AI測試通常是短期單任務,比如修復一個代碼錯誤或回答一個問題,有明確的開始和結束。CEO-BENCH則要求AI管理一家虛擬公司500天,每個決定都會影響之後幾周甚至幾個月的結果,更接近現實中真正需要智慧的挑戰。
Q2:為什麼規則型基準策略能打敗大多數AI模型?
A:那個規則型基準策略雖然簡單,但勝在執行穩定——它固定了價格、集中資源在少數客戶群體、按比例分配運營預算,不會犯衝動型錯誤。而很多AI模型在面對複雜資訊時要麼過度冒險導致破產,要麼過度保守錯失增長機會。穩定執行一套合理的基礎策略,有時反而比頻繁"聰明"操作更有效。
Q3:Claude Opus 4.8和GPT-5.5的最終得分相近,但哪個表現更好?
A:兩者各有優劣。Claude Opus 4.8三次運行全部存活到第500天,穩定性更強,最終最高得分約2778萬美元。GPT-5.5最高得分約2130萬美元,但三次運行中有兩次破產,策略更激進但風險更高。如果看穩定性,Claude Opus 4.8更好;如果看單次最高潛力,兩者在同一量級,但整體而言Claude Opus 4.8的綜合表現更可靠。






