谷歌、OpenAI和Anthropic旗下的AI模型在一項最新研究中,被放入虛擬的英超聯賽賽季進行投注測試,結果全部錄得虧損。這一結果表明,即便是最先進的AI系統,在長周期的真實世界分析任務中依然力不從心。
本周,AI初創公司General Reasoning發布了一份名為"KellyBench"的研究報告,揭示了AI在特定任務(如代碼編寫)上能力飛速提升,與其在其他現實問題上表現欠佳之間的明顯落差。
總部位於倫敦的General Reasoning對八款頂尖AI系統進行了測試,將其置於2023至2024賽季英超聯賽的虛擬復現環境中,向它們提供各球隊的詳細歷史數據與比賽統計資訊,並要求這些系統構建能夠最大化收益、有效控制風險的投注模型。
在測試過程中,各AI智能體通過對比賽結果及進球數下注,模擬在賽季推進過程中如何應對新賽事動態和球員數據更新。測試期間,AI無法聯網查詢比賽結果,每款模型有三次機會嘗試實現盈利。
在所有參與測試的模型中,Anthropic的Claude Opus 4.6表現最佳,平均虧損率為11%,在一次嘗試中幾乎達到收支平衡。xAI的Grok
4.20則表現最差,一次測試中徹底破產,另外兩次也未能完成。谷歌的Gemini 3.1 Pro在某次嘗試中實現了34%的盈利,但在另一次中同樣以破產收場。
以下為各模型的詳細測試數據(每款模型初始資金均為10萬英鎊,投資回報率與最終資金為三次嘗試的平均值;Grok和Trinity未完成全部嘗試):
Claude Opus 4.6:平均投資回報率-11.0%,最佳單次-0.2%,最差單次-18.8%,平均最終資金89,035英鎊
GPT-5.4:平均投資回報率-13.6%,最佳單次-4.1%,最差單次-31.6%,平均最終資金86,365英鎊
Gemini 3.1 Pro:平均投資回報率-43.3%,最佳單次+33.7%,最差單次-100.0%,平均最終資金56,715英鎊
Gemini Flash 3.1 LP:平均投資回報率-58.4%,最佳單次+24.7%,最差單次-100.0%,平均最終資金41,605英鎊
Z.AI GLM-5:平均投資回報率-58.8%,最佳單次-14.3%,最差單次-100.0%,平均最終資金41,221英鎊
Moonshot Kimi K2.5:平均投資回報率-68.3%,最佳單次-27.0%,最差單次-100.0%,平均最終資金7,420英鎊
xAI Grok 4.20:平均投資回報率-100.0%,最佳單次-100.0%,最差單次-100.0%,平均最終資金0英鎊
Acree Trinity:平均投資回報率-100.0%,最佳單次-100.0%,最差單次-100.0%,平均最終資金0英鎊
報告作者總結道:"我們評估的所有前沿模型在整個賽季中均出現虧損,其中許多遭遇破產,AI在這一場景下系統性地遜於人類表現。"
這一結果或許能給那些擔憂AI搶占飯碗的白領從業者和企業主帶來些許寬慰——畢竟AI的崛起正在攪動從金融到營銷各行各業的神經。
General Reasoning首席執行官、本次研究報告作者之一羅斯·泰勒(Ross Taylor)表示:"關於AI自動化的說法鋪天蓋地,但真正將AI置於長期動態場景中進行衡量的研究,其實少之又少。"
他還指出,目前通常用於測試AI的基準大多存在缺陷,因為這些測試所處的是"高度靜態的環境",與現實世界中的混沌與複雜性相去甚遠。
這份尚未經過同行評審的報告,為矽谷近期對AI能力大躍進的熱情潑了一盆冷水——AI在幾乎無需人工干預的情況下完成編程任務的能力確實突飛猛進,但這並不代表其已全面超越人類。
曾任Meta AI研究員的泰勒表示:"如果將AI用於某些真實世界的任務,它的表現會非常糟糕……沒錯,軟體工程很重要,經濟價值也很高,但現實中還有大量時間周期更長的任務同樣值得我們關注。"
Q&A
Q1:KellyBench測試是怎麼測AI的?
A:General Reasoning將八款AI系統放入2023至2024英超賽季的虛擬環境中,向它們提供球隊歷史數據和比賽統計,要求其構建投注策略模型,通過對比賽結果和進球數下注來測試盈利能力。每款模型初始資金10萬英鎊,有三次機會嘗試盈利,且測試期間不得聯網查詢比賽結果。
Q2:哪款AI模型在足球投注測試中表現最好、最差?
A:表現最好的是Anthropic的Claude Opus 4.6,平均虧損率11%,在一次嘗試中接近收支平衡。表現最差的是xAI的Grok 4.20和Acree Trinity,三次嘗試均全部破產,最終資金歸零。
Q3:AI在英超投注測試中為什麼會全部虧損?
A:研究人員認為,AI目前擅長的多是靜態、規則清晰的任務,而足球賽季是一個長周期、高度動態的場景,涉及持續變化的球員狀態、賽事突發因素等複雜變量。現有AI基準測試大多處於靜態環境,無法真實反映現實世界的混亂與複雜性,導致AI在此類任務中系統性地弱於人類。






