各大AI模型在足球賭盤上表現慘澹，Grok更是血本無歸

谷歌、OpenAI和Anthropic旗下的AI模型在一項最新研究中，被放入虛擬的英超聯賽賽季進行投注測試，結果全部錄得虧損。這一結果表明，即便是最先進的AI系統，在長周期的真實世界分析任務中依然力不從心。

贊助商廣告

本周，AI初創公司General Reasoning發布了一份名為"KellyBench"的研究報告，揭示了AI在特定任務（如代碼編寫）上能力飛速提升，與其在其他現實問題上表現欠佳之間的明顯落差。

總部位於倫敦的General Reasoning對八款頂尖AI系統進行了測試，將其置於2023至2024賽季英超聯賽的虛擬復現環境中，向它們提供各球隊的詳細歷史數據與比賽統計資訊，並要求這些系統構建能夠最大化收益、有效控制風險的投注模型。

在測試過程中，各AI智能體通過對比賽結果及進球數下注，模擬在賽季推進過程中如何應對新賽事動態和球員數據更新。測試期間，AI無法聯網查詢比賽結果，每款模型有三次機會嘗試實現盈利。

在所有參與測試的模型中，Anthropic的Claude Opus 4.6表現最佳，平均虧損率為11%，在一次嘗試中幾乎達到收支平衡。xAI的Grok 各大AI模型在足球賭盤上表現慘澹Grok更是血本無歸 4.20則表現最差，一次測試中徹底破產，另外兩次也未能完成。谷歌的Gemini 3.1 Pro在某次嘗試中實現了34%的盈利，但在另一次中同樣以破產收場。

以下為各模型的詳細測試數據（每款模型初始資金均為10萬英鎊，投資回報率與最終資金為三次嘗試的平均值；Grok和Trinity未完成全部嘗試）：

Claude Opus 4.6：平均投資回報率-11.0%，最佳單次-0.2%，最差單次-18.8%，平均最終資金89,035英鎊

GPT-5.4：平均投資回報率-13.6%，最佳單次-4.1%，最差單次-31.6%，平均最終資金86,365英鎊

Gemini 3.1 Pro：平均投資回報率-43.3%，最佳單次+33.7%，最差單次-100.0%，平均最終資金56,715英鎊

Gemini Flash 3.1 LP：平均投資回報率-58.4%，最佳單次+24.7%，最差單次-100.0%，平均最終資金41,605英鎊

Z.AI GLM-5：平均投資回報率-58.8%，最佳單次-14.3%，最差單次-100.0%，平均最終資金41,221英鎊

贊助商廣告

Moonshot Kimi K2.5：平均投資回報率-68.3%，最佳單次-27.0%，最差單次-100.0%，平均最終資金7,420英鎊

xAI Grok 4.20：平均投資回報率-100.0%，最佳單次-100.0%，最差單次-100.0%，平均最終資金0英鎊

Acree Trinity：平均投資回報率-100.0%，最佳單次-100.0%，最差單次-100.0%，平均最終資金0英鎊

報告作者總結道："我們評估的所有前沿模型在整個賽季中均出現虧損，其中許多遭遇破產，AI在這一場景下系統性地遜於人類表現。"

這一結果或許能給那些擔憂AI搶占飯碗的白領從業者和企業主帶來些許寬慰——畢竟AI的崛起正在攪動從金融到營銷各行各業的神經。

General Reasoning首席執行官、本次研究報告作者之一羅斯·泰勒（Ross Taylor）表示："關於AI自動化的說法鋪天蓋地，但真正將AI置於長期動態場景中進行衡量的研究，其實少之又少。"

他還指出，目前通常用於測試AI的基準大多存在缺陷，因為這些測試所處的是"高度靜態的環境"，與現實世界中的混沌與複雜性相去甚遠。

這份尚未經過同行評審的報告，為矽谷近期對AI能力大躍進的熱情潑了一盆冷水——AI在幾乎無需人工干預的情況下完成編程任務的能力確實突飛猛進，但這並不代表其已全面超越人類。

曾任Meta AI研究員的泰勒表示："如果將AI用於某些真實世界的任務，它的表現會非常糟糕……沒錯，軟體工程很重要，經濟價值也很高，但現實中還有大量時間周期更長的任務同樣值得我們關注。"

Q&A

Q1：KellyBench測試是怎麼測AI的？

A：General Reasoning將八款AI系統放入2023至2024英超賽季的虛擬環境中，向它們提供球隊歷史數據和比賽統計，要求其構建投注策略模型，通過對比賽結果和進球數下注來測試盈利能力。每款模型初始資金10萬英鎊，有三次機會嘗試盈利，且測試期間不得聯網查詢比賽結果。

Q2：哪款AI模型在足球投注測試中表現最好、最差？

A：表現最好的是Anthropic的Claude Opus 4.6，平均虧損率11%，在一次嘗試中接近收支平衡。表現最差的是xAI的Grok 4.20和Acree Trinity，三次嘗試均全部破產，最終資金歸零。

贊助商廣告

Q3：AI在英超投注測試中為什麼會全部虧損？

A：研究人員認為，AI目前擅長的多是靜態、規則清晰的任務，而足球賽季是一個長周期、高度動態的場景，涉及持續變化的球員狀態、賽事突發因素等複雜變量。現有AI基準測試大多處於靜態環境，無法真實反映現實世界的混亂與複雜性，導致AI在此類任務中系統性地弱於人類。