宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

各大AI模型在足球賭盤上表現慘澹,Grok更是血本無歸

2026年04月13日 首頁 » 熱門科技

谷歌、OpenAI和Anthropic旗下的AI模型在一項最新研究中,被放入虛擬的英超聯賽賽季進行投注測試,結果全部錄得虧損。這一結果表明,即便是最先進的AI系統,在長周期的真實世界分析任務中依然力不從心。

本周,AI初創公司General Reasoning發布了一份名為"KellyBench"的研究報告,揭示了AI在特定任務(如代碼編寫)上能力飛速提升,與其在其他現實問題上表現欠佳之間的明顯落差。

總部位於倫敦的General Reasoning對八款頂尖AI系統進行了測試,將其置於2023至2024賽季英超聯賽的虛擬復現環境中,向它們提供各球隊的詳細歷史數據與比賽統計資訊,並要求這些系統構建能夠最大化收益、有效控制風險的投注模型。

在測試過程中,各AI智能體通過對比賽結果及進球數下注,模擬在賽季推進過程中如何應對新賽事動態和球員數據更新。測試期間,AI無法聯網查詢比賽結果,每款模型有三次機會嘗試實現盈利。

在所有參與測試的模型中,Anthropic的Claude Opus 4.6表現最佳,平均虧損率為11%,在一次嘗試中幾乎達到收支平衡。xAI的Grok各大AI模型在足球賭盤上表現慘澹Grok更是血本無歸 4.20則表現最差,一次測試中徹底破產,另外兩次也未能完成。谷歌的Gemini 3.1 Pro在某次嘗試中實現了34%的盈利,但在另一次中同樣以破產收場。

以下為各模型的詳細測試數據(每款模型初始資金均為10萬英鎊,投資回報率與最終資金為三次嘗試的平均值;Grok和Trinity未完成全部嘗試):

Claude Opus 4.6:平均投資回報率-11.0%,最佳單次-0.2%,最差單次-18.8%,平均最終資金89,035英鎊

GPT-5.4:平均投資回報率-13.6%,最佳單次-4.1%,最差單次-31.6%,平均最終資金86,365英鎊

Gemini 3.1 Pro:平均投資回報率-43.3%,最佳單次+33.7%,最差單次-100.0%,平均最終資金56,715英鎊

Gemini Flash 3.1 LP:平均投資回報率-58.4%,最佳單次+24.7%,最差單次-100.0%,平均最終資金41,605英鎊

Z.AI GLM-5:平均投資回報率-58.8%,最佳單次-14.3%,最差單次-100.0%,平均最終資金41,221英鎊

Moonshot Kimi K2.5:平均投資回報率-68.3%,最佳單次-27.0%,最差單次-100.0%,平均最終資金7,420英鎊

xAI Grok 4.20:平均投資回報率-100.0%,最佳單次-100.0%,最差單次-100.0%,平均最終資金0英鎊

Acree Trinity:平均投資回報率-100.0%,最佳單次-100.0%,最差單次-100.0%,平均最終資金0英鎊

報告作者總結道:"我們評估的所有前沿模型在整個賽季中均出現虧損,其中許多遭遇破產,AI在這一場景下系統性地遜於人類表現。"

這一結果或許能給那些擔憂AI搶占飯碗的白領從業者和企業主帶來些許寬慰——畢竟AI的崛起正在攪動從金融到營銷各行各業的神經。

General Reasoning首席執行官、本次研究報告作者之一羅斯·泰勒(Ross Taylor)表示:"關於AI自動化的說法鋪天蓋地,但真正將AI置於長期動態場景中進行衡量的研究,其實少之又少。"

他還指出,目前通常用於測試AI的基準大多存在缺陷,因為這些測試所處的是"高度靜態的環境",與現實世界中的混沌與複雜性相去甚遠。

這份尚未經過同行評審的報告,為矽谷近期對AI能力大躍進的熱情潑了一盆冷水——AI在幾乎無需人工干預的情況下完成編程任務的能力確實突飛猛進,但這並不代表其已全面超越人類。

曾任Meta AI研究員的泰勒表示:"如果將AI用於某些真實世界的任務,它的表現會非常糟糕……沒錯,軟體工程很重要,經濟價值也很高,但現實中還有大量時間周期更長的任務同樣值得我們關注。"

Q&A

Q1:KellyBench測試是怎麼測AI的?

A:General Reasoning將八款AI系統放入2023至2024英超賽季的虛擬環境中,向它們提供球隊歷史數據和比賽統計,要求其構建投注策略模型,通過對比賽結果和進球數下注來測試盈利能力。每款模型初始資金10萬英鎊,有三次機會嘗試盈利,且測試期間不得聯網查詢比賽結果。

Q2:哪款AI模型在足球投注測試中表現最好、最差?

A:表現最好的是Anthropic的Claude Opus 4.6,平均虧損率11%,在一次嘗試中接近收支平衡。表現最差的是xAI的Grok 4.20和Acree Trinity,三次嘗試均全部破產,最終資金歸零。

Q3:AI在英超投注測試中為什麼會全部虧損?

A:研究人員認為,AI目前擅長的多是靜態、規則清晰的任務,而足球賽季是一個長周期、高度動態的場景,涉及持續變化的球員狀態、賽事突發因素等複雜變量。現有AI基準測試大多處於靜態環境,無法真實反映現實世界的混亂與複雜性,導致AI在此類任務中系統性地弱於人類。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新