宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

模型越大,長期執行力越強,劍橋團隊指出傳統基準測試過時

2025年09月17日 首頁 » 熱門科技
模型越大,長期執行力越強,劍橋團隊指出傳統基準測試過時

2025年9月11日,劍橋大學等機構研究團隊發現,AI模型單步準確率的微小提升會在長期任務中產生指數級性能增長。他們通過簡單的鍵值查找任務,分離出純粹的執行能力進行測試,發現更大模型具有顯著優勢。研究還揭示了"自條件化效應",模型會被自身歷史錯誤影響,導致後續步驟更易出錯。不過,具備推理能力的模型能夠避免這一問題,在長期任務執行上表現卓越。相關論文發表於ArXiv。

研究的核心發現可以用一個學習場景來理解。設想一個學生在做數學題,單道題目的準確率從90%提升到95%,看起來只是微小的5%改進。但是,當這個學生需要連續做100道題,且每道題都不能出錯時,情況就完全不同了。90%準確率的學生,連續做對100道題的概率幾乎為零,而95%準確率的學生,成功的可能性要高出數千倍。研究團隊正是發現了AI模型中存在這樣的"複合效應":看似微小的單步改進,會在長期任務中產生指數級的性能提升。

從"做題"到"做事":為什麼長期執行力如此重要

在現實世界中,AI的價值往往不在於回答單個問題,而在於完成複雜、耗時的長期任務。就像一個秘書不僅要會打字,更要能完成整個項目的文檔管理一樣,真正有用的AI助手需要能夠持續、準確地執行多個步驟的複雜任務。

傳統的AI評測往往關注"單題準確率",看模型能否正確回答一個問題或完成一個簡單任務。但研究團隊注意到,當任務變長時,即使是最先進的模型也會頻繁失敗。

更有趣的是,研究人員發現這種失敗並非來自知識不足或推理能力缺陷,而是出現在"執行"環節。什麼是執行?可以把它理解為按照已知的方法和步驟,一步步完成任務的能力。就像學生已經知道解題方法,也理解題目要求,但在實際操作過程中卻會出現計算錯誤、步驟遺漏等問題。

研究團隊觀察到一個關鍵現象:當簡單的任務被拉長時,模型的失敗並不是因為不知道怎麼做,而是在執行過程中出現了意外錯誤。這種現象在人類身上也很常見,我們都知道如何走路,但如果要求連續走很長的距離,就可能因為疲勞或注意力分散而摔倒。

巧妙的實驗設計:如何分離"想法"與"行動"

為了準確研究AI的執行能力,研究團隊設計了一個極其巧妙的實驗。他們想要分離出純粹的"執行"能力。

模型越大,長期執行力越強,劍橋團隊指出傳統基準測試過時

研究人員創建了一個看似簡單的任務:給AI模型提供一個"字典",裡面包含許多英文單詞和對應的數字。比如"apple"對應數字5,"banana"對應數字-3等等。然後,研究人員會依次給出一些單詞,要求模型查找對應的數字並累加,保持一個運行總數。

這個任務的巧妙之處在於,它完全消除了知識和規劃的要求。模型不需要調用複雜的背景知識,也不需要制定複雜的計劃,只需要重複執行兩個簡單操作:查找數字,然後加法。每個單獨的步驟都極其簡單,任何稍微訓練過的模型都能輕鬆完成。

通過這種設計,研究人員可以純粹地觀察模型在長期執行過程中的表現變化,而不受其他複雜因素干擾。

模型越大,長期執行力越強,劍橋團隊指出傳統基準測試過時

實驗中,研究團隊測試了多個不同規模的模型,從小型的40億參數模型到大型的320億參數模型。他們讓這些模型執行不同長度的任務,有時只需要做幾步,有時需要連續執行數百步。

驚人發現:模型規模的非遞減收益

實驗結果驚人。即使在這樣一個看似簡單的任務上,模型的表現也出現了顯著的差異。最小的模型很快就開始出錯,而最大的模型能夠持續準確執行更多的步驟。

更重要的是,這種差異並不遵循我們常見的"遞減收益"規律。通常情況下,當我們增加投資時,回報會逐漸遞減,第一百萬帶來的收益比第二百萬大。但在長期執行任務上,模型規模的收益似乎並不遞減,甚至可能遞增。

模型越大,長期執行力越強,劍橋團隊指出傳統基準測試過時

研究人員通過數學推導證明了一個重要結論:假設模型的單步準確率為p,那麼它能夠以50%成功率完成的任務長度大約是-ln(2)/ln(p)。這個公式揭示了一個驚人的數學現象:當p接近1(即準確率接近100%)時,任務長度會急劇增長。

具體來說,如果一個模型的單步準確率從90%提升到95%,它能完成的任務長度會從大約7步躍升到14步,翻了一倍。如果準確率繼續提升到99%,任務長度會達到約69步。這種指數級增長意味著,即使單步準確率的改進看起來很小,在長期任務上的收益卻是巨大的。

這解釋了為什麼更大的模型在長期任務上表現如此出色。雖然大模型在單個問題上可能只比小模型好一點點,但這微小的差異在長期任務中會被無限放大。

"自我設限"現象:為什麼模型會被自己的錯誤影響

研究過程中,研究團隊發現了一個更加有趣的現象。按理說,如果模型在每個步驟上都有固定的出錯概率,那麼整體性能應該是穩定衰減的。但實際觀察到的情況卻不是這樣,模型的單步準確率會隨著任務進展而逐漸下降。

這就像一個學生在考試中,做前幾道題時狀態很好,但隨著時間推移,特別是發現前面有錯誤後,後面的題目反而更容易出錯。研究人員將這種現象稱為"自條件化效應"(self-conditioning effect)。

為了驗證這個假設,研究團隊設計了一個巧妙的對比實驗。他們人為地控制了模型能夠"看到"的歷史記錄中的錯誤率。結果發現,當歷史記錄中錯誤較多時,模型在後續步驟中也更容易出錯;而當歷史記錄是完全正確的時候,模型的表現就會好得多。

這種現象可能源於大語言模型的訓練機制。這些模型被訓練來預測"最可能的下一個詞",因此它們會根據上下文來調整自己的輸出。當上下文中包含錯誤時,模型可能會認為"出錯"在當前情境下是合理的,從而增加了繼續出錯的概率。

這就像一個學生發現自己前面的答案可能有問題後,信心開始動搖,結果後面本來會做的題目也開始出錯。這種心理影響在人類身上很常見,沒想到AI模型中也存在類似的"心理現象"。

意外的是,增大模型規模並不能解決這個問題。研究團隊測試了包括千億參數級別的最新模型,發現即使是這些"超級模型"也會受到自條件化效應的影響。當它們看到充滿錯誤的歷史記錄時,表現同樣會顯著下降。

"深呼吸"的力量:推理模型如何打破自我設限

正當研究人員為這個"自我設限"問題困擾時,他們發現了一個有效的解決方案:讓模型"推理"。

所謂的推理模型,就是在給出最終答案前,先讓模型展示詳細的推理過程。這就像要求學生不僅寫出答案,還要寫出完整的解題步驟一樣。研究發現,當模型被要求展示思考過程時,自條件化效應幾乎完全消失了。

這種現象有兩個可能的解釋。首先,推理過程讓模型能夠重新審視問題,而不是簡單地延續之前可能錯誤的模式。就像學生在詳細寫解題步驟時,會重新思考每一步是否正確,而不是匆忙給出答案。

其次,推理模型通常經過特殊的強化學習訓練,使其更關注任務成功而非單純的文本延續。這改變了模型的行為動機,讓它更像一個專注於解決問題的學生,而不是一個只會模仿文本模式的複讀機。

研究結果顯示,推理模型不僅能夠避免自條件化陷阱,在長期任務執行上的能力也大幅提升。一些原本只能執行幾個步驟的模型,在啟用推理模式後能夠連續準確執行數百個步驟。

前沿模型的較量:誰才是長期任務之王

研究團隊對當前最先進的AI模型進行了全面測試,結果形成了一個有趣的排行榜。在單輪執行能力測試中,不同模型展現出了顯著的差異。

模型越大,長期執行力越強,劍橋團隊指出傳統基準測試過時

GPT-5模型(代號"Horizon")表現最為出色,能夠在單輪中準確執行超過1000個步驟,這相當於連續做對1000道基礎數學題而不出錯。Claude-4-Sonnet緊隨其後,能夠執行約432個步驟。其他模型如Grok-4、Gemini 2.5 Pro等,雖然在日常對話中表現優秀,但在這種長期執行任務上相對遜色。

這種差異並非偶然。研究發現,經過強化學習訓練的推理模型在長期執行任務上具有顯著優勢。而那些主要針對對話優化的模型,雖然在單輪交互中表現出色,但在需要持續專注的長期任務上則表現一般。

更有趣的是,研究人員發現,在沒有思考過程的情況下,即使是最大的模型也很難連續執行超過兩個步驟的複雜操作。這說明"思考過程"對於複雜任務執行的重要性,就像人類在處理複雜問題時也需要仔細思考每一個步驟。

至頂AI實驗室洞見

研究團隊提出了一個有趣的觀點:如果AI的經濟價值主要來自於完成長期任務的能力,那麼專注於短期基準測試可能會給我們一種"進步放緩"的錯覺,而實際上在真正重要的維度上,進步可能比以往任何時候都快。

在現實應用中,AI系統經常需要執行長期、複雜的任務,比如編寫完整的軟體程序、處理複雜的客戶服務流程、或者管理長期的項目計劃。傳統的短期評測指標可能嚴重低估了模型規模擴大的價值。一個在簡單問答中只比競爭對手好一點點的模型,在長期任務中可能會表現出壓倒性的優勢。

對於AI行業的發展策略,研究建議繼續投資於模型規模的擴大,同時特別關注推理能力的培養。單純追求對話流暢性或知識廣度可能不是最佳策略,培養模型的長期專注執行能力可能更有價值。

AI安全維度上,自條件化效應意味著,一個在短期測試中表現良好的模型,在長期部署中可能會因為累積錯誤而表現糟糕。提醒我們需要設計更好的錯誤恢復機制和上下文管理策略。

或許我們需要重新思考什麼是AI的"真正能力",以及如何衡量AI投資的回報。就像評價一個員工不能只看他答題的準確率,更要看他能否持續、可靠地完成複雜工作一樣。

對於普通用戶而言,選擇AI工具時,不要只關注它在演示中的表現,更要關注它在長期使用中的可靠性和一致性。一個能夠持續提供準確幫助的AI助手,遠比一個偶爾表現出色但不夠穩定的系統更有價值。

在AI的世界裡,"積少成多"和"滴水穿石"的道理同樣適用,微小的改進可能產生巨大的影響,而持久的專注可能比瞬間的聰明更有價值。

論文地址:https://www.arxiv.org/abs/2509.09677

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新