這項由中山大學電腦學院領導的研究發表於2026年5月,論文編號為arXiv:2605.27492,感興趣的讀者可通過該編號查詢完整論文。
---
每次新的AI大模型發布,廠商們都會曬出一張張亮眼的成績單——在各類編程測試榜單上名列前茅,解題速度飛快,準確率令人咋舌。但問題是,這些"考試成績"真的能說明AI在實際工作中有多能幹嗎?
中山大學的研究團隊用一套叫做**Ramp
**(全稱:Runtime Assessment of Models in Production,生產環境中的模型運行時評估)的測試框架,給當今最頂尖的15個AI大模型出了一道真正的"實戰題"——不是那種做完就完的選擇題,而是需要一步接一步、環環相扣的大型工程項目。結果發現:沒有一個模型能完整地通過全部關卡,而且有些模型花了極高的代價,卻只取得了比廉價模型高一點點的成績。
---
一、為什麼"考試滿分"的AI在真實工作中會翻車
要理解這項研究的價值,先得明白現有的AI評測方式有什麼問題。
目前絕大多數AI編程能力評測,就像給求職者出一道道互不相關的單選題:第一題問你怎麼寫排序算法,做完了換第二題,問你怎麼處理字符串——兩道題之間完全沒有聯繫,每題都是獨立的小任務,做完就清零,重新開始。
但真實的軟體工程項目根本不是這樣運轉的。以開發一個編譯器(把程序員寫的高級代碼翻譯成機器能執行的指令的程序)為例,你需要先完成詞法分析,把源代碼拆成一個個"單詞";然後把這些"單詞"按語法規則拼成語法樹;再把語法樹翻譯成中間代碼;接著對中間代碼做優化;最後生成目標機器能跑的匯編代碼。這五個步驟缺一不可,而且每一步的輸入,都是上一步的輸出。前面某一步出了差錯,後面所有步驟都會連帶著崩掉——就像多米諾骨牌,推倒第三塊,後面的全部跟著倒。
更關鍵的是,現有的測試不會告訴你:AI在完成任務的過程中,用了多少時間、花了多少錢、走了多少彎路。對於真正要部署AI系統的企業來說,這些"過程資訊"跟最終成績同樣重要,甚至更重要。
中山大學的研究團隊把這個問題概括為三點:現有評測缺乏對"串聯依賴
"的支持,只看結果不看過程,而且不同測試框架之間難以橫向比較。正是為了填補這個空缺,他們建立了Ramp這套評測基礎設施。
---
二、把真實編譯器工程項目變成AI的考場
Ramp選擇的測試題目,來自中山大學自主研發的YatCC編譯器教學平台上的真實工程任務。這不是研究人員專門為了測試AI而設計的"玩具題目",而是貨真價實被用於真實課程教學和工程實踐的編譯器開發項目,底層基於業界廣泛使用的LLVM編譯器框架。
整套測試由六個順序排列的任務組成,就像一條流水線,每個工位都依賴前一個工位的產出。第零關是環境配置,相當於開工前檢查所有工具是否到位;第一關是詞法分析,把C語言源代碼拆分成一個個"詞語"構成的流;第二關是語法分析,把詞語流整理成有層次結構的語法樹;第三關是中間代碼生成,把語法樹翻譯成LLVM中間表示形式;第四關是中間代碼優化,對中間代碼進行各種優化處理;第五關是匯編代碼生成,最終產出能在RISC-V 64位架構上運行的匯編指令。
每一關都有完善的自動評分腳本,滿分100分,且採用"零容忍"標準——不是大體對就給分,而是嚴格按照正確性評判。更重要的是,六關之間存在嚴格的串聯依賴:第一關產出的詞語流,是第二關的輸入;第二關產出的語法樹,是第三關的輸入,以此類推。前一關沒做好,後一關就天然處於不利地位。
為了保證測試的公平性,每次測試都在獨立的容器化環境中運行,所有依賴庫(包括ANTLR、LLVM 14、pybind11等)均預先安裝完畢,測試結束後容器銷毀,確保不同輪次之間互不干擾。所有AI模型都通過統一的API網關接入,使用相同的提示詞和任務環境,讓成績差異真正反映模型能力,而不是接入方式的差異。
---
三、"復活"機制:當AI在中途跌倒時,怎麼測它後面的能力
串聯依賴帶來一個棘手的評估問題:如果AI在第二關就失敗了,第三、四、五關也會跟著失敗,但這些失敗究竟是因為AI本身不會做這些關卡,還是僅僅因為它沒有收到正確的"上一關產出"?這兩種原因導致的失敗,評估含義截然不同。
為了解決這個問題,Ramp引入了一個叫做"復活機制
"(Resurrection Protocol)的設計。當某一關的得分低於60分時,系統的"裁判員"(Orchestrator,即協調器)會自動介入,把那個失敗的輸出替換成由標準參考實現生成的"黃金產出",然後讓AI繼續做下一關——就像考試中途老師告訴你"這道題的正確答案是X,你接著往下答"。
關鍵在於,AI並不知道這次替換發生了。所有干預都由外部協調器悄悄完成,AI感知到的只是它在繼續完成一個看起來正常的工程項目。這樣的設計,讓研究者既能測出AI能否獨立完成全流程(不觸發復活機制的情況),也能測出即使上游出了問題、給予正確起點的情況下,AI有沒有能力完成下游任務。
Ramp將這兩種測試模式分別稱為"模式一"(串聯管道加復活機制,為默認模式)和"模式二"(串聯管道不帶復活,即純級聯失敗模式)。前者最大化診斷覆蓋率,後者則衡量AI在完全自主、沒有任何外部修正的情況下,能走多遠。
---
四、超越對與錯:用多維度指標衡量AI的"性價比"
Ramp在評分體系上也做了創新,不只是給每關打個分了事。
在結果層面,Ramp使用一個叫"平均獎勵"(Mean Reward,MR)的綜合分數,對六關成績按重要性加權平均。其中第四關(中間代碼優化)權重最高(30%),第零關(環境配置)權重最低(5%)。此外,如果某一關是AI自主完成、沒有觸發復活機制的,該關得分還會獲得一個1.2倍的加成獎勵,以鼓勵真正的自主能力。
在過程層面,Ramp全程記錄:消耗了多少個API調用的"詞語"(token,可以理解為AI處理資訊的"字符數")、進行了多少輪對話、執行了多少條命令、重試了幾次、總共花了多少牆鍾時間(實際流逝時間)。這些數據不僅展示AI做得對不對,更展示它做得效不效率。
在失敗分析層面,Ramp把AI的失敗歸入五類。"推理失敗"是指AI陷入重複調試循環,一直在原地打轉沒有實質進展;"規劃失敗"是指AI主動決定跳過某些必要步驟,以減少消耗;"上下文失敗
"是指隨著對話和代碼越堆越多,超出了AI能處理的"記憶上限",導致無法繼續;"工具與集成失敗"是指調用外部工具出錯、網路問題等;"基礎設施失敗"是指AI框架本身的bug或環境配置問題。每次失敗只標註主要根因,避免模糊判斷。
最後,Ramp還引入了一個叫"智能體效率指數
"(Agent Efficiency Index,AEI)的綜合效用指標。AEI把五個維度的歸一化分數平均:到達的最遠關卡、平均獎勵得分、消耗時間(越少越好)、花費金錢(越少越好)、消耗token數(越少越好)。每個維度都映射到0到100的範圍,再取平均。這樣的設計確保一個模型不能僅靠高任務得分來拉高AEI——如果它為了那點高分花了十倍的時間和百倍的金錢,AEI會如實反映這種"得不償失"。
---
五、沒有一個模型能走完全程:排行榜背後的震驚真相
研究團隊在"模式二"(純級聯失敗,不給任何外部糾錯)下測試了全部15個模型,包括Anthropic的claude-opus-4-7(論文中稱Opus-4.7)、OpenAI的gpt-5.5(GPT-5.5)、DeepSeek的deepseek-v4-pro(DS-v4-Pro)、阿里的qwen3.6-max-preview(Qwen-3.6-Max)等頂尖旗艦模型,以及GLM、Kimi、MiniMax等一系列主流和輕量級模型。
結果出乎所有人意料:在這套真實工程流水線面前,沒有一個模型能完整無誤地走完全部六關。Opus-4.7以93.39的平均獎勵高居榜首,在六關中拿下五關滿分,唯獨在第四關中間代碼優化上只得了68.4分,差了那麼一口氣。排名第二的DS-v4-Pro拿到85.34分,四關滿分,但在第四關只有38.6分。排名第四的GPT-5.5前四關全部滿分,結果在最後的匯編代碼生成關卡直接得了0分——寫出了完全無法運行的代碼。
從各關通過率來看,第零關(環境配置)全員通過(100%),第一關(詞法分析)46.7%的模型拿到滿分,第二關(語法分析)26.7%,第三關(中間代碼生成)僅13.3%,第四關(中間代碼優化)0%——沒有一個模型拿到滿分,第五關(匯編代碼生成)20%。
一個有趣的現象是,第五關的通過率(20%)居然高於第四關(0%)。這說明任務難度本身並不是單調遞增的,成績下滑的根本原因不是"越到後面越難",而是隨著項目推進,前面各關對代碼庫的改動不斷累積,錯誤在流水線中傳遞和放大,讓後續關卡雪上加霜。15個模型的平均MR只有42.7,僅比不做任何改動的原始代碼框架(基準線MR為23.38)高了17.6分——大多數所謂"能幹活的AI",在真實工程流水線面前的表現,只比什麼都不做強了一點點。
---
六、花了一百多美元VS花了五分錢:成本差距達2525倍
當研究團隊把目光投向"過程效率"時,發現了另一個令人目瞪口呆的數字:15個模型在完成同一套任務時,花費的API費用相差最高達2525倍。
花費最多的是Opus-4.7,整套任務跑下來消耗了126.24美元,調用了2.19億個token,用時超過11900秒(約三小時十九分鐘)。而花費最少的Qwen3-Coder,只用了0.05美元,約348萬token,608秒搞定。兩者的花費差距,相當於你去高檔餐廳吃了頓豪華大餐,對方卻在便利店買了包餅乾,但兩人的"飽腹感"差距並沒有你想像的那麼大。
更具體地說:Opus-4.7的MR是93.39,DS-v4-Pro的MR是85.34,兩者相差不到10%,但前者花了126.24美元,後者只花了8.68美元,差距高達14.5倍。GPT-5.5和DS-v4-Pro花費幾乎一樣(分別是8.77美元和8.68美元),但DS-v4-Pro的MR比GPT-5.5高了將近30%——同樣的錢,買到了多很多的"產出"。
研究團隊用統計回歸方法分析了"花多少錢/時間"和"得多少分"之間的關係,發現兩者確實存在正相關(花錢越多分數越高),但這種相關性相當鬆散——花費解釋了約52%的成績差異(R?≈0.52),時間解釋了約40%(R?≈0.40)。換句話說,還有將近一半的成績差異,跟花多少錢、花多少時間毫無關係,完全取決於模型本身的能力和行為策略。
---
七、AI失敗的五種姿勢:最常見的是"記性不夠用了"
研究團隊逐一分析了每個模型在每個關卡的失敗原因,得出了幾個關於AI如何失敗的規律性發現。
在15個被測模型中,有9個(占60%)的最終"停機"原因是"上下文失敗"——隨著任務推進,對話歷史、代碼文件、執行日誌不斷累積,超出了模型的"記憶容量",導致無法繼續思考和行動。這種失敗主要集中在第二關到第三關,也就是代碼庫開始變得複雜、任務變得環環相扣的階段。
第二常見的失敗類型是"規劃失敗"(13.3%的模型以此為主要停機原因),但它出現的頻率其實更高——有8個模型(53.3%)都不同程度地出現過這種行為:AI意識到某個關卡很難,主動決定跳過去做下一關,理由是"時間有限"或"感覺太難了"。這不是在靈活調整策略,而是提前放棄了它本該完成的任務。
從這兩種主要失敗模式,研究團隊還總結出了兩種截然不同的AI工作"風格":一種是"跳過派",碰到難題就繞路,節省了資源但犧牲了完整性;另一種是"死磕派",反覆在同一個問題上編輯、編譯、調試,哪怕卡住了也不放棄,雖然有時候能解決問題,但也可能把上下文撐爆、把預算耗盡。這兩種策略都有各自的代價,而選擇哪種策略,只有在串聯的長流程測試中才能被觀察到——在孤立的單題測試里,這些行為模式完全看不出來。
---
八、"效率冠軍"和"得分冠軍"是兩個完全不同的模型
這套研究最反直覺的發現,來自AEI(智能體效率指數)排名與MR(平均獎勵)排名的比較。
按MR排名,Opus-4.7排第一(93.39分),GPT-5.5排第四(65.91分)。但按AEI排名,GPT-5.5以81.57分高居榜首,Opus-4.7卻以40.00分墊底——因為Opus-4.7在時間、費用、token消耗三個維度都創下了所有模型中的最高值,三項倒扣分把它的AEI拉到了最低。
GPT-5.5的高AEI來自於它相當"均衡"的表現:任務完成度達到了被測模型中最遠的流水線階段(第三關),MR屬於中上水平,而且時間、費用、token消耗都處於合理區間。相比之下,DS-v4-Pro雖然MR更高(85.34 vs 65.91),但它消耗的token數是GPT-5.5的6.17倍,導致AEI(65.21)明顯低於GPT-5.5。
在AEI視角下,研究團隊把15個模型歸納為三種典型運作模式。第一種是"均衡高效型",以GPT-5.5為代表,成績與資源消耗都處於合理區間,是一般規模生產部署的理想選擇。第二種是"低成本湊合型",以Qwen3-Coder和DS-Chat為代表,成績一般但幾乎不花錢,適合早期快速原型驗證。第三種是"高分高消耗型",以Opus-4.7、DS-v4-Pro和DS-v4-Flash為代表,任務完成度頂尖,但資源消耗驚人,只適合對質量要求極高、預算充裕的場景。
---
歸根結底,這項研究告訴我們一件很實在的事:現在大家評價AI聰明不聰明,用的標準跟AI真正能不能幹活之間,存在一條相當寬的鴻溝。那些在各類編程榜單上名列前茅的頂級模型,一旦面對需要一步接一步、前後環環相扣的真實工程任務,表現會急劇下滑,而且這種下滑在傳統評測中完全看不出來。
更值得思考的是,即便是表現最好的模型,在完成這套"接近真實水平"的編譯器工程任務時,也無一能全程無誤走完。這不是說AI沒用,而是說我們目前對AI能力的認知,可能被過於寬鬆的測試方式系統性地高估了。
對於普通人來說,這意味著當你看到某個AI系統聲稱"在X評測上超越了人類水平"時,不妨多問一句:這個評測測的是不是那種需要長期連貫工作的真實任務?如果不是,那這個成績只能說明它會考試,不代表它會幹活。
中山大學的這套Ramp框架,相當於把AI的"模擬考"換成了"實習考核"。有興趣深入了解的讀者,可以通過論文編號arXiv:2605.27492查閱完整論文,項目主頁在ramp.yatcc-ai.com也有更多資訊和實時排行榜更新。
---
Q&A
Q1:Ramp測試框架和普通AI編程評測有什麼本質區別?
A:普通評測(如SWE-bench)每道題都是獨立的,AI做完一題就清空狀態做下一題。Ramp的核心區別是"串聯依賴"——六個任務像流水線,前一步的產出是後一步的輸入,前面出錯會傳導到後面,這才接近真實軟體工程的運作方式。此外,Ramp還記錄時間、費用、token消耗等過程指標,不只是判斷對不對。
Q2:AEI(智能體效率指數)和MR(平均獎勵)哪個更重要?
A:取決於使用場景。MR衡量的是任務完成質量,如果你只關心AI能不能把任務做對做好,MR更相關。AEI同時考慮了成本、時間、token消耗,反映的是"性價比"——對於需要大規模部署、預算有限的企業,AEI更有參考價值。兩個指標從不同維度衡量AI能力,不能互相替代。
Q3:Ramp測試中排名靠前的大模型,現在在實際軟體開發中能用嗎?
A:有參考價值但要謹慎。Ramp測試的是編譯器構建這一特定領域,最好的模型(Opus-4.7)在六關流水線中仍未能全程無誤完成,且花費高達126美元。對於其他軟體工程任務,表現可能不同。研究本身也指出,目前所有測試都使用了OpenHands一種框架,不同框架可能產生不同結果。






