光靠考試成績選不出真正能幹活的AI？中山大學揭示大模型在真實工程項目中的驚人失敗率

這項由中山大學電腦學院領導的研究發表於2026年5月，論文編號為arXiv:2605.27492，感興趣的讀者可通過該編號查詢完整論文。

贊助商廣告

---

每次新的AI大模型發布，廠商們都會曬出一張張亮眼的成績單——在各類編程測試榜單上名列前茅，解題速度飛快，準確率令人咋舌。但問題是，這些"考試成績"真的能說明AI在實際工作中有多能幹嗎？

中山大學的研究團隊用一套叫做**Ramp 光靠考試成績選不出真正能幹活的AI中山大學揭示大模型在真實工程項目中的驚人失敗率 **（全稱：Runtime Assessment of Models in Production，生產環境中的模型運行時評估）的測試框架，給當今最頂尖的15個AI大模型出了一道真正的"實戰題"——不是那種做完就完的選擇題，而是需要一步接一步、環環相扣的大型工程項目。結果發現：沒有一個模型能完整地通過全部關卡，而且有些模型花了極高的代價，卻只取得了比廉價模型高一點點的成績。

---

一、為什麼"考試滿分"的AI在真實工作中會翻車

要理解這項研究的價值，先得明白現有的AI評測方式有什麼問題。

目前絕大多數AI編程能力評測，就像給求職者出一道道互不相關的單選題：第一題問你怎麼寫排序算法，做完了換第二題，問你怎麼處理字符串——兩道題之間完全沒有聯繫，每題都是獨立的小任務，做完就清零，重新開始。

但真實的軟體工程項目根本不是這樣運轉的。以開發一個編譯器（把程序員寫的高級代碼翻譯成機器能執行的指令的程序）為例，你需要先完成詞法分析，把源代碼拆成一個個"單詞"；然後把這些"單詞"按語法規則拼成語法樹；再把語法樹翻譯成中間代碼；接著對中間代碼做優化；最後生成目標機器能跑的匯編代碼。這五個步驟缺一不可，而且每一步的輸入，都是上一步的輸出。前面某一步出了差錯，後面所有步驟都會連帶著崩掉——就像多米諾骨牌，推倒第三塊，後面的全部跟著倒。

更關鍵的是，現有的測試不會告訴你：AI在完成任務的過程中，用了多少時間、花了多少錢、走了多少彎路。對於真正要部署AI系統的企業來說，這些"過程資訊"跟最終成績同樣重要，甚至更重要。

贊助商廣告

中山大學的研究團隊把這個問題概括為三點：現有評測缺乏對"串聯依賴光靠考試成績選不出真正能幹活的AI中山大學揭示大模型在真實工程項目中的驚人失敗率 "的支持，只看結果不看過程，而且不同測試框架之間難以橫向比較。正是為了填補這個空缺，他們建立了Ramp這套評測基礎設施。

---

二、把真實編譯器工程項目變成AI的考場

Ramp選擇的測試題目，來自中山大學自主研發的YatCC編譯器教學平台上的真實工程任務。這不是研究人員專門為了測試AI而設計的"玩具題目"，而是貨真價實被用於真實課程教學和工程實踐的編譯器開發項目，底層基於業界廣泛使用的LLVM編譯器框架。

整套測試由六個順序排列的任務組成，就像一條流水線，每個工位都依賴前一個工位的產出。第零關是環境配置，相當於開工前檢查所有工具是否到位；第一關是詞法分析，把C語言源代碼拆分成一個個"詞語"構成的流；第二關是語法分析，把詞語流整理成有層次結構的語法樹；第三關是中間代碼生成，把語法樹翻譯成LLVM中間表示形式；第四關是中間代碼優化，對中間代碼進行各種優化處理；第五關是匯編代碼生成，最終產出能在RISC-V 64位架構上運行的匯編指令。

每一關都有完善的自動評分腳本，滿分100分，且採用"零容忍"標準——不是大體對就給分，而是嚴格按照正確性評判。更重要的是，六關之間存在嚴格的串聯依賴：第一關產出的詞語流，是第二關的輸入；第二關產出的語法樹，是第三關的輸入，以此類推。前一關沒做好，後一關就天然處於不利地位。

為了保證測試的公平性，每次測試都在獨立的容器化環境中運行，所有依賴庫（包括ANTLR、LLVM 14、pybind11等）均預先安裝完畢，測試結束後容器銷毀，確保不同輪次之間互不干擾。所有AI模型都通過統一的API網關接入，使用相同的提示詞和任務環境，讓成績差異真正反映模型能力，而不是接入方式的差異。

---

三、"復活"機制：當AI在中途跌倒時，怎麼測它後面的能力

贊助商廣告

串聯依賴帶來一個棘手的評估問題：如果AI在第二關就失敗了，第三、四、五關也會跟著失敗，但這些失敗究竟是因為AI本身不會做這些關卡，還是僅僅因為它沒有收到正確的"上一關產出"？這兩種原因導致的失敗，評估含義截然不同。

為了解決這個問題，Ramp引入了一個叫做"復活機制光靠考試成績選不出真正能幹活的AI中山大學揭示大模型在真實工程項目中的驚人失敗率 "（Resurrection Protocol）的設計。當某一關的得分低於60分時，系統的"裁判員"（Orchestrator，即協調器）會自動介入，把那個失敗的輸出替換成由標準參考實現生成的"黃金產出"，然後讓AI繼續做下一關——就像考試中途老師告訴你"這道題的正確答案是X，你接著往下答"。

關鍵在於，AI並不知道這次替換發生了。所有干預都由外部協調器悄悄完成，AI感知到的只是它在繼續完成一個看起來正常的工程項目。這樣的設計，讓研究者既能測出AI能否獨立完成全流程（不觸發復活機制的情況），也能測出即使上游出了問題、給予正確起點的情況下，AI有沒有能力完成下游任務。

Ramp將這兩種測試模式分別稱為"模式一"（串聯管道加復活機制，為默認模式）和"模式二"（串聯管道不帶復活，即純級聯失敗模式）。前者最大化診斷覆蓋率，後者則衡量AI在完全自主、沒有任何外部修正的情況下，能走多遠。

---

四、超越對與錯：用多維度指標衡量AI的"性價比"

Ramp在評分體系上也做了創新，不只是給每關打個分了事。

在結果層面，Ramp使用一個叫"平均獎勵"（Mean Reward，MR）的綜合分數，對六關成績按重要性加權平均。其中第四關（中間代碼優化）權重最高（30%），第零關（環境配置）權重最低（5%）。此外，如果某一關是AI自主完成、沒有觸發復活機制的，該關得分還會獲得一個1.2倍的加成獎勵，以鼓勵真正的自主能力。

在過程層面，Ramp全程記錄：消耗了多少個API調用的"詞語"（token，可以理解為AI處理資訊的"字符數"）、進行了多少輪對話、執行了多少條命令、重試了幾次、總共花了多少牆鍾時間（實際流逝時間）。這些數據不僅展示AI做得對不對，更展示它做得效不效率。

贊助商廣告

在失敗分析層面，Ramp把AI的失敗歸入五類。"推理失敗"是指AI陷入重複調試循環，一直在原地打轉沒有實質進展；"規劃失敗"是指AI主動決定跳過某些必要步驟，以減少消耗；"上下文失敗光靠考試成績選不出真正能幹活的AI中山大學揭示大模型在真實工程項目中的驚人失敗率 "是指隨著對話和代碼越堆越多，超出了AI能處理的"記憶上限"，導致無法繼續；"工具與集成失敗"是指調用外部工具出錯、網路問題等；"基礎設施失敗"是指AI框架本身的bug或環境配置問題。每次失敗只標註主要根因，避免模糊判斷。

最後，Ramp還引入了一個叫"智能體效率指數光靠考試成績選不出真正能幹活的AI中山大學揭示大模型在真實工程項目中的驚人失敗率 "（Agent Efficiency Index，AEI）的綜合效用指標。AEI把五個維度的歸一化分數平均：到達的最遠關卡、平均獎勵得分、消耗時間（越少越好）、花費金錢（越少越好）、消耗token數（越少越好）。每個維度都映射到0到100的範圍，再取平均。這樣的設計確保一個模型不能僅靠高任務得分來拉高AEI——如果它為了那點高分花了十倍的時間和百倍的金錢，AEI會如實反映這種"得不償失"。

---

五、沒有一個模型能走完全程：排行榜背後的震驚真相

研究團隊在"模式二"（純級聯失敗，不給任何外部糾錯）下測試了全部15個模型，包括Anthropic的claude-opus-4-7（論文中稱Opus-4.7）、OpenAI的gpt-5.5（GPT-5.5）、DeepSeek的deepseek-v4-pro（DS-v4-Pro）、阿里的qwen3.6-max-preview（Qwen-3.6-Max）等頂尖旗艦模型，以及GLM、Kimi、MiniMax等一系列主流和輕量級模型。

結果出乎所有人意料：在這套真實工程流水線面前，沒有一個模型能完整無誤地走完全部六關。Opus-4.7以93.39的平均獎勵高居榜首，在六關中拿下五關滿分，唯獨在第四關中間代碼優化上只得了68.4分，差了那麼一口氣。排名第二的DS-v4-Pro拿到85.34分，四關滿分，但在第四關只有38.6分。排名第四的GPT-5.5前四關全部滿分，結果在最後的匯編代碼生成關卡直接得了0分——寫出了完全無法運行的代碼。

從各關通過率來看，第零關（環境配置）全員通過（100%），第一關（詞法分析）46.7%的模型拿到滿分，第二關（語法分析）26.7%，第三關（中間代碼生成）僅13.3%，第四關（中間代碼優化）0%——沒有一個模型拿到滿分，第五關（匯編代碼生成）20%。

贊助商廣告

一個有趣的現象是，第五關的通過率（20%）居然高於第四關（0%）。這說明任務難度本身並不是單調遞增的，成績下滑的根本原因不是"越到後面越難"，而是隨著項目推進，前面各關對代碼庫的改動不斷累積，錯誤在流水線中傳遞和放大，讓後續關卡雪上加霜。15個模型的平均MR只有42.7，僅比不做任何改動的原始代碼框架（基準線MR為23.38）高了17.6分——大多數所謂"能幹活的AI"，在真實工程流水線面前的表現，只比什麼都不做強了一點點。

---

六、花了一百多美元VS花了五分錢：成本差距達2525倍

當研究團隊把目光投向"過程效率"時，發現了另一個令人目瞪口呆的數字：15個模型在完成同一套任務時，花費的API費用相差最高達2525倍。

花費最多的是Opus-4.7，整套任務跑下來消耗了126.24美元，調用了2.19億個token，用時超過11900秒（約三小時十九分鐘）。而花費最少的Qwen3-Coder，只用了0.05美元，約348萬token，608秒搞定。兩者的花費差距，相當於你去高檔餐廳吃了頓豪華大餐，對方卻在便利店買了包餅乾，但兩人的"飽腹感"差距並沒有你想像的那麼大。

更具體地說：Opus-4.7的MR是93.39，DS-v4-Pro的MR是85.34，兩者相差不到10%，但前者花了126.24美元，後者只花了8.68美元，差距高達14.5倍。GPT-5.5和DS-v4-Pro花費幾乎一樣（分別是8.77美元和8.68美元），但DS-v4-Pro的MR比GPT-5.5高了將近30%——同樣的錢，買到了多很多的"產出"。

研究團隊用統計回歸方法分析了"花多少錢/時間"和"得多少分"之間的關係，發現兩者確實存在正相關（花錢越多分數越高），但這種相關性相當鬆散——花費解釋了約52%的成績差異（R?≈0.52），時間解釋了約40%（R?≈0.40）。換句話說，還有將近一半的成績差異，跟花多少錢、花多少時間毫無關係，完全取決於模型本身的能力和行為策略。

---

七、AI失敗的五種姿勢：最常見的是"記性不夠用了"

贊助商廣告

研究團隊逐一分析了每個模型在每個關卡的失敗原因，得出了幾個關於AI如何失敗的規律性發現。

在15個被測模型中，有9個（占60%）的最終"停機"原因是"上下文失敗"——隨著任務推進，對話歷史、代碼文件、執行日誌不斷累積，超出了模型的"記憶容量"，導致無法繼續思考和行動。這種失敗主要集中在第二關到第三關，也就是代碼庫開始變得複雜、任務變得環環相扣的階段。

第二常見的失敗類型是"規劃失敗"（13.3%的模型以此為主要停機原因），但它出現的頻率其實更高——有8個模型（53.3%）都不同程度地出現過這種行為：AI意識到某個關卡很難，主動決定跳過去做下一關，理由是"時間有限"或"感覺太難了"。這不是在靈活調整策略，而是提前放棄了它本該完成的任務。

從這兩種主要失敗模式，研究團隊還總結出了兩種截然不同的AI工作"風格"：一種是"跳過派"，碰到難題就繞路，節省了資源但犧牲了完整性；另一種是"死磕派"，反覆在同一個問題上編輯、編譯、調試，哪怕卡住了也不放棄，雖然有時候能解決問題，但也可能把上下文撐爆、把預算耗盡。這兩種策略都有各自的代價，而選擇哪種策略，只有在串聯的長流程測試中才能被觀察到——在孤立的單題測試里，這些行為模式完全看不出來。

---

八、"效率冠軍"和"得分冠軍"是兩個完全不同的模型

這套研究最反直覺的發現，來自AEI（智能體效率指數）排名與MR（平均獎勵）排名的比較。

按MR排名，Opus-4.7排第一（93.39分），GPT-5.5排第四（65.91分）。但按AEI排名，GPT-5.5以81.57分高居榜首，Opus-4.7卻以40.00分墊底——因為Opus-4.7在時間、費用、token消耗三個維度都創下了所有模型中的最高值，三項倒扣分把它的AEI拉到了最低。

GPT-5.5的高AEI來自於它相當"均衡"的表現：任務完成度達到了被測模型中最遠的流水線階段（第三關），MR屬於中上水平，而且時間、費用、token消耗都處於合理區間。相比之下，DS-v4-Pro雖然MR更高（85.34 vs 65.91），但它消耗的token數是GPT-5.5的6.17倍，導致AEI（65.21）明顯低於GPT-5.5。

贊助商廣告

在AEI視角下，研究團隊把15個模型歸納為三種典型運作模式。第一種是"均衡高效型"，以GPT-5.5為代表，成績與資源消耗都處於合理區間，是一般規模生產部署的理想選擇。第二種是"低成本湊合型"，以Qwen3-Coder和DS-Chat為代表，成績一般但幾乎不花錢，適合早期快速原型驗證。第三種是"高分高消耗型"，以Opus-4.7、DS-v4-Pro和DS-v4-Flash為代表，任務完成度頂尖，但資源消耗驚人，只適合對質量要求極高、預算充裕的場景。

---

歸根結底，這項研究告訴我們一件很實在的事：現在大家評價AI聰明不聰明，用的標準跟AI真正能不能幹活之間，存在一條相當寬的鴻溝。那些在各類編程榜單上名列前茅的頂級模型，一旦面對需要一步接一步、前後環環相扣的真實工程任務，表現會急劇下滑，而且這種下滑在傳統評測中完全看不出來。

更值得思考的是，即便是表現最好的模型，在完成這套"接近真實水平"的編譯器工程任務時，也無一能全程無誤走完。這不是說AI沒用，而是說我們目前對AI能力的認知，可能被過於寬鬆的測試方式系統性地高估了。

對於普通人來說，這意味著當你看到某個AI系統聲稱"在X評測上超越了人類水平"時，不妨多問一句：這個評測測的是不是那種需要長期連貫工作的真實任務？如果不是，那這個成績只能說明它會考試，不代表它會幹活。

中山大學的這套Ramp框架，相當於把AI的"模擬考"換成了"實習考核"。有興趣深入了解的讀者，可以通過論文編號arXiv:2605.27492查閱完整論文，項目主頁在ramp.yatcc-ai.com也有更多資訊和實時排行榜更新。

---

Q&A

Q1：Ramp測試框架和普通AI編程評測有什麼本質區別？

A：普通評測（如SWE-bench）每道題都是獨立的，AI做完一題就清空狀態做下一題。Ramp的核心區別是"串聯依賴"——六個任務像流水線，前一步的產出是後一步的輸入，前面出錯會傳導到後面，這才接近真實軟體工程的運作方式。此外，Ramp還記錄時間、費用、token消耗等過程指標，不只是判斷對不對。

贊助商廣告

Q2：AEI（智能體效率指數）和MR（平均獎勵）哪個更重要？

A：取決於使用場景。MR衡量的是任務完成質量，如果你只關心AI能不能把任務做對做好，MR更相關。AEI同時考慮了成本、時間、token消耗，反映的是"性價比"——對於需要大規模部署、預算有限的企業，AEI更有參考價值。兩個指標從不同維度衡量AI能力，不能互相替代。

Q3：Ramp測試中排名靠前的大模型，現在在實際軟體開發中能用嗎？

A：有參考價值但要謹慎。Ramp測試的是編譯器構建這一特定領域，最好的模型（Opus-4.7）在六關流水線中仍未能全程無誤完成，且花費高達126美元。對於其他軟體工程任務，表現可能不同。研究本身也指出，目前所有測試都使用了OpenHands一種框架，不同框架可能產生不同結果。