這項由阿里巴巴Qwen團隊與香港中文大學聯合開展的研究,以預印本形式發布於2026年4月,論文編號為arXiv:2604.10866,感興趣的讀者可通過該編號查閱完整原文。
假設你是一家大型醫院的院長,正在考慮引入一個AI系統幫助急診室護士做分診判斷。你最想知道什麼?當然是這個AI到底靠不靠譜——它能否在嘈雜、混亂、數據不完整的真實環境裡穩定工作,而不只是在教科書式的完美場景下表現優異。遺憾的是,在這項研究誕生之前,沒有任何一個評測體系能告訴你答案。
這正是OCCUBENCH(職業能力基準評測)要解決的核心問題。研究團隊發現,現有的AI智能體評測,基本都只覆蓋了網頁瀏覽、代碼編寫、桌面操作這幾個有現成測試環境的領域,而醫療、金融、法律、製造、能源、物流這些真正需要AI大展身手的行業,卻幾乎是評測的空白地帶。原因並不複雜:這些行業的系統都關在企業防火牆後面,沒有公開接口,更無法隨意接入外部測試。
研究團隊給出的解法,可以用一個比喻來理解:假設你想測驗一個廚師能不能做日本料理,但你既沒有日本食材,也沒有專業廚房,怎麼辦?你可以請一位深度了解日本料理的美食評論家扮演"模擬廚房",他根據自己的知識判斷廚師的每一步操作是否合理,給出相應的"食材反饋"和"烹飪結果"。這位美食評論家,就是研究團隊所說的"語言世界模型"(Language World Model,簡稱LWM)——用大型語言模型(LLM)本身來扮演各種專業環境,充當AI智能體的交互對象和考官。
正是憑藉這個核心思路,研究團隊構建了一個覆蓋100個真實職業場景、橫跨10大行業類別、涉及65個專業細分領域、共計382道測試題的評測基準OCCUBENCH。這是目前已知範圍最廣、職業覆蓋最全的AI智能體專業能力評測體系。
一、為什麼需要一個"職場版"AI考場
要理解這項研究的意義,不妨先盤點一下現有的AI智能體評測都在測什麼。WebArena測的是在真實網站上完成任務,比如在電商平台下單或在論壇發帖。OSWorld測的是操控電腦桌面,比如用辦公軟體整理文件。SWE-bench測的是在代碼倉庫里修復程序Bug。TAU-bench稍微進了一步,測的是在零售和航空公司的API上處理客服問題。
這些評測都很有價值,但它們有一個共同的硬傷:只能測能拿到環境的領域。核電站安全監控系統?沒有公開環境。海關進出口申報系統?沒有可用接口。醫院急診分診流程?沒有外部入口。溫室大棚灌溉控制系統?沒有測試平台。這不是幾個特例,而是絕大多數高價值專業場景的普遍處境。
更重要的是,即便是已有評測的領域,現有體系也有兩個嚴重不足。第一,擴展成本極高——要給WebArena增加一個新行業,就得從頭部署和配置整套網路應用,工程量巨大。第二,所有現有評測都只考"順風順水"的情況,沒有任何一個系統性地測試AI在"環境出故障"時的應對能力。然而在現實職場裡,API超時、數據殘缺、系統返回錯誤,這些都是家常便飯,而不是極端情況。
正因如此,研究團隊提出了"語言世界模型"這個概念。其核心邏輯是:只要一個大語言模型對某個專業領域有足夠深入的理解,它就能模擬出該領域的工具調用環境——就像那位深諳日本料理的美食評論家能模擬出一個可信的日式廚房一樣。這樣一來,構建測試環境就從一個繁重的工程問題,變成了一個相對輕量的配置問題,評測的覆蓋範圍也從"有公開環境的領域"擴展到了"任何LLM能理解的領域"。
二、"模擬廚房"是怎麼搭建的
要讓大語言模型扮演好"模擬考場"這個角色,研究團隊為每一個測試場景設計了一套精密的配置方案,包含四個核心組件。
第一個組件是系統提示詞,它定義了這個模擬環境的運行規則、仿真邏輯、錯誤處理方式和輸出格式。比如在酒店收益管理場景里,系統提示詞會明確告訴模擬器:ADR(平均每日房價)、入住率和總收益之間是什麼計算關係,超出庫存範圍的預訂請求應該如何響應。這就相當於給模擬廚房貼上了"操作手冊"。
第二個組件是工具定義,它規定了被測AI智能體可以使用哪些工具、每個工具接受什麼參數、會返回什麼格式的數據。每個測試場景包含2到10個工具,中位數是5個。這就相當於告訴進入模擬廚房的廚師:這裡有哪些鍋碗瓢盆可以使用。
第三個組件是初始狀態,是一個結構化的JSON對象,描述環境的起始條件。急診室場景里,初始狀態可能包括候診隊列里有哪些病人、各診室的占用情況;核電站場景里,初始狀態可能包含各個傳感器的當前讀數和報警狀態。這就是模擬廚房開始營業時"冰箱裡有什麼食材"的清單。
第四個組件是狀態描述,為每個狀態欄位提供語義標註,告訴模擬器在模擬過程中要維護哪些因果關係,比如"每完成一次房間預訂,剩餘庫存數量就應相應減少"。這保證了模擬過程的內部一致性,防止模擬器給出自相矛盾的反饋。
在實際評測時,被測AI智能體和模擬器按照以下流程交互:智能體發出一個工具調用請求,模擬器根據自己的配置和當前的對話歷史生成一個JSON格式的響應,智能體收到響應後決定下一步行動,如此循環,直到任務完成或失敗。最終,一個獨立的評分模組會根據預設的評分標準判斷整個軌跡是否通過。整個過程就像一場角色扮演遊戲:模擬器扮演職場環境,智能體扮演職員,評分模組扮演督導。
三、一套工業級的"題庫生成流水線"
光有模擬器框架還不夠,研究團隊還面臨一個更大的挑戰:如何批量生成382道高質量的職業測試題,讓每道題都滿足可解性(有正確答案)、可驗證性(判斷對錯有明確標準)、區分度(能拉開不同能力的差距)和多樣性(題目結構各不相同)這四個條件?
為此,研究團隊設計了一套多智能體協作的自動化生成流水線,以Gemini-3-Flash-Preview作為世界模型驅動器。整個流程可以類比為一家教材出版社的編輯流程:先由專業顧問撰寫參考文獻,再由出題組生成題目,然後由答題組試做,最後由審核組把關,不達標的題目退回修改,實在修不好的就淘汰。
具體來說,每個職業場景首先被拆分成16個不重疊的子主題,並為每個子主題生成一份專業參考文檔,覆蓋該子領域的術語體系、工作流程、狀態變量、邊界情況和約束條件。這些文檔是後續所有內容生成的"知識底座",確保不同題目在結構上有實質性差異,而不只是表面換了幾個數字。
接著,流水線自動生成環境配置、任務說明、工具定義、解題方案和評分標準。每道題會在有解題方案和沒有解題方案兩種條件下各運行多次,前者用來驗證題目可解,後者用來評估題目難度。通過多數投票機制,評分模組判斷軌跡是否通過;如果題目本身有問題(比如工具定義矛盾或任務無法完成),修復模組會診斷並嘗試糾正。
最終,研究團隊過濾掉了三類題目:所有難度等級下智能體都能輕鬆解答的(說明題目太簡單,沒有區分價值)、完全無法解答的(說明題目設計有缺陷)、工具定義不合法的(說明配置存在技術問題)。經過這番篩選,最終保留下382道題,平均每道題涉及5.5個可用工具,需要進行16.2次工具調用。
四、OCCUBENCH覆蓋哪些"職業賽道"
研究團隊將100個職業場景分配到10個行業類別中,每個類別的題目數量大致與該行業在現實中對AI智能體的需求規模相當。
商業與企業類是規模最大的類別,包含19個場景,涵蓋簡歷篩選、費用審計、反洗錢合規審查等典型企業流程。技術與IT類緊隨其後,共16個場景,包括Linux系統運維、CI/CD流程故障恢復、網路入侵響應等。工業與工程類有12個場景,涉及生產排程和礦井通風管理等。交通與物流類有11個場景,涵蓋最後一公里配送和列車調度。商業零售類有9個場景,包括動態定價和酒店收益管理。教育與文化類有8個場景,涵蓋自適應課程設計和事實核查。醫療健康類有7個場景,包括急診分診和藥物相互作用篩查。公共服務與政務類有7個場景,涉及許可證處理和野火疏散協調。農業與環境類有7個場景,包括灌溉控制和作物病害診斷。科學與研究類有4個場景,涵蓋望遠鏡調度和考古發掘規劃。
這些場景的設計遵循了幾個原則。首先,每個場景都對應一個真實存在的人類職業角色,比如急診分診護士、運維工程師、海關官員、生產調度員,確保評測結果對現實有直接參考意義。其次,沒有任何單一子領域占據超過3個場景,防止某個細分領域的偏向性影響整體結果。更關鍵的是,絕大多數場景——核電站安全、藥物篩查、緊急協調——在任何現有基準評測里都找不到對應題目,這恰恰驗證了這套體系存在的獨特價值。
五、"故意出錯"的考場:環境魯棒性測試
OCCUBENCH的另一個顯著特色是系統性的故障注入測試,專門評估AI智能體在"環境不正常"時的表現。研究團隊設計了三種故障模式,通過在模擬器的系統提示詞裡追加故障規則來實現,數據本身不做任何改動。
E0是乾淨環境,沒有任何故障,作為基準參照。E1是顯式故障環境,模擬器會隨機返回明顯的錯誤響應,包括HTTP 500內部伺服器錯誤、請求超時、連接被拒絕、服務不可用等。這些故障有明確的錯誤信號,智能體看到後應該知道這次調用失敗了,正確做法是重試。就像你打電話給客服,對方說"系統正在維護,請稍後再試",這是顯式的失敗信號。
E2是隱式故障環境,要危險得多。模擬器返回的數據看起來格式完全正常、沒有任何錯誤提示,但內容是殘缺的:數據被截斷了(只返回前幾條記錄)、欄位缺失了、列表不完整了、或者返回的是過期的緩存數據。響應表面上"正常",但資訊是不完整的。就像你讓助理整理15份合同,他交給你的文件夾里只有2份,但外觀上和完整文件夾沒什麼區別。
E3是混合故障環境,大約一半顯式故障、一半隱式故障交替出現。所有故障都是暫時性的——重試之後就會恢復正常——而且在整個對話過程中分散出現,不集中在開頭。故障的數量(默認為2次故障事件)和持續時間(默認每次連續影響2次工具調用)都是可以獨立調節的參數。
六、15個頂尖模型的大比武
研究團隊用OCCUBENCH評測了15個前沿模型,來自8個不同的模型家族,包括OpenAI的GPT-5.2、Anthropic的多個Claude版本(Opus和Sonnet的4、4.5、4.6三代)、Google的Gemini 3.1 Pro和Flash-Lite、DeepSeek V3.2、Moonshot的Kimi K2.5、MiniMax M2.7、Zhipu的GLM-5,以及阿里巴巴自家的Qwen 3.5 Plus和Flash。所有模型都開啟了思維鏈/推理模式,對於支持可調推理深度的模型,統一設置為"high"檔。
整體來看,GPT-5.2以79.6%的平均完成率排名第一,Gemini 3.1 Pro以72.3%排名第二,Claude Opus 4.6以71.5%排名第三,Qwen 3.5 Plus和DeepSeek V3.2分別以69.9%和69.6%排名第四和第五。
最令人意外的發現,或許是沒有任何一個模型能在所有行業里都保持領先。GPT-5.2在農業(84%)、商業(86%)、工業(85%)和科學(94%)四個類別里拿了最高分,但在商業零售領域只有67%,遠低於Qwen 3.5 Plus的81%。Gemini 3.1 Pro在教育領域最強(84%),卻在醫療領域僅有62%。Claude Opus 4.6在交通(77%)和商業(78%)表現突出,卻在商業零售(53%)墊底。Qwen 3.5 Plus領跑醫療和商業零售(均為81%),卻在教育領域只有56%。
這幅"每個模型都有自己獨特的能力版圖"的圖景,對於企業選型有直接的實踐意義。如果你是一家醫療機構,Qwen 3.5 Plus或Kimi K2.5(醫療81%)可能比GPT-5.2(76%)更適合你;如果你是一家物流公司,Claude Opus 4.6(77%)或許值得優先考慮。單靠一個綜合排名根本無法傳達這種資訊,這正是跨行業評測的核心價值。
開源模型的表現也在這次評測里得到了充分驗證。Qwen 3.5 Plus和DeepSeek V3.2分別以第4和第5名的成績,超越了大部分Claude變體,直接挑戰了"閉源模型在專業任務上必然優於開源模型"的傳統認知。
七、故障來了,各模型表現天差地別
在魯棒性評測部分,研究團隊對9個代表性模型(每個家族選一個)分別測試了E0到E3四種環境條件下的表現。
平均來看,乾淨環境(E0)下所有模型的平均完成率是67.5%。引入顯式故障(E1)後,平均降至62.6%,下降了4.9個百分點。引入隱式故障(E2)後,平均只剩53.4%,相比乾淨環境下降了14.1個百分點。混合故障(E3)的平均分是54.4%,略高於E2但遠低於E1。
這個排序本身就很有啟發性。直覺上,混合了兩種故障的E3應該比單一類型的E2更難,但現實恰恰相反。原因在於,顯式故障(超時、500錯誤)會觸發智能體的"警覺反應"——這些信號太明顯了,智能體看到就知道要重試。而隱式故障(數據截斷、欄位缺失)不會觸發任何報警,數據看起來正常,智能體很可能直接接受並在不完整的資訊基礎上做出錯誤決策。E3里混入了一部分顯式故障,反而提醒了智能體"這個環境有問題,要小心",從而提升了對隱式故障部分的警惕性。
具體到各模型的魯棒性表現,Gemini 3.1 Pro和MiniMax M2.7以0.87的魯棒性分數並列第一。GPT-5.2的魯棒性為0.84,排名第三。Kimi K2.5則以0.63的魯棒性墊底——它在乾淨環境下完成率有64.1%,但在E2下只剩40.6%,降幅高達23.5個百分點。Claude Opus 4.6在E2下從71.5%跌至53.9%,下降17.6個百分點。Qwen 3.5 Plus從69.9%跌至51.6%,下降18.3個百分點。
研究團隊還系統地測試了故障強度對表現的影響:隨著故障次數從1增加到4,以及每次故障持續時間從1輪增加到4輪,所有模型的表現都呈現單調下降的趨勢。Claude Opus 4.6在故障次數從1增至4時,完成率從71.5%降至60.2%;Qwen 3.5 Plus在同樣條件下從61.3%降至49.7%。這意味著在實際部署中,故障頻率越高、持續時間越長,AI智能體的表現下滑就越嚴重,而這恰恰是真實生產環境中經常出現的情況。
八、越大越新越愛"動腦",表現就越好
研究團隊利用OCCUBENCH的多版本模型覆蓋,系統地驗證了三個關於AI能力的普遍性規律。
在模型規模方面,在有大小版本對比的五個模型家族裡,大模型一致性地優於小模型:Gemini 3.1 Pro比Flash-Lite高11.0個百分點,Qwen 3.5 Plus比Flash高10.2個百分點,Claude Opus 4.6比Sonnet 4.6高7.1個百分點,Claude Opus 4比Sonnet 4高7.9個百分點。唯一的例外是Claude 4.5代,Opus和Sonnet兩者幾乎持平(65.2%對64.9%),說明這一代的架構改進對兩種規格的模型都同樣有效。
在代際進步方面,以Claude家族為例,Opus系列從第四代的61.3%穩步提升到4.5代的65.2%,再到4.6代的71.5%,三代累計提升了10.2個百分點,驗證了持續疊代的價值。Sonnet系列則呈現不同的曲線:從第四代(53.4%)到4.5代(64.9%)有一個大幅躍升,但從4.5代到4.6代出現了微小的下滑(64.4%),研究團隊推測這可能反映了4.6代的自適應思維架構在推理深度與執行效率之間存在權衡取捨。
在推理深度方面,研究團隊對支持可調推理深度的GPT-5.2和Claude Opus 4.6進行了專項測試,結果非常清晰。GPT-5.2從不使用推理(none檔,完成率54.7%)到最大推理深度(xhigh檔,完成率82.2%),提升了整整27.5個百分點,而且是完全單調遞增的曲線,沒有任何反轉。Claude Opus 4.6從low檔(70.2%)到max檔(73.8%)也有3.6個百分點的提升。這意味著,對於複雜專業任務,在推理上多花計算資源是一種可靠的提升手段。
九、會做題的AI,不一定會出題
OCCUBENCH的最後一個重要發現,觸及了這種評測方法的一個根本性問題:如果AI智能體本身就是被評測的對象,那麼用另一個AI來充當考場,會不會產生偏差?
研究團隊選取了8個代表性智能體模型,分別用三個不同的模擬器(Gemini-3-Flash-Preview、Qwen 3.5 Plus、GPT-5.2)來運行相同的評測,然後比較三個模擬器給出的排名是否一致。評估標準是"成對排名一致率"——在28對可能的模型組合里,有多少對在不同模擬器下的相對排名是一致的。
結果令人吃驚:GPT-5.2作為智能體排名第一(79.6%),但作為模擬器卻產生了最差的結果——在GPT-5.2模擬器下,所有被測智能體的平均完成率只有29.3%,遠低於Gemini Flash模擬器下的67.9%和Qwen 3.5 Plus模擬器下的63.4%。
研究團隊通過三個具體案例揭示了GPT-5.2模擬器失效的根本原因。在急診分診場景里,GPT-5.2模擬器憑空捏造了兩個原本不存在的空病房,導致被測智能體把病人轉入了"幻覺病房"而非正確病房。在工單升級流程場景里,GPT-5.2模擬器在返回可用人員列表時漏掉了滿足條件的Raj——一個二級資料庫專家,只保留了一個三級管理員,於是被測智能體只能選擇不滿足要求的候選人。在訂單退貨場景里,GPT-5.2模擬器自作主張地依據當前日期計算出30天退貨期已過,拒絕了原本應該批准的退貨請求——而任務說明里根本沒有這條約束。
這三種失效模式——憑空捏造狀態、遺漏關鍵實體、自行發明業務規則——都指向同一個問題:一個強大的語言模型在扮演"環境模擬器"時,會不由自主地用自己的"世界知識"覆蓋任務配置,而不是嚴格遵守給定的環境合約。
相比之下,Qwen 3.5 Plus模擬器沒有出現這些問題,與Gemini Flash模擬器在28對模型組合里有24對排名一致,一致率達到85.7%,而且排名前三的模型(GPT-5.2、Gemini Pro、Opus 4.6)完全吻合。這說明,只要模擬器足夠可靠,基於語言世界模型的評測確實能產生穩定可信的排名。研究團隊建議:在使用這種評測方式時,要麼事先驗證模擬器質量,要麼在更換模擬器後重新驗證任務的可解性。
十、為什麼有些行業對AI來說更難
把15個模型在各行業的表現加以平均,可以繪出一幅"行業難度地圖"。最容易的兩個行業是商業與企業(平均70.1%)和公共服務與政務(平均69.4%),最難的兩個是交通與物流(平均56.2%)和教育與文化(平均57.6%)。
這個結果有直觀的解釋。商業和公政類的任務往往遵循文檔完善、流程清晰的既定程序,決策路徑相對明確,即使是不同能力的模型也能沿著正確的流程走。交通物流類的任務則涉及複雜的多約束優化——既要規劃路線,又要平衡負載,還要滿足時間窗口和資源限制,同時監控多個狀態變量。教育類任務需要細膩的教學判斷,比如根據學生的實時反饋調整教學節奏和內容深度,這要求模型具備一種更接近"人際感知"的能力,不是簡單的流程執行能力所能涵蓋的。
這幅難度地圖對實際部署有重要參考價值:在最難的行業里,即便是最好的模型也只有56%到57%的平均完成率,這意味著全面自動化還有相當長的路要走,人機協作才是更現實的選項。
說到底,OCCUBENCH做的事情可以用一句話來概括:它第一次系統性地回答了"AI能不能在真實職場裡獨當一面"這個問題,而不是只告訴你它在理想條件下表現如何。研究團隊給出的答案,既令人振奮,也令人保持清醒:當前最強的模型已經能在很多專業場景里完成80%左右的任務,但在交通物流、教育這些更複雜的領域仍有明顯短板;面對隱性數據故障,幾乎所有模型都會有顯著的能力下滑;沒有任何一個模型在所有行業里都是最強的,組織在選型時需要根據自己的具體業務來判斷。
更值得關注的是"模擬器本身也可能出錯"這個發現——它提醒我們,評測體系的可靠性不只取決於被測對象,還取決於測試工具本身的質量。這是一個關於AI評測方法論的深層洞察,對整個領域的未來研究方向都有參考價值。
對這項研究感興趣的讀者,可以通過論文編號arXiv:2604.10866獲取完整原文,也可以通過論文提到的項目主頁獲取數據集和代碼。這是一項還在持續演進中的工作,但它已經為AI智能體的職業能力評測樹立了一個新的參照框架。
Q&A
Q1:OCCUBENCH評測體系具體包含哪些行業和場景?
A:OCCUBENCH覆蓋10個行業類別,包括商業與企業、技術與IT、工業與工程、交通與物流、商業零售、教育與文化、醫療健康、公共服務與政務、農業與環境、科學與研究,共100個職業場景、65個專業細分領域、382道測試題。每個場景對應一個真實人類職業角色,例如急診分診護士、運維工程師、海關官員等。
Q2:語言世界模型評測方式的可靠性如何保證?
A:研究團隊通過對比三個不同模擬器(Gemini Flash、Qwen 3.5 Plus、GPT-5.2)的評測結果來驗證可靠性。當使用能力足夠強且能嚴格遵守環境配置的模擬器時,28對模型組合中有85.7%的相對排名是一致的,前三名完全吻合。但強調,使用前需驗證模擬器質量,因為過強的模型可能會用自身知識覆蓋任務規定,產生"幻覺環境"。
Q3:AI智能體在故障環境下表現為何會大幅下降?
A:隱式故障(E2)對AI智能體的影響最大,原因在於數據看起來格式正常但內容殘缺,例如15條記錄只返回2條,卻沒有任何錯誤提示。大多數模型缺乏主動驗證數據完整性的能力,會直接基於不完整數據做決策,導致完成率平均從67.5%下滑至53.4%。顯式故障反而影響較小,因為錯誤信號明確,智能體知道需要重試。






