這項由伊利諾伊大學香檳分校與Meta合作完成的研究,以預印本形式於2026年5月21日發布在arXiv平台,論文編號為arXiv:2605.22642。感興趣的讀者可以通過該編號查詢完整論文。
**Excel為什麼難倒了AI?**
每天全球有數以億計的人在用Excel或Google Sheets處理各種工作——財務報表、庫存管理、人力資源分析、銷售預測……這些表格工作看似枯燥,卻是許多行業運轉的基礎骨架。你肯定有過這樣的經歷:面對一個幾百行的表格,需要手動填寫一列複雜的計算公式,或者把數據按照特定規則重新整理,光是這一件事就能消耗掉大半個下午。
那麼,有沒有AI能幫我們自動搞定這些活兒?這正是研究團隊要解決的核心問題。
近年來,ChatGPT、GPT-4這類大模型的強大能力讓很多人看到了希望。確實已經有一些工具,比如微軟的Copilot、OpenAI的ChatGPT Agent,開始嘗試幫用戶操作表格。但現實情況是,這些工具面對簡單任務還算湊合,一旦遇到需要多步驟、跨多個工作表、涉及複雜公式的真實工作流程,表現就會大打折扣——微軟的Copilot在專業測試中得分只有20%,ChatGPT Agent也不過45.5%,離真正"替代人工"還差得很遠。
更關鍵的是,現有的方法本質上是在用"聰明的提示詞"來引導通用AI模型,就像是給一個沒學過廚藝的人一本菜譜,指望他臨時燒出一桌滿漢全席。這種方式有著根本的上限:模型本身沒有受過專門的"表格操作訓練",碰到複雜情況就容易出錯、繞彎子甚至直接放棄。
於是,伊利諾伊大學香檳分校和Meta的研究團隊換了一條路:與其靠提示詞引導模型,不如直接把模型"訓練"成一個表格專家。這個思路聽起來簡單,但背後藏著兩個非常棘手的難題,而這篇論文的核心價值,就在於它把這兩個難題都給解決了。
---
**一、表格AI的訓練困境:沒有教材,沒有練習場**
要理解這個挑戰,可以用學駕照來打個比方。
學開車有兩個必不可少的東西:一是教材(告訴你規則和技巧),二是練車場(讓你反覆練習、犯錯、改正)。如果這兩樣缺一個,你就很難真正學會開車。
對於表格AI來說,"教材"相當於大量真實的表格任務數據——需要有人告訴模型"這是一個初始狀態的表格,任務是這樣,完成之後應該變成這個樣子"。這種"起始狀態—目標狀態"的配對數據,在現實中極其稀缺。之前最大的公開數據集SpreadsheetBench也只有912個這樣的配對樣本,對於訓練AI來說實在太少。而且每個樣本都需要專家花大量時間手工製作,成本非常高昂。
"練車場"的問題同樣棘手。訓練AI需要讓它在一個真實的表格環境裡反覆"操作—反饋—改進",但現有的工具要麼對複雜公式支持不足,要麼沒法和大規模訓練框架兼容,要麼在並行運行時數據會亂掉。
這兩個困難,恰恰是這項研究最重要的兩個突破口。
---
**二、自動"刷題機器":從論壇帖子到訓練素材**
研究團隊解決"沒有教材"問題的方式,就像是派了一個聰明的助理去網際網路上海量收集真實考題。
他們的第一步是盯上了一個叫ExcelForum的公開論壇。這個論壇里,每天都有真實用戶發帖求助:"我的表格有這個問題,該怎麼解決?"其他用戶會回帖提供解決方案,還有人繼續跟進討論。這些帖子裡通常附有用戶上傳的原始表格,以及完整的對話討論串。
研究團隊收集了2024年1月1日之後的18855個這樣的討論帖,裡面包含32691個附件表格和144694條用戶回復,平均每個帖子有7.67條回復。這是原始素材,相當於一大堆"題目描述"和"解題思路",但還沒有標準答案。
接下來,研究團隊讓強大的編程AI(比如Claude Code和Codex)充當"解題高手"。這些編程AI讀取帖子裡的原始表格和討論內容,自動生成一套解題操作代碼,然後在真實的Excel環境裡執行這套操作,把結果記錄下來,作為"標準答案表格"。
最後,還有一道質量關卡:自動過濾掉那些觸發了Excel錯誤(比如 #DIV/0!、#VALUE!、#REF! 等)的結果,只保留邏輯上完整、公式可以正確計算的樣本。經過這整套流程,最終產出了5928個高質量的"起始表格—任務說明—目標表格"配對樣本,可以直接用於訓練。
這個自動化流程的意義在於,它把人工標註成本幾乎降到了零,而且只要論壇還在運營,數據來源就可以持續擴充。
---
**三、專業"練車場":讓AI在真實Excel里反覆磨練**
有了訓練素材,還需要一個合適的練習場。研究團隊為此搭建了一個叫做"Spreadsheet Gym"(表格健身房)的交互式訓練環境。
這個環境有幾個關鍵特點,直接決定了訓練質量。
第一個特點是"真材實料"——用的是真實的微軟Excel 365,而不是某個簡化版的表格引擎。為什麼這很重要?因為Excel有很多高級功能,比如FILTER(篩選)、UNIQUE(去重)、SORT(排序)、TAKE(提取)、MAP(映射)等動態數組公式,是很多現代表格任務必須用到的,而LibreOffice等替代軟體對這些功能的支持並不完整。用真Excel訓練,意味著模型學到的是真正能在現實工作中用上的技能。
第二個特點是"隔離沙盒"——每一次模型練習任務,都會分配一個獨立的文件空間,模型在這個空間裡操作表格,不會影響到其他正在進行的練習。這對於大規模訓練非常關鍵,因為訓練時需要同時進行成百上千個平行練習,如果文件互相干擾,結果就會亂掉,就像一個考場裡所有人共用一張卷子一樣荒唐。
第三個特點是"專業工具箱"——研究團隊為模型量身設計了一套專門針對表格操作的工具命令。模型可以使用find_cells來定位某個標題或關鍵詞在哪裡,用inspect_range來查看某個區域的內容,用fill_formula來填充公式,用clear_range來清空單元格,用delete_rows或delete_columns來刪除行列,還有recalculate_and_read用來讓Excel重新計算後讀取結果,以及code_interpreter作為萬能後備方案處理複雜的自定義邏輯。
這套工具箱的設計背後有深刻的工程考量。如果只給模型一個"寫Python代碼"的通用接口,看起來什麼都能做,實際上卻很脆弱——在循環里刪除列時索引會錯位,手動拼接公式字符串時引號容易轉義出錯,區分"清空單元格"和"刪除整行"這種細微差別對小模型來說也很容易搞混。專用工具把這些陷阱都封裝掉了,讓模型只需關注"做什麼",不用操心"怎麼做"的底層細節。
---
**四、強化學習的核心邏輯:做對了就給獎勵**
訓練AI的方式決定了它最終能達到的水平。這項研究採用的方法叫"強化學習",或者更具體地說,是帶有結果獎勵的在線策略強化學習,算法叫GRPO(Group Relative Policy Optimization,組相對策略優化)。
用一個更直觀的類比來解釋:這就像訓練一隻寵物狗完成複雜任務。每次任務完成得好,就給零食獎勵;完成得不好,就不給。狗會在無數次嘗試中,逐漸學會哪些行為序列能帶來獎勵,從而越做越好。
對於表格AI來說,"獎勵"的判定標準是:把AI最終改好的表格,和標準答案表格逐個單元格對比,看目標區域裡所有單元格是否都匹配。數字有一定容差(四捨五入到小數點後2位),文字要精確匹配,日期統一轉換成Excel序列日期再比較。全部匹配則得1分,否則得0分。這個獎勵信號簡單而明確,不需要人工逐步評分,可以完全自動化進行。
然而,獎勵計算本身就是一個工程挑戰。要給一個表格評分,必須先用真實的Excel打開它,觸發重新計算(確保所有公式都算出了正確結果),然後再和標準答案比對。這個過程時間不固定,有時很快,有時因為公式複雜會慢很多。如果每次訓練都要等著這個過程完成,GPU就會大量空閒,非常浪費。
研究團隊的解決方案是一個異步提交-輪詢的驗證服務。訓練時,模型提交一個完成的表格,立刻拿到一個任務編號,然後繼續去做下一個練習;與此同時,後台的Windows伺服器用Excel慢慢計算,算完了把結果存好;等模型空閒時再回來查詢這個任務編號,取回分數。這樣GPU永遠不會空等,訓練效率大幅提升。實測數據顯示,一台32GB內存的Windows伺服器配合四個並行Excel實例,在不到30分鐘內處理了超過20000個評分任務,平均每秒超過11個,完全沒有成為訓練瓶頸。
---
**五、從"三步走"到脫胎換骨:效果究竟如何?**
研究團隊選擇了Qwen3-4B-Thinking-2507這個開源模型作為基礎,一步步疊加改進,最後用強化學習精調。整個過程的效果可以用SpreadsheetBench這個權威測試集的成績來衡量。
原始模型在這個測試集上的正確率只有12.0%。加上專門設計的表格交互引導框架之後,正確率提升到了15.6%。再加上完整的專業工具箱,正確率進一步提升到19.3%。最後經過強化學習精調,正確率達到了23.4%。
這個進步幅度很有意思。12%到23.4%,表面上看起來數字不大,但要知道這是一個只有40億參數的小模型,而且這次提升完全來自訓練方法的改進,沒有換更大的模型,也沒有更換底層架構。與此同時,OpenAI的o3模型(一個更大、更昂貴的閉源模型)在同一個測試集上的成績是23.3%,被這個4B的開源模型以微弱優勢超過。
橫向對比一下其他開源模型的成績:Qwen3-32B(參數量是這個模型的8倍)得分17.6%,Qwen3-8B得分15.9%,Qwen3-14B得分15.0%。經過專門訓練的4B模型,在表格任務上全面超越了比它大得多的通用模型,充分說明了專業化訓練的價值。
---
**六、域外遷移:從"論壇技巧"到"金融分析"**
有一個合理的擔心:模型是用論壇上的常見表格問題訓練的,會不會只會做那些"常見操作",遇到真正的專業工作場景就不行了?
為了測試這一點,研究團隊專門製作了一個叫Domain-Spreadsheet的新測試集,共包含1660個任務,覆蓋金融(分初級、中級、高級三檔)、供應鏈管理、人力資源、銷售和房地產這幾個專業領域。
這些任務的來源和論壇帖子完全不同——它們來自CPA(註冊會計師)、CFA(特許金融分析師)、FRM(金融風險管理師)、CPIM(供應鏈管理認證)、SHRM(人力資源管理認證)等專業認證的知識體系,以及投資銀行、資產管理、庫存分析、薪酬基準、物業估值等實際工作流程。
舉個具體例子,金融類任務會要求:在指定表格里計算可比公司分析的交易倍數,或者建立債務還款覆蓋率模型,或者計算衍生品合約的抵押物淨額……這些都是真實金融從業者日常工作內容。
測試結果顯示,在沒有專門訓練這些領域知識的情況下,經過強化學習訓練後的模型,整體正確率從8.4%提升到了17.2%。其中金融初級任務的提升最為顯著(從15.6%到29.3%),金融中級從7.7%提升到16.2%,金融高級從8.1%提升到19.3%,供應鏈從1.1%提升到5.0%,人力資源從0.5%提升到3.2%,銷售從1.2%提升到5.8%。唯獨房地產類任務幾乎沒有變化,維持在1.1%,說明這個領域的任務對於當前4B模型來說依然是個硬骨頭。
這個結果意味著,強化學習在表格領域具備相當不錯的遷移能力——模型不只是記住了訓練數據里的技巧,而是真正學到了"如何在表格里思考和解決問題"這種更通用的能力。
---
**七、訓練過程的變化:越來越聰明,也越來越高效**
研究團隊記錄了60個訓練步驟內模型的行為變化,這些數據講述了一個很有趣的成長故事。
訓練獎勵(即每次任務平均得分)從最初的約0.21穩步爬升到步驟60時的約0.33。與此同時,模型回復的平均長度從約16000個字符縮短到約11000個字符,平均交互輪數從約20輪降低到約11輪。
換句話說,經過訓練的模型不只是"做得更對",還"做得更快、更乾淨"——用更少的步驟、更簡潔的表達完成同樣的任務。這就像一個學廚的學生,從最初笨拙地反覆嘗試、頻繁出錯、說一大堆廢話,慢慢練成了動作利索、話不多說、一鍋出好菜的熟手。
研究團隊還對模型在訓練前後的行為做了定性比較。訓練前的模型經常說"這段代碼應該能用"(speculative,憑感覺猜測),說"我真的卡住了"(stuck,承認無助),以及在出錯後直接崩潰重來。訓練後的模型更傾向於說"換個方案:既然行2里有這個值,我們可以先定位它再處理"(有備用計劃),或者"有可能沒有符合條件的行"(對失敗有理性預判),以及在開始操作前先明確說出執行計劃。這些行為上的變化,說明強化學習不只是提升了成功率,還改變了模型"思考問題"的方式。
---
**八、專業領域數據集的構建:用認證知識造題**
Domain-Spreadsheet數據集的構建方式本身也值得單獨介紹一下,因為這是目前第一個開源的、專業領域導向的表格任務評測集。
專業領域的知識不會自然出現在公開論壇上,需要特別的方法來收集。研究團隊首先整理了來自各類專業認證體系的核心知識點和行業模板。對於金融領域,這包括CPA、CFA和FRM考試覆蓋的內容;供應鏈用的是CPIM認證;人力資源參考了SHRM和CCP認證;房地產則用了CCIM認證。
在這些知識框架下,研究團隊指導數據生成AI把專業概念轉化為具體的表格任務說明,再通過和論壇數據同樣的自動化流程,生成對應的初始表格和目標表格。最終產出的1660個任務,每個都有完整的任務說明、初始表格和標準答案表格,可以直接用於評測。
這個數據集和現有的表格評測基準相比,最大的不同在於它不考察通用操作技巧,而是考察專業工作流的完成能力。一個模型如果只會套用通用公式,而不理解"風險加權資產"或"再訂貨點"這類業務概念背後的邏輯,就很難在這個數據集上得到好成績。
---
**九、工程細節:讓AI安全、穩定地操作真實表格**
除了方法論上的創新,這項工作還包含大量值得關注的工程設計細節。
在工作空間隔離方面,每次訓練任務都有獨立的文件目錄,初始表格被複製進去作為工作文件data.xlsx,所有工具操作都在這個目錄內進行,避免不同訓練任務之間互相污染。工作空間創建時有文件鎖保護,防止並發時的競爭條件。訓練完成後,工作空間可以自動清理,防止長期運行積累大量臨時文件。
在Excel服務的穩定性方面,研究團隊維護了一個長期運行的Excel實例池來分攤啟動開銷。考慮到Excel進程在長期高負載下可能積累內存或變得不穩定,系統會定期檢查健康狀態,當內存占用超過4GB或累計處理任務數達到閾值時,主動回收並重啟Excel實例。每個評分任務都有硬性超時限制,失敗時會在資料庫里記錄明確的錯誤狀態,防止任務永久卡住占用資源。
評分邏輯在技術上也做了精心處理。數字比較容許微小誤差(四捨五入到小數點後2位),這是因為不同公式寫法在浮點計算上可能有細微差異,不應算作錯誤。日期統一轉換為Excel序列日期(從1900年1月0日開始計數的整數),統一後再比較。空字符串和None值視為等價。公式單元格同時比較"公式字符串"和"計算結果值",兩者都報告,方便調試和錯誤分析。
---
**十、局限與未來方向**
研究團隊對這項工作的局限性保持了坦誠。目前的實驗主要集中在4B參數的輕量模型上,沒有對更大的稠密模型或混合專家(MoE)架構模型進行訓練實驗,而這些更大的模型通常有更強的基礎能力,訓練後的效果可能會更好。
在測試結果上,房地產類任務的改善幾乎為零,說明當前的數據收集和訓練方式對某些特定專業領域的覆蓋還不夠。供應鏈、人力資源等領域的提升幅度也明顯小於金融類任務,這可能是因為論壇數據里金融相關內容本來就更多,模型對這個領域的基礎語義理解更好。
此外,模型在實際部署中還存在一些潛在風險:公式寫錯、結構性編輯出錯、格式細節遺漏,這些都可能影響依賴表格輸出做決策的下游用戶。研究團隊明確指出,Spreadsheet-RL是一個研究性框架,不應直接用於高風險的生產場景,實際使用時需要人工審查、編輯日誌、隱私保護等配套措施。
研究團隊計劃將全部訓練數據、Spreadsheet Gym環境、工具引導框架、訓練流水線和精調後的模型全部開源,為後續研究提供可復現的基礎平台。
---
歸根結底,這項工作做了一件看起來簡單、實際上相當複雜的事:把"讓AI學會用Excel"這個模糊的目標,拆解成一套可操作的工程系統——自動化數據收集、真實執行環境、專用工具接口、異步評分服務、強化學習訓練——每一塊都經過了仔細的設計和驗證。
對於普通用戶來說,這項研究意味著:未來幫助你處理表格的AI助手,有可能是一個真正經過"上萬小時表格實操訓練"的專家,而不只是一個聰明但經驗不足的通才。當然,從實驗室到辦公室還有不少路要走,但方向已經很清晰了。
如果你對表格自動化或AI訓練方法感興趣,可以通過arXiv編號2605.22642找到完整論文,或者關注Spreadsheet-RL在HuggingFace和GitHub上的開源項目,那裡將會持續更新數據集、代碼和模型權重。
---
Q&A
Q1:Spreadsheet-RL訓練出來的模型跟GPT-4o比,誰更厲害?
A:在SpreadsheetBench這個專業測試集上,經過Spreadsheet-RL訓練的Qwen3-4B模型得分23.4%,而GPT-4o在Windows+Excel環境下的得分是18.4%。所以在這個專項測試上,這個只有40億參數的小模型反而超過了GPT-4o,甚至和OpenAI o3(23.3%)基本持平。不過GPT-4o是通用模型,Spreadsheet-RL是專門針對表格任務訓練的,兩者的應用場景不完全一樣。
Q2:Spreadsheet-RL的訓練數據是怎麼來的?
A:訓練數據主要來自ExcelForum這個公開論壇。研究團隊收集了18855個帖子裡用戶上傳的真實表格和討論內容,然後讓Claude Code、Codex等編程AI自動生成解題操作,在真實Excel里執行後生成標準答案表格,再經過自動質量過濾,最終得到5928個高質量的訓練樣本。整個過程不需要人工逐一標註,可以持續擴充。
Q3:Spreadsheet-RL能用於Google Sheets嗎?
A:目前Spreadsheet-RL的訓練和評測都基於微軟Excel 365,特別依賴Excel對高級公式的支持,以及Windows平台上的COM自動化接口來做評分。Google Sheets在功能上有一定差距,部分Excel專屬公式無法直接遷移。研究團隊沒有在Google Sheets上做實驗,但框架的核心思路(自動數據收集+專用工具+強化學習)在理論上是可以遷移的,只需要針對Google Sheets重建評測環境。






