人民大學與騰訊聯手打造「規劃題庫工廠」，讓AI真正學會做計劃

這項由中國人民大學高嶺人工智慧學院與騰訊混元團隊聯合主導，並有北京人工智慧研究院參與的研究，於2026年5月發布在預印本平台arXiv上，論文編號為arXiv:2605.20873v1。對於關心AI能否真正幫我們做計劃、安排事務的普通讀者來說，這項研究觸及了一個既實用又有趣的問題：大語言模型（也就是那些能聊天、能寫文章的AI）究竟有沒有能力像一個靠譜的秘書或項目經理那樣，幫你把一堆亂糟糟的任務、限制條件和目標，整合成一份真正可執行的計劃？

贊助商廣告

研究團隊給出的答案是：現有AI還差得很遠，但他們造出了一套專門訓練和測試AI規劃能力的"題庫工廠"，名叫PlanningBench。

**一、為什麼"做計劃"對AI來說如此困難**

先從生活場景說起。假設你是一家小公司的HR，手頭有六個職位要招人，每個面試官只在特定時間段有空，每個候選人也有自己的日程限制，會議室數量有限，還要兼顧緊急程度和公平原則。這樣一道"排班題"，做錯一步就可能導致全盤皆亂——比如把兩個候選人安排到了同一間會議室的同一時段，或者忘記了某位面試官當天請假。

現在把AI當成那個被委以重任的助理。AI讀完你的需求描述，給出了一份看起來頭頭是道的方案，每一條單獨看都合理，但拼在一起一檢查，才發現會議室衝突了、某位必須參加的人被漏掉了、預算超了一點點。AI犯的不是"完全不懂"的錯，而是"局部對了但整體亂了"的錯。

這正是規劃任務與普通聊天或寫作任務最本質的區別。寫一篇文章，某個段落寫得差一點，整篇文章還是能讀；但在規劃任務里，一個小小的約束條件沒滿足，整個方案就可能徹底失效。規劃要求AI把所有資訊放在腦子裡同時考慮，得出一個全局一致、完全符合條件的解。

研究者們發現，現有的AI規劃評測工具存在幾個共同的問題。大多數測試題庫是"固定的"——題目就那麼多，出完了就沒了，很難按需擴充；題目的難度往往用"問題越長越難"或"要求越多越難"這種粗糙的方式衡量，並不真正反映規劃在結構層面究竟難在哪兒；而且幾乎沒有人認真研究用這些規劃題目來訓練AI，讓AI通過練習變得更擅長規劃。PlanningBench要解決的，正是這三個痛點。

贊助商廣告

**二、這套"題庫工廠"是怎麼建造的**

理解PlanningBench的工作方式，可以用一座模組化的樂高工廠來類比。工廠里預先備好了各種標準零件（任務類型、約束條件），流水線按照配方把零件拼成成品（規劃題目），每件成品出廠時還附帶一張檢驗清單，用來驗收答題者的方案是否合格。

整個建造過程分為兩個大階段。

第一階段是零件庫的建立。研究團隊請來了二十位有實際規劃經驗的專業標註員，以及算法研究人員，他們一起翻閱了大量真實生活和商業場景中的規劃案例——從個人健身計劃、出行安排、學習備考，到企業的生產調度、倉庫管理、應急響應。他們把這些場景背後的共性結構抽象出來，歸納成六大類規劃任務：日程與時間表安排、資源分配與匹配、班次與人力調度、路線與出行規劃、項目與生產運營、應急響應與公共服務。在這六大類下面，又細分出三十多個具體任務類型，每種類型再往下拆分出五到十個子任務變體。

與此同時，團隊還建立了一個約束條件庫。約束條件被分成三個層次：基礎層是那些所有規劃任務都繞不開的"硬規則"，比如時間窗口、容量上限、資源不能同時分配給兩個互斥任務；中級層引入了優化目標，比如公平性、負載均衡、多目標權衡；高級層則加入了最難處理的情境，比如判斷任務本身是否無解、在出現突發情況時最小幅度地調整原方案、設計具有魯棒性的應急預案。

第二階段是流水線生產。給定一個任務類型和一組從約束庫里抽取的條件，系統會自動生成一道完整的規劃題，同時生成一份"驗收清單"，列明答案必須滿足的所有條件。這條流水線有一個自動調難度的機制：每生成一道題，就讓一個AI模型來嘗試解答；如果這道題被解開了，說明太容易，系統就自動增加中級或高級約束，讓題目變難；如果解不開，說明題目已經足夠有挑戰性，就把它收入題庫。這個"出題—做題—判卷—調難度"的閉環，讓題庫可以源源不斷地擴充，同時確保每道題都有一定難度。

贊助商廣告

最後，還有人工質檢環節。那二十位標註員再次審閱系統生成的題目，把它們分成"直接可用"、"小修後可用"、"需要補充背景資訊後可用"和"廢棄"四類。實測下來，86%的題目只需要小改或不改就能直接用，只有不到14%需要補充背景，而且沒有一道被直接丟棄，說明這條流水線的質量相當穩定。

**三、題庫里的"精心設計"：確定性答案的重要性**

在造題的過程中，團隊發現了一個容易被忽視卻至關重要的細節：題目是否有唯一確定的最優答案，會極大地影響AI的學習效果。

拿烹飪來打比方。如果老師出的考題是"做一道好吃的菜"，那麼學生隨便炒個蛋都能得分，因為"好吃"本來就見仁見智。但如果題目是"用指定食材、在20分鐘內、按照特定步驟，做出一道標準分數為90分以上的菜"，那麼答案的好壞就有了明確的衡量標準，學生能清楚地知道自己哪裡做對了、哪裡做錯了。

在AI訓練里，這個道理同樣成立。如果規劃題的答案空間過於寬鬆，很多"差不多合理"的方案都能得到獎勵，AI就會學到"差不多行就行了"的習慣，不會去追求全局最優的方案。而一旦題目要求唯一確定的最優解，AI的訓練信號就會變得清晰而有方向感。

團隊在早期的一批約一千道題上做過對照試驗，結果正是如此：那批題目的答案空間比較寬鬆，用來訓練AI之後，AI在通用任務上的表現反而下降了。後來刻意強調"確定性最優解"的題目批次，訓練效果就明顯好得多。這個發現被研究者們稱為"獎勵確定性"，是整篇論文裡一個相當有價值的實踐結論。

**四、拿來考AI：現有的頂級模型表現如何**

題庫造好之後，研究團隊用裡面的467道題，把當前最強的一批AI模型都拉來考了一遍。考卷有兩個評分維度：一個叫"全通過率"，就是這道題的所有要求全都滿足才算過，一個也不能漏；另一個叫"均通過率"，統計平均滿足了多少比例的要求，衡量部分完成的情況。

贊助商廣告

結果相當能說明問題。排名第一的GPT-5.4（最高配置）全通過率為63%，也就是說還有三分之一以上的題它也解不對。排名第二的Gemini-3.1-Pro全通過率53%。再往下，一批能力較強的開源模型，比如某家公司的Seed-2.0、DeepSeek-V3.2等，全通過率在30%到44%之間。而能力稍弱的模型，全通過率直接掉到個位數甚至為零。

一個特別值得關注的現象是，很多模型的"均通過率"和"全通過率"之間存在巨大落差。比如某個模型的均通過率高達90%，全通過率卻只有58%。這說明它能滿足大部分單獨的要求，但總有一兩個關鍵條件沒顧到，導致整體方案失效。這正好印證了前面說的：規劃任務里，局部正確不等於整體可用。

研究團隊還分析了題目的哪些特徵會讓AI更容易出錯。題目越長（需要處理的資訊越多），AI出錯的概率越大；驗收清單里的條目越多（需要同時滿足的要求越多），AI出錯的概率也越大。這兩個發現都符合直覺——同時盯著越多事情，越容易顧此失彼。此外，不同任務類型對AI的難度差異顯著：某些AI在"招聘規劃"類題目上能得80分，在"電力調度規劃"類題目上卻只能得7分，說明AI的規劃能力並不是均勻分布的，而是有明顯的偏科現象。

在對錯誤案例的細分分析中，團隊發現絕大多數失敗（占所有語義錯誤的61%到83%）屬於"計算或分配出錯"，也就是數字算錯了、時間段安排錯了、資源分配搞混了。純粹因為格式不對或漏寫解釋而失敗的情況反而很少。這說明AI的瓶頸不是"不理解要求"，而是"算不對"——在複雜約束下的推理能力還有很大提升空間。

**五、拿來訓練AI：規劃能力真的可以被"練出來"嗎**

測完之後，團隊更想知道的是：用PlanningBench的題目來訓練AI，能不能讓AI真正變得更擅長規劃，甚至把這種能力遷移到其他場景？

他們選了一個中等體量的開源模型作為基礎，用300道PlanningBench訓練題，通過一種叫GRPO的強化學習方法（可以理解為：讓AI做題，根據驗收清單評分，哪裡做對了就強化哪裡的做法，哪裡做錯了就削弱）來訓練它。

贊助商廣告

訓練完之後，不是在PlanningBench自己的題目上測，而是拿去考兩套完全沒見過的旅行規劃題庫——ChinaTravel和TravelPlanner。這兩套題庫考的是中國國內出行的規劃問題，跟PlanningBench的題目在內容和風格上都有明顯差異。

結果是正面的。在ChinaTravel上，全通過率從基礎模型的51%提升到了58%，其中最難的"人工出題"子集從87%提升到了93%。在TravelPlanner上，提升更為顯著，全通過率從29%跳到了47%，最大的單項提升超過22個百分點。

更有意思的是，訓練效果不只體現在規劃類題目上。研究團隊還把訓練後的模型拿去考了三個考察通用指令執行能力的測試——分別考的是多輪對話中的指令整合能力、能否打破固定格式遵循真實指令、以及能否在長文本中滿足多個約束條件。在這三個測試上，用PlanningBench訓練的模型平均得分比基礎模型高出了7個百分點，其中在"Collie"這個約束遵循測試上提升了將近15個百分點。

這說明，通過規劃題目學到的東西並不只是"怎麼排班"或"怎麼規劃旅遊路線"這樣具體的技能，而是一種更基礎的能力：在滿足一堆相互關聯的條件的同時，保持整體方案的一致性。這種能力在各種需要"同時滿足多條要求"的任務里都用得上。

與此相對的是，用"答案不夠確定"的數據訓練出來的模型，在這些測試上幾乎沒有提升，甚至在個別項目上還略有下降。這再次證明了"確定性答案"在訓練中的關鍵作用。

**六、從訓練過程能看出什麼**

研究團隊還記錄了三種不同訓練數據下AI的學習曲線，觀察了三個指標：有多少題AI完全做不出來（全錯率）、有多少題AI完全做對了（全對率），以及驗收模型給出的平均分。

用PlanningBench的數據訓練時，全錯率下降最快，全對率上升最穩，平均分曲線也最平滑，說明訓練信號清晰、方向明確，AI知道往哪個方向努力。用"答案不確定"的數據訓練時，全對率提升很慢，曲線也更波動，說明AI在一個模糊的方向上摸索，學得費勁還效果差。用人工手寫題目（同樣那二十位標註員從頭自己寫，不用PlanningBench的流程）訓練的效果則介於兩者之間——比不確定答案的強，但比PlanningBench弱，說明系統化的分類約束體系和流水線出題確實帶來了額外的訓練價值，不是隨便找幾道題練練就能達到的效果。

贊助商廣告

說到底，這項研究回答了一個既簡單又重要的問題：AI做規劃，究竟差在哪兒，又該怎麼補？

差在哪兒——差在"局部對、整體錯"的毛病上，差在同時滿足多個相互關聯約束時的推理精度上，而不是在理解題意或輸出格式上。

怎麼補——需要有一套能持續生產高質量規劃題的工具，題目要覆蓋足夠多的任務類型和約束類型，難度要可以精細控制，答案要有明確的對錯標準，驗收規則要清晰可執行。PlanningBench正是為這個目標而建。

當然，這套方法也有它還沒解決的地方。訓練只用了300道題，規模偏小；"確定性答案更好"這個結論雖然有實驗支撐，但更系統的對比實驗還有待補充；而且當前測試的模型中，最強的幾個都是閉源的商業模型，無法在它們身上做訓練實驗。未來如果有更多開源強模型可用，這套訓練框架能發揮多大潛力，還值得期待。

如果你對完整的研究細節感興趣，可以通過論文編號arXiv:2605.20873，在arXiv平台上找到這篇文章的全文。研究團隊承諾在2026年6月1日之前公開全部數據和相關材料，感興趣的開發者屆時可以直接獲取這套題庫和工具。

---

Q&A

Q1：PlanningBench和普通AI規劃測試題庫有什麼區別？

A：普通AI規劃題庫通常是固定數量的手工題目，出完就不能擴充，難度控制也比較粗糙，主要靠"題目越長越難"這類表面指標。PlanningBench的核心差異在於它是一套"題目工廠"——通過預先建好的任務分類和約束條件庫，可以按需自動生成新題目，同時有閉環機制自動調整難度，而且每道題都配有清單式驗收標準，可以精確判斷AI的答案哪裡對、哪裡錯。

Q2：用PlanningBench訓練AI之後，AI的規劃能力為什麼能遷移到旅行規劃這類沒見過的任務上？

A：PlanningBench訓練的不是某一種具體的規劃知識，而是一種底層能力：在同時滿足多條相互關聯的約束條件時，保持整體方案的邏輯一致性。無論是排班、出行規劃還是項目管理，背後都需要這種能力。所以只要訓練數據的約束結構足夠豐富、答案標準足夠清晰，AI學到的東西就能用到各種不同場景的規劃任務里。

贊助商廣告

Q3：為什麼規劃題目的答案必須"確定唯一"，AI的訓練效果才好？

A：在強化學習訓練中，AI通過"做對了得獎勵、做錯了受懲罰"來學習。如果題目允許很多"差不多合理"的答案都能得分，AI就會學到"隨便給個大概正確的方案就行"的習慣，不會去追求全局最優。只有當題目明確規定"只有一個最優解才算滿分"，AI才能得到清晰的方向信號，知道自己究竟差在哪裡，訓練才能真正有效果。