三一學院與華為研究院聯手出招：AI大模型「智能分診」系統，省錢又省時

這項由愛爾蘭三一學院ADAPT研究中心與華為研究院聯合開展的研究，以預印本形式於2026年6月25日發布在arXiv平台，論文編號為arXiv:2606.27457，研究方向歸屬於電腦性能領域（cs.PF）。感興趣的讀者可通過該編號在arXiv上查閱完整論文。

贊助商廣告

**一、一個讓所有企業都頭疼的問題**

假設你開了一家醫院，來的病人什麼情況都有——有人只是擦破了皮，有人卻是急需手術的重症患者。如果你把所有人都安排給最頂級的外科主任診治，主任累死不說，費用也貴到嚇人；但如果所有人都讓實習醫生處理，重症患者就會得不到應有的救治。

AI大模型的部署困境和這個場景幾乎一模一樣。目前市面上有各種大小的AI語言模型（也就是類似ChatGPT這類能回答問題、生成文字的AI）。小模型跑得快、花費少，但遇到複雜問題就力不從心；大模型能力強、回答准，但每次運行的時間和成本都很高。企業在實際部署時，往往兩難：要麼用最強的大模型，結果簡單的問題也要付高價；要麼用小模型省錢，結果難題答不好，用戶體驗變差。

三一學院和華為的研究團隊想到了一個聰明的解決辦法：給AI系統裝上一套"智能分診"機制，讓每個問題都被送到最合適、最划算的模型那裡去處理。這套方案叫做"聚類-路由-升級"（Cluster, Route, Escalate）框架，用一句話概括就是：**先把相似的問題歸堆，再給每堆問題分配最合適的AI，最後對質量不佳的回答自動送去更強的AI補救**。

**二、為什麼已有的方案還不夠好**

在這項研究出現之前，業界已經有一些嘗試解決這個問題的方案。有的系統訓練一個"路由器"，讓它決定每個問題該交給哪個AI——但這類路由器往往需要大量專門標註的數據，比如人類評分員給AI回答評分的記錄，成本相當高。有的系統採用"瀑布式"方法，先讓小模型試一次，回答不好再交給大模型——但這意味著每個問題都要至少跑一次小模型，對於本來就該直接交給大模型的難題，這一步純屬浪費。

贊助商廣告

更關鍵的是，大多數現有方案都缺乏一個直觀可調的"旋鈕"，讓企業運維人員能清楚地設定"我願意為了省錢最多犧牲多少準確率"。三一學院和華為的團隊注意到了這個空白，並且設計了一套只需要最基礎的"這道題答對了還是答錯了"這類標籤就能運轉的系統，不依賴任何額外的人工評分。

**三、整套系統是如何運轉的：兩道"關卡"**

整套框架分為前後兩個階段，就像機場安檢一樣，問題先過第一道關，再過第二道關。

第一個階段的核心任務是"分堆"和"分配"。系統首先把歷史上所有的訓練問題，按照語義（也就是意思的相似程度）自動分成若干組，技術上使用的是一種叫做k-means的聚類算法。可以把這個步驟理解為：把圖書館裡的書按主題歸類，數學題放一堆，語言題放一堆，推理題放一堆。分組完成後，系統會統計每個AI模型在每個組裡的答題正確率，以及每個模型運行時的速度（研究中用"每輸出一個詞元需要多少毫秒"來衡量，專業術語叫TPOT，即Time Per Output Token）。

有了這兩個數據，系統就能為每個模型在每個題組裡打一個綜合分：這個分數等於"答錯率加上（速度懲罰×調節係數λ）"。分數越低，這個模型在這個題組裡就越值得優先選用。

這個調節係數λ（讀作"拉姆達"）是整個系統最精妙的設計之一。當λ設為0時，系統只在乎準確率，所有題組都會交給準確率最高的大模型；當λ越來越大，系統越來越看重速度，逐漸把更多題組分配給快速的小模型。企業運維人員只需要告訴系統"我的速度預算是多少毫秒"，系統就能自動找到最合適的λ值，既不超速，又儘量保住準確率。這個λ一旦在訓練數據上確定好，就直接用在實際運行中，不需要再改動。

在正式為每個題組選定AI之前，系統還會做一次"帕累托篩選"——簡單說，就是剔除那些"又慢又不准"的模型。如果一個模型A，在所有題組裡都比模型B更慢、且不比B更准，那模型A永遠不會被選到，乾脆從候選名單里移除。這一步可以大大簡化後續計算，也保證了每個被保留下來的模型都有其存在的價值。

贊助商廣告

第二個階段是"質量把關"。第一階段把題組分配給各個模型後，分配到便宜小模型的那些題，還是有可能被小模型答錯。此時，系統會用一個輕量級的文本分類器來檢查小模型的每一條回答：如果分類器判斷回答質量不過關，這道題就會被"升級"送到更強的大模型重新作答。

這個分類器是基於ModernBERT-base這個模型微調而來的，輸入是"問題+模型的回答+回答的長度"三個部分合在一起的文本，輸出是"接受"或"升級"兩個判斷。訓練這個分類器所需要的標籤，就是"這道題小模型答對了還是答錯了"——和第一階段用的標籤完全相同，不需要任何額外的人工標註工作。

這兩個階段形成了一個完整的互補體系：第一階段在問題到來之前就做出預判，把整組的難題直接送到大模型；第二階段在小模型給出回答之後再做檢查，把漏網的失誤撈回來。前者節省的是"把本該用大模型的題交給小模型白費力氣"的損失，後者彌補的是"小模型偶爾失手"的遺憾。

**四、在兩個完全不同的考場上接受檢驗**

研究團隊在兩個差異很大的數據集上測試了這套系統，一個是數學競賽題，一個是電信專業知識問答，以此證明這套框架不是只對某種特定類型的問題有效。

第一個考場是AIME 2024，也就是美國數學邀請賽2024年的真題，總共30道題，屬於極具挑戰性的競賽數學。訓練數據則用了1983年到2023年的歷史真題，共921道。參加這場考試的AI模型有兩個：VibeThinker-1.5B（簡稱V），一個專門針對數學和編程訓練的小模型，速度很快；Qwen3-30B-A3B-Thinking-2507-FP8（簡稱Q3-30B），一個大得多的模型，能力更強但運行更慢。

系統把全部訓練題自動分成了3組（通過輪廓係數分析選出最優分組數）。研究人員發現，小模型V在第1組題目（記為C1）上的答錯率只比大模型Q3-30B高了一點點（約5個百分點），但速度快了將近兩倍。於是當系統的速度預算設為每詞元20毫秒時，λ自動調到0.06，C1被分配給了小模型V，C0和C2則分配給大模型Q3-30B。

贊助商廣告

測試結果是：只用第一階段路由，系統準確率從大模型單獨作戰的89.1%略降至86.4%，但速度從每詞元11.8毫秒壓縮到9.5毫秒，快了大約19%。加上第二階段的質量把關後，平均每輪只有0.6道C1的題被升級送給大模型，C1的準確率從90%回升到96%，整體系統準確率恢復到88.4%，速度維持在9.7毫秒，僅比大模型單獨作戰慢了不到1%的準確率，卻快了整整18%。

第二個考場是TeleQnA，一個專門考察電信行業知識的多選題數據集，訓練集9000題，測試集1000題，涉及3GPP標準、接口協議等高度專業的內容。這裡的候選模型有四個：Qwen3-4B-Instruct、Gemma4-E2B-it、Gemma4-26B-it和Gemma4-E4B-it。經過帕累托篩選，Gemma4-E2B-it被Qwen3-4B淘汰（後者既更快又更准），Gemma4-E4B-it被Gemma4-26B淘汰，最終留下了Qwen3-4B（快速小模型）和Gemma4-26B（精準大模型）兩個候選者。

測試集分成了兩組（C0和C1），其中C0占590題，在速度預算20毫秒的約束下被分配給Qwen3-4B，C1的410題則直接交給Gemma4-26B。單純使用第一階段路由後，系統準確率從大模型獨占的76.4%降到了71.2%，速度從24.5毫秒降到19.1毫秒。加入第二階段質量把關後，平均有202道C0題被升級送往大模型，其中約98道是真正答錯被正確攔截的，另外約104道是答對了卻被錯誤升級的（這叫"假陽性"）。即便如此，系統整體準確率回升到74.3%，速度為23.8毫秒，比單獨使用大模型快了0.7毫秒，比只用第一階段多花了4.7毫秒，但準確率高了3.1個百分點。

**五、給系統增加新模型，會不會一切都要重來？**

這套系統的另一個設計亮點是"可擴展性"。研究團隊專門做了一個擴展實驗，向AIME的雙模型池裡再加入兩個新模型：Qwen3-4B-Thinking-2507-FP8和Qwen3.5-35B-A3B-FP8，看看系統會如何自動應對。

結果很清晰。Qwen3-4B的歸一化速度成本超過了1（意味著它比最慢的基準模型還慢），而且每個題組的答錯率都比Q3-30B更高，直接被帕累托篩選判定為"永遠不會被選中的模型"，自動淘汰，不需要人工干預。而Qwen3.5-35B則是一個驚喜：它的速度比Q3-30B快，準確率比V高，在每個題組裡都表現優於原來的兩個候選模型。加入它之後，系統在λ=0.06時把所有三個題組都分配給了這個新模型，訓練集準確率從92.1%升到94.5%，速度從18.4毫秒降到17.3毫秒；測試集準確率從86.4%升到89.3%，速度從9.5毫秒略升到11.0毫秒，同時還微微超過了原先單獨使用Q3-30B的89.1%準確率。整個過程完全自動，不需要重新打標籤或手動調整配置。

贊助商廣告

**六、系統的邊界與尚待改進的地方**

研究團隊在論文中坦誠地列出了這套系統目前的局限性。分組和路由決策是離線計算好的，如果實際來的問題分布和訓練時差別很大（比如突然來了一批訓練集裡從沒出現過的題目類型），系統不會自動感知並調整，需要重新收集標籤、重新訓練。

此外，系統採用的"速度指標"TPOT只衡量每輸出一個詞元需要的時間，但實際上伺服器的整體延遲還包括等待時間、處理請求前的預熱時間、網路傳輸時間等，這些都沒有被納入考量。研究使用的硬體是兩張A100 80GB顯卡，在不同硬體上（比如更新的H100顯卡），模型的速度表現會有顯著變化，最優的λ值可能也需要重新調整。

質量分類器的假陽性率（約51%）也是一個值得關注的問題——有一半的"升級"操作是不必要的，白白花費了大模型的運行時間。研究團隊指出，使用更大規模的ModernBERT-large模型或者引入更多訓練數據，可能會改善這一問題。

還有一個實際部署的約束：這套系統要求候選模型全部同時加載在GPU顯存中。顯存有限的情況下，可以選用的模型數量就會受到限制，靈活性打折扣。

**七、這對真實世界意味著什麼**

研究團隊特別提到了電信行業這個場景，因為它恰好集中體現了這套系統的價值所在。電信網路正在從"人工輔助"向"全自動AI代理"演進——未來的網路會有AI自主地檢測故障、診斷原因、制定修複方案、驗證效果，形成一個24小時不間斷的自動運維閉環。這種場景對AI的響應速度要求極高，同時又必須保證關鍵決策的準確性，還不能把敏感的網路運營數據送到外部雲服務上（數據主權和隱私要求）。

在這種情況下，不同難度的運維子任務可以分發給不同規模的模型處理，常規的狀態查詢交給小模型，複雜的故障推理交給大模型，既保持了系統的響應速度，又在資金和算力允許的範圍內最大化了決策質量。當有新的專用模型出現時（比如專門針對電信數據微調的模型），系統只需要在現有訓練題上跑一遍推理，重新做一次帕累托分析，就能自動決定這個新模型是否值得加入候選池，完全不需要重新標註數據或手動重新配置。

贊助商廣告

說到底，這項研究提出的方案本質上是一套"讓AI資源用得更聰明"的調度機制。它不去追求單一模型的極致性能，而是通過合理分工，讓快速模型處理擅長的題目，讓強大模型專注於真正需要它的挑戰，再用一個輕量的"質檢員"兜底，最終以接近最強模型的準確率，跑出遠低於最強模型的平均延遲。在AI應用規模不斷擴大、算力成本日益受到重視的今天，這種"精打細算"的部署思路，或許比單純堆砌更大模型更有現實意義。

對這套系統的運作原理、實驗細節或擴展方向感興趣的讀者，可以通過arXiv編號2606.27457找到完整論文，原文包含了詳細的實驗配置、每輪運行的逐條數據以及分類器的訓練參數，技術細節相當完整。

---

Q&A

Q1：TPOT是什麼，為什麼用它來衡量AI模型的速度？

A：TPOT是"每輸出一個詞元所需的時間"（Time Per Output Token），單位是毫秒。AI語言模型回答問題時是一個詞一個詞地生成的，TPOT反映的就是每生成一個詞要花多少時間。這個指標在實時對話和自動化流程中很關鍵，因為用戶感知到的響應速度很大程度上取決於每個詞的生成速度。研究選用TPOT而非總響應時間，是因為它在不同長度的回答之間具有更好的可比性。

Q2：λ參數具體是怎麼確定的，普通企業能自己調嗎？

A：λ是系統中控制"速度與準確率權衡"的核心參數。研究團隊的做法是：企業先設定一個速度預算（比如每詞元不超過20毫秒），然後系統在訓練數據上自動掃描不同的λ值，找到在滿足速度預算的前提下準確率最高的那個λ，這個過程完全自動。確定之後，這個λ直接用於真實部署，不再改變。普通企業只需設定速度預算，其餘由系統自動完成，無需手動調參。

Q3：質量分類器的假陽性率高達51%，這不是很浪費嗎？

A：確實，約51%的"升級"操作是把本來答對了的題目錯誤地送往大模型，屬於不必要的開銷。但研究團隊認為這個代價是可以接受的，因為真正答錯的題目（約98道/輪）被正確識別並得到補救，整體系統準確率因此回升了3.1個百分點，這個收益覆蓋了假陽性帶來的額外延遲（約4.7毫秒）。當然，降低假陽性率是值得繼續優化的方向，比如使用更大的ModernBERT-large模型或增加訓練數據量。

贊助商廣告