宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

三一學院與華為研究院聯手出招:AI大模型「智能分診」系統,省錢又省時

2026年07月01日 首頁 » 熱門科技

這項由愛爾蘭三一學院ADAPT研究中心與華為研究院聯合開展的研究,以預印本形式於2026年6月25日發布在arXiv平台,論文編號為arXiv:2606.27457,研究方向歸屬於電腦性能領域(cs.PF)。感興趣的讀者可通過該編號在arXiv上查閱完整論文。

**一、 一個讓所有企業都頭疼的問題**

假設你開了一家醫院,來的病人什麼情況都有——有人只是擦破了皮,有人卻是急需手術的重症患者。如果你把所有人都安排給最頂級的外科主任診治,主任累死不說,費用也貴到嚇人;但如果所有人都讓實習醫生處理,重症患者就會得不到應有的救治。

AI大模型的部署困境和這個場景幾乎一模一樣。目前市面上有各種大小的AI語言模型(也就是類似ChatGPT這類能回答問題、生成文字的AI)。小模型跑得快、花費少,但遇到複雜問題就力不從心;大模型能力強、回答准,但每次運行的時間和成本都很高。企業在實際部署時,往往兩難:要麼用最強的大模型,結果簡單的問題也要付高價;要麼用小模型省錢,結果難題答不好,用戶體驗變差。

三一學院和華為的研究團隊想到了一個聰明的解決辦法:給AI系統裝上一套"智能分診"機制,讓每個問題都被送到最合適、最划算的模型那裡去處理。這套方案叫做"聚類-路由-升級"(Cluster, Route, Escalate)框架,用一句話概括就是:**先把相似的問題歸堆,再給每堆問題分配最合適的AI,最後對質量不佳的回答自動送去更強的AI補救**。

**二、 為什麼已有的方案還不夠好**

在這項研究出現之前,業界已經有一些嘗試解決這個問題的方案。有的系統訓練一個"路由器",讓它決定每個問題該交給哪個AI——但這類路由器往往需要大量專門標註的數據,比如人類評分員給AI回答評分的記錄,成本相當高。有的系統採用"瀑布式"方法,先讓小模型試一次,回答不好再交給大模型——但這意味著每個問題都要至少跑一次小模型,對於本來就該直接交給大模型的難題,這一步純屬浪費。

更關鍵的是,大多數現有方案都缺乏一個直觀可調的"旋鈕",讓企業運維人員能清楚地設定"我願意為了省錢最多犧牲多少準確率"。三一學院和華為的團隊注意到了這個空白,並且設計了一套只需要最基礎的"這道題答對了還是答錯了"這類標籤就能運轉的系統,不依賴任何額外的人工評分。

**三、 整套系統是如何運轉的:兩道"關卡"**

整套框架分為前後兩個階段,就像機場安檢一樣,問題先過第一道關,再過第二道關。

第一個階段的核心任務是"分堆"和"分配"。系統首先把歷史上所有的訓練問題,按照語義(也就是意思的相似程度)自動分成若干組,技術上使用的是一種叫做k-means的聚類算法。可以把這個步驟理解為:把圖書館裡的書按主題歸類,數學題放一堆,語言題放一堆,推理題放一堆。分組完成後,系統會統計每個AI模型在每個組裡的答題正確率,以及每個模型運行時的速度(研究中用"每輸出一個詞元需要多少毫秒"來衡量,專業術語叫TPOT,即Time Per Output Token)。

有了這兩個數據,系統就能為每個模型在每個題組裡打一個綜合分:這個分數等於"答錯率加上(速度懲罰×調節係數λ)"。分數越低,這個模型在這個題組裡就越值得優先選用。

這個調節係數λ(讀作"拉姆達")是整個系統最精妙的設計之一。當λ設為0時,系統只在乎準確率,所有題組都會交給準確率最高的大模型;當λ越來越大,系統越來越看重速度,逐漸把更多題組分配給快速的小模型。企業運維人員只需要告訴系統"我的速度預算是多少毫秒",系統就能自動找到最合適的λ值,既不超速,又儘量保住準確率。這個λ一旦在訓練數據上確定好,就直接用在實際運行中,不需要再改動。

在正式為每個題組選定AI之前,系統還會做一次"帕累托篩選"——簡單說,就是剔除那些"又慢又不准"的模型。如果一個模型A,在所有題組裡都比模型B更慢、且不比B更准,那模型A永遠不會被選到,乾脆從候選名單里移除。這一步可以大大簡化後續計算,也保證了每個被保留下來的模型都有其存在的價值。

第二個階段是"質量把關"。第一階段把題組分配給各個模型後,分配到便宜小模型的那些題,還是有可能被小模型答錯。此時,系統會用一個輕量級的文本分類器來檢查小模型的每一條回答:如果分類器判斷回答質量不過關,這道題就會被"升級"送到更強的大模型重新作答。

這個分類器是基於ModernBERT-base這個模型微調而來的,輸入是"問題+模型的回答+回答的長度"三個部分合在一起的文本,輸出是"接受"或"升級"兩個判斷。訓練這個分類器所需要的標籤,就是"這道題小模型答對了還是答錯了"——和第一階段用的標籤完全相同,不需要任何額外的人工標註工作。

這兩個階段形成了一個完整的互補體系:第一階段在問題到來之前就做出預判,把整組的難題直接送到大模型;第二階段在小模型給出回答之後再做檢查,把漏網的失誤撈回來。前者節省的是"把本該用大模型的題交給小模型白費力氣"的損失,後者彌補的是"小模型偶爾失手"的遺憾。

**四、 在兩個完全不同的考場上接受檢驗**

研究團隊在兩個差異很大的數據集上測試了這套系統,一個是數學競賽題,一個是電信專業知識問答,以此證明這套框架不是只對某種特定類型的問題有效。

第一個考場是AIME 2024,也就是美國數學邀請賽2024年的真題,總共30道題,屬於極具挑戰性的競賽數學。訓練數據則用了1983年到2023年的歷史真題,共921道。參加這場考試的AI模型有兩個:VibeThinker-1.5B(簡稱V),一個專門針對數學和編程訓練的小模型,速度很快;Qwen3-30B-A3B-Thinking-2507-FP8(簡稱Q3-30B),一個大得多的模型,能力更強但運行更慢。

系統把全部訓練題自動分成了3組(通過輪廓係數分析選出最優分組數)。研究人員發現,小模型V在第1組題目(記為C1)上的答錯率只比大模型Q3-30B高了一點點(約5個百分點),但速度快了將近兩倍。於是當系統的速度預算設為每詞元20毫秒時,λ自動調到0.06,C1被分配給了小模型V,C0和C2則分配給大模型Q3-30B。

測試結果是:只用第一階段路由,系統準確率從大模型單獨作戰的89.1%略降至86.4%,但速度從每詞元11.8毫秒壓縮到9.5毫秒,快了大約19%。加上第二階段的質量把關後,平均每輪只有0.6道C1的題被升級送給大模型,C1的準確率從90%回升到96%,整體系統準確率恢復到88.4%,速度維持在9.7毫秒,僅比大模型單獨作戰慢了不到1%的準確率,卻快了整整18%。

第二個考場是TeleQnA,一個專門考察電信行業知識的多選題數據集,訓練集9000題,測試集1000題,涉及3GPP標準、接口協議等高度專業的內容。這裡的候選模型有四個:Qwen3-4B-Instruct、Gemma4-E2B-it、Gemma4-26B-it和Gemma4-E4B-it。經過帕累托篩選,Gemma4-E2B-it被Qwen3-4B淘汰(後者既更快又更准),Gemma4-E4B-it被Gemma4-26B淘汰,最終留下了Qwen3-4B(快速小模型)和Gemma4-26B(精準大模型)兩個候選者。

測試集分成了兩組(C0和C1),其中C0占590題,在速度預算20毫秒的約束下被分配給Qwen3-4B,C1的410題則直接交給Gemma4-26B。單純使用第一階段路由後,系統準確率從大模型獨占的76.4%降到了71.2%,速度從24.5毫秒降到19.1毫秒。加入第二階段質量把關後,平均有202道C0題被升級送往大模型,其中約98道是真正答錯被正確攔截的,另外約104道是答對了卻被錯誤升級的(這叫"假陽性")。即便如此,系統整體準確率回升到74.3%,速度為23.8毫秒,比單獨使用大模型快了0.7毫秒,比只用第一階段多花了4.7毫秒,但準確率高了3.1個百分點。

**五、 給系統增加新模型,會不會一切都要重來?**

這套系統的另一個設計亮點是"可擴展性"。研究團隊專門做了一個擴展實驗,向AIME的雙模型池裡再加入兩個新模型:Qwen3-4B-Thinking-2507-FP8和Qwen3.5-35B-A3B-FP8,看看系統會如何自動應對。

結果很清晰。Qwen3-4B的歸一化速度成本超過了1(意味著它比最慢的基準模型還慢),而且每個題組的答錯率都比Q3-30B更高,直接被帕累托篩選判定為"永遠不會被選中的模型",自動淘汰,不需要人工干預。而Qwen3.5-35B則是一個驚喜:它的速度比Q3-30B快,準確率比V高,在每個題組裡都表現優於原來的兩個候選模型。加入它之後,系統在λ=0.06時把所有三個題組都分配給了這個新模型,訓練集準確率從92.1%升到94.5%,速度從18.4毫秒降到17.3毫秒;測試集準確率從86.4%升到89.3%,速度從9.5毫秒略升到11.0毫秒,同時還微微超過了原先單獨使用Q3-30B的89.1%準確率。整個過程完全自動,不需要重新打標籤或手動調整配置。

**六、 系統的邊界與尚待改進的地方**

研究團隊在論文中坦誠地列出了這套系統目前的局限性。分組和路由決策是離線計算好的,如果實際來的問題分布和訓練時差別很大(比如突然來了一批訓練集裡從沒出現過的題目類型),系統不會自動感知並調整,需要重新收集標籤、重新訓練。

此外,系統採用的"速度指標"TPOT只衡量每輸出一個詞元需要的時間,但實際上伺服器的整體延遲還包括等待時間、處理請求前的預熱時間、網路傳輸時間等,這些都沒有被納入考量。研究使用的硬體是兩張A100 80GB顯卡,在不同硬體上(比如更新的H100顯卡),模型的速度表現會有顯著變化,最優的λ值可能也需要重新調整。

質量分類器的假陽性率(約51%)也是一個值得關注的問題——有一半的"升級"操作是不必要的,白白花費了大模型的運行時間。研究團隊指出,使用更大規模的ModernBERT-large模型或者引入更多訓練數據,可能會改善這一問題。

還有一個實際部署的約束:這套系統要求候選模型全部同時加載在GPU顯存中。顯存有限的情況下,可以選用的模型數量就會受到限制,靈活性打折扣。

**七、 這對真實世界意味著什麼**

研究團隊特別提到了電信行業這個場景,因為它恰好集中體現了這套系統的價值所在。電信網路正在從"人工輔助"向"全自動AI代理"演進——未來的網路會有AI自主地檢測故障、診斷原因、制定修複方案、驗證效果,形成一個24小時不間斷的自動運維閉環。這種場景對AI的響應速度要求極高,同時又必須保證關鍵決策的準確性,還不能把敏感的網路運營數據送到外部雲服務上(數據主權和隱私要求)。

在這種情況下,不同難度的運維子任務可以分發給不同規模的模型處理,常規的狀態查詢交給小模型,複雜的故障推理交給大模型,既保持了系統的響應速度,又在資金和算力允許的範圍內最大化了決策質量。當有新的專用模型出現時(比如專門針對電信數據微調的模型),系統只需要在現有訓練題上跑一遍推理,重新做一次帕累托分析,就能自動決定這個新模型是否值得加入候選池,完全不需要重新標註數據或手動重新配置。

說到底,這項研究提出的方案本質上是一套"讓AI資源用得更聰明"的調度機制。它不去追求單一模型的極致性能,而是通過合理分工,讓快速模型處理擅長的題目,讓強大模型專注於真正需要它的挑戰,再用一個輕量的"質檢員"兜底,最終以接近最強模型的準確率,跑出遠低於最強模型的平均延遲。在AI應用規模不斷擴大、算力成本日益受到重視的今天,這種"精打細算"的部署思路,或許比單純堆砌更大模型更有現實意義。

對這套系統的運作原理、實驗細節或擴展方向感興趣的讀者,可以通過arXiv編號2606.27457找到完整論文,原文包含了詳細的實驗配置、每輪運行的逐條數據以及分類器的訓練參數,技術細節相當完整。

---

Q&A

Q1:TPOT是什麼,為什麼用它來衡量AI模型的速度?

A:TPOT是"每輸出一個詞元所需的時間"(Time Per Output Token),單位是毫秒。AI語言模型回答問題時是一個詞一個詞地生成的,TPOT反映的就是每生成一個詞要花多少時間。這個指標在實時對話和自動化流程中很關鍵,因為用戶感知到的響應速度很大程度上取決於每個詞的生成速度。研究選用TPOT而非總響應時間,是因為它在不同長度的回答之間具有更好的可比性。

Q2:λ參數具體是怎麼確定的,普通企業能自己調嗎?

A:λ是系統中控制"速度與準確率權衡"的核心參數。研究團隊的做法是:企業先設定一個速度預算(比如每詞元不超過20毫秒),然後系統在訓練數據上自動掃描不同的λ值,找到在滿足速度預算的前提下準確率最高的那個λ,這個過程完全自動。確定之後,這個λ直接用於真實部署,不再改變。普通企業只需設定速度預算,其餘由系統自動完成,無需手動調參。

Q3:質量分類器的假陽性率高達51%,這不是很浪費嗎?

A:確實,約51%的"升級"操作是把本來答對了的題目錯誤地送往大模型,屬於不必要的開銷。但研究團隊認為這個代價是可以接受的,因為真正答錯的題目(約98道/輪)被正確識別並得到補救,整體系統準確率因此回升了3.1個百分點,這個收益覆蓋了假陽性帶來的額外延遲(約4.7毫秒)。當然,降低假陽性率是值得繼續優化的方向,比如使用更大的ModernBERT-large模型或增加訓練數據量。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新