美的集團AI研究中心讓AI讀X光片的速度快了8倍，還更準確——這是怎麼做到的？

這項研究來自美的集團AI研究中心（AIRC）與北京交通大學、大連理工大學的聯合團隊，論文於2026年4月10日掛載於預印本平台arXiv，編號為arXiv:2604.09450v1，有興趣深入了解的讀者可通過該編號查詢完整論文。

贊助商廣告

**一個放射科醫生的日常困境**

每天早上，放射科醫生面對的不是一兩張胸片，而是幾十甚至上百張。每一張胸片都需要仔細閱讀、分析、撰寫報告——哪塊肺葉有陰影、心臟輪廓是否正常、有沒有胸腔積液……這些判斷既需要專業訓練，又極度耗費時間和精力。全球每年拍攝的胸部X光片數以億計，而訓練有素的放射科醫生卻是稀缺資源。於是，科學家們開始琢磨：能不能讓人工智慧來幫著"讀片"、"寫報告"？

這個想法聽起來美好，但實際操作中遇到了一個棘手的問題——速度。現有的AI模型大多採用所謂"自回歸"方式生成文字，就好比一個打字員必須一個字一個字地敲，敲完第一個字才能敲第二個字，絕不能跳步。對於一篇動輒幾百字的醫學報告，這種"串行打字"模式會讓等待時間變得漫長。為了解決這個問題，美的集團AI研究中心的研究團隊提出了一套名為ECHO的新方案，並把它的生成速度提升到了原來的8倍，同時在臨床準確率上還大幅超越了以往最好的方法。

**一、為什麼"一個字一個字寫"是個大問題**

要理解ECHO的價值，先得弄清楚AI寫文字的兩種基本方式。

傳統的自回歸模型，就像一個人在黑板上寫句子：必須先寫"肺部"，再寫"未見"，再寫"明顯"，再寫"異常"——每寫一個詞，都要回頭看看前面寫了什麼，再決定下一個詞。這種方式邏輯嚴密、前後連貫，但速度受限，因為每個詞的生成都依賴前一個詞的完成。

另一種方式叫"擴散模型"生成，可以粗略地理解為"同時塗改多個格子"。想像一塊白板上有一排空格，擴散模型不是從左到右逐格填寫，而是先在所有格子裡隨機塗鴉（製造噪聲），然後一步步把噪聲擦掉、還原出正確的文字。由於多個格子可以同時被處理，速度理論上快得多。

贊助商廣告

然而，擴散模型有個內在缺陷，研究團隊稱之為"均值場偏差"。這個名字聽起來複雜，背後的道理其實很直白：當擴散模型同時預測多個詞語時，它處理每個格子的方式是相互獨立的——它不知道隔壁格子會填什麼。於是，當它同時填寫"左肺"和後面的詞時，兩者之間的搭配可能毫無邏輯，就像兩個人同時在同一張紙上隨機填字，互不溝通，結果拼在一起讀起來驢唇不對馬嘴。

為了彌補這個缺陷，現有的擴散模型通常需要多次反覆"去噪"——先粗略填出大概，再仔細修正，再精細調整……經過多輪疊代才能得到通順的文字。這雖然比純自回歸快一些，但仍然不夠快。

研究團隊的核心追問是：能不能只"去噪"一次，就直接得到高質量的報告？

**二、關鍵障礙：一步到位為何難**

答案並不是簡單地"讓模型一步完成所有預測"。當模型被強制只走一步、同時填寫所有格子時，均值場偏差會達到最嚴重的程度——因為沒有任何"已填好的鄰居"作為參考，每個格子完全處於資訊真空中，結果生成的文字往往亂成一鍋粥。

研究團隊在論文中展示了一個直觀的對比。給同一張胸片，讓擴散模型"一步生成"：輸出變成了"no bilateral pleural focal"這樣毫無語義的碎片拼貼，幾個詞根本不構成有意義的描述。而經過他們方法處理後，同一張胸片的一步輸出變成了"right lower lobe opacity"——右下肺葉陰影，語義完整，臨床準確。

這個差距揭示了問題的本質：不是速度和質量天然矛盾，而是缺少一種讓模型在"一步之內"就能感知詞語之間依賴關係的訓練機制。

**三、ECHO的三步修煉之路**

ECHO的訓練分為三個遞進的階段，可以用"打基礎、換身法、提速精煉"來概括。

第一階段是"打基礎"。團隊以一個名為Lingshu-7B的醫療大模型為起點，這個模型已經在大量醫療數據上預訓練過，具備基本的醫學語言能力。研究團隊在此基礎上，用精心整理的胸片報告數據集對它進行繼續訓練，重點是對訓練數據做了一次深度"清洗與標準化"。

贊助商廣告

這個清洗工作至關重要，且背後有一個有趣的醫學實踐觀察。現實中，放射科醫生寫報告有一個習慣：只寫"有問題的地方"，正常的部位通常一筆帶過或根本不提。這就造成了訓練數據里有大量"沉默的正常"——模型從沒見過"左肺正常""右側膈肌正常"這樣的明確陳述，於是它不知道該怎麼處理正常情況。到了真實推理時，這種資訊缺失會導致兩種錯誤：要麼憑空捏造一個不存在的病變（假陽性），要麼對真實存在的異常視而不見（假陰性）。

為此，研究團隊重新格式化了每一份訓練報告，要求對所有預定義的解剖區域都給出明確說明——有問題的寫清楚問題，沒問題的明確寫"未見異常"。這一改動貫穿整個訓練流程，對最終效果的提升影響深遠。經過這第一階段，得到的模型被稱為ECHO-AR，仍然是傳統的逐詞生成方式，但醫學準確性已經很高。

第二階段是"換身法"，即把ECHO-AR從"逐詞打字員"改造成"分組並行寫手"。這個改造過程被稱為"響應非對稱擴散適配"（RAD）。

傳統做法是把整個對話序列（包括圖片的視覺編碼、問題指令、回復文字）全部複製一份，用於構建訓練目標。但胸部X光片的視覺編碼極其龐大——大約需要2870個"視覺詞元"，相當於把一張圖片壓縮成將近三千個特徵片段。如果每次訓練都要複製這些，計算成本會高得難以承受。RAD的聰明之處在於：只複製"回復"部分，圖片和指令部分不重複，通過特殊設計的注意力掩碼讓每一段回復都能"看到"前面所有的視覺資訊和指令，同時避免了重複計算。這個設計把訓練所需的計算量降低了73%，訓練速度提升了3.7倍。

改造後的模型叫ECHO-Base，它已經能夠以"分塊"的方式生成文字——把報告切成若干小塊，每塊內部並行生成，塊與塊之間保持順序關係。這類似於一個寫手把報告分成"胸廓描述""肺野描述""心臟描述"等段落，每段內部同時填寫，但段落之間仍按順序推進。

贊助商廣告

研究團隊還做了一個有趣的實驗，觀察不同訓練數據量對ECHO-Base性能的影響。結果發現，只需要原始數據量的2.2%，模型的生成質量就已經達到甚至超過了ECHO-AR的水平——說明擴散式的"並行寫手"在繼承自回歸"逐詞打字員"的知識方面效率極高。不過，如果要讓每次"分塊"能包含更多詞（即提高每步生成的詞數量，意味著更高的吞吐量），則需要更多的訓練數據來穩定模型的行為。

第三階段是"提速精煉"，即核心技術"直接條件蒸餾"（DCD）的應用。這一步的目標是把ECHO-Base從"每塊需要多步去噪"改造成"每塊只需一步"。

蒸餾這個詞，在機器學習里指的是"讓小模型學大模型的本事"，或者更廣義地說，是"讓快模型學慢模型的質量"。DCD的獨特之處在於：它構建的學習目標本身是"非獨立的"。

具體來說，DCD的工作分兩個交替進行的階段。在第一個階段，讓ECHO-Base（扮演"老師"角色）按照多步去噪的方式生成一份報告，同時記錄下每一步的決策——每次決定填入某個詞時，把當時的概率分布"拍照"保存下來。這些拍下來的照片，按照決策的時間順序拼接成一個整體目標。由於每張照片都是在"已經確定了部分詞"的前提下生成的，它包含了詞與詞之間的依賴資訊——先確定的詞構成上下文，影響了後續詞的概率分布。把這些照片拼在一起，就得到了一個"非獨立的聯合目標"。

在第二個階段，讓ECHO（扮演"學生"角色）用一步就做出同樣的預測，然後用KL散度（一種衡量兩個概率分布差異的數學工具）衡量學生和老師的距離，驅動學生向老師靠攏。

此外，DCD還引入了一個細節設計：在多步去噪過程中，越晚被填入的詞，通常是越難預測、詞間依賴越強的詞。DCD給這些"難詞"分配了更高的學習權重，讓學生在訓練時把更多注意力放在真正困難的地方。

研究團隊還發現了另一個棘手問題：模型在生成時有時會陷入"重複循環"——不停地重複同樣的詞，無法結束。追查原因，發現ECHO-Base在預測"段落結束符"（``）時，信心很低、分布很混亂。塊越大，這個問題越嚴重。為此，在蒸餾訓練中額外對``位置施加一個單獨的交叉熵損失，強迫模型對結束符建立清晰、自信的預測。這個看似小小的修補，對生成穩定性有顯著的改善作用。

贊助商廣告

**四、更聰明的推理設計：融合緩存**

除了訓練方面的創新，研究團隊還對推理（即實際生成報告的過程）做了一項工程優化，叫"融合塊KV緩存"。

在分塊生成的框架下，每生成完一塊文字，系統需要把這塊文字的"鍵值狀態"（可以理解為對這段文字的記憶摘要）存入緩存，供後續塊參考。傳統做法是：生成完一塊後，專門再做一次前向計算來更新緩存，然後再開始下一塊的生成。這意味著每塊需要兩次計算：一次生成，一次緩存更新。

融合塊KV緩存的思路是：把"上一塊的緩存更新"和"當前塊的生成"合併成一次計算。模型在處理當前塊時，同時完成對上一塊的記憶摘要，而不需要額外的單獨操作。論文中有嚴格的數學證明，這種融合不會增加任何額外的計算量，卻把每塊需要的前向計算次數從兩次降到了一次，直接減少了推理延遲。

**五、實驗結果：數字背後的意義**

研究團隊在三個公開的胸片報告數據集上進行了評測，分別是MIMIC-CXR、CheXpert-Plus和ReXGradient，同時覆蓋中英文報告。評測維度涵蓋語言質量（ROUGE-L、CIDEr——衡量生成文字和參考報告的詞彙重疊程度）、臨床準確性（RaTEScore、SemScore——衡量識別出來的病變是否正確）以及生成穩定性（困惑度PPL——衡量生成文字是否通順流暢）。速度方面則用"每次前向計算生成的詞數"（TPF）和"每秒生成的詞數"（TPS）來衡量。

與最好的自回歸醫療模型相比，ECHO在RaTEScore上提升了64.33%，在SemScore上提升了60.58%，同時推理速度達到了8倍的提升。即便與體量遠大的MedGemma-27B（一個擁有270億參數的大模型）相比，ECHO在所有臨床指標上仍保持了17%到40%的領先優勢。

與同樣採用擴散方式的競爭方法相比，ECHO的優勢同樣明顯。在塊大小為8（即每塊同時生成8個詞，代表最高吞吐量）的設置下，ECHO相比ECHO-Base的質量損失僅為2%到5%，而獲得了8倍的速度提升。相比之下，名為T3D的競爭方法雖然質量損失接近，卻只實現了2倍的加速；名為dParallel的方法在4.4倍加速時，臨床指標下滑了18%到32%。這些對比說明，DCD在"質量與速度的權衡"上實現了目前同類方法中最好的平衡點。

贊助商廣告

在消融實驗（即逐個去掉某個設計要素，觀察對結果的影響）中，研究團隊驗證了每個組件的獨立貢獻。去掉"步驟加權"設計，PPL從21.07升高到23.72，說明讓模型更關注"難預測的詞"確實有效。在加入``專項監督之後，ROUGE-L在CheXpert-Plus上從52.44跳升到56.14，CIDEr在MIMIC-CXR上從3.65升到4.05，PPL降至18.83——是所有設置中最低的，證明解決結束符預測問題對整體穩定性至關重要。將前向KL替換為反向KL（一種傾向於"押寶單一答案"的損失函數），反而導致性能下降，原因在於醫學報告需要模型覆蓋所有可能的病變，而不是只關注最可能的那一個，前向KL保留了老師分布的完整形態，更適合這個任務。

數據標準化對模型的影響也被單獨驗證。在未做標準化的原始報告上訓練時，ECHO在CheXpert-Plus上的ROUGE-L從56.14驟降至18.79，SemScore從49.57降至27.53。更值得注意的是，這種損失在三個訓練階段中逐級放大——原始數據的"模糊監督"在自回歸階段已經造成傷害，到了擴散適配階段進一步加劇，到了蒸餾階段達到最嚴重程度。這意味著數據質量的問題會在複雜的訓練流程中被不斷"放大"，而非抵消。

**六、說到底，這項研究意味著什麼**

歸根結底，ECHO做的事情可以用一句話概括：它讓AI在讀懂胸片、寫出準確報告的同時，還能做到"一口氣"完成，而不是"字斟句酌地慢慢寫"。這對臨床場景的意義在於，醫院系統未來可以更快速地處理大批量胸片，幫助放射科醫生把精力集中在真正需要人類判斷的複雜病例上，而非在重複性報告上消耗大量時間。

當然，研究團隊也坦誠地在論文的案例展示中顯示了ECHO仍存在的小問題——在某些情況下，尤其是塊大小較大時，生成的報告裡偶爾會出現輕微的詞語重複或拼寫變形（如"atasis"代替"atelectasis"）。研究團隊認為這是當前階段可以接受的代價，但也暗示後續還有改進空間。

贊助商廣告

這項研究更深遠的意義或許在於方法論層面：它證明了"一步離散擴散蒸餾"這個方向的可行性，給整個擴散語言模型的加速研究開闢了一條新路。團隊聲稱這是目前已知的第一個成功用於離散擴散語言模型的一步蒸餾框架。無論這一結論最終如何被後續研究驗證和超越，單就已經取得的8倍速度提升和顯著的臨床準確性改善而言，已經是一個值得認真對待的研究成果。

有興趣進一步了解技術細節的讀者，可以通過arXiv編號2604.09450查閱完整論文，項目主頁地址為echo-midea-airc.github.io。

---

Q&A

Q1：ECHO模型在臨床上能直接使用嗎？

A：目前ECHO還處於研究階段，在公開數據集上進行了評測驗證，尚未經過臨床認證和大規模部署。不過其底層技術路線已經具備實際應用的潛力，未來若經過嚴格的醫療器械審批流程，有望成為輔助放射科醫生的自動化報告工具。

Q2：直接條件蒸餾（DCD）和普通的模型蒸餾有什麼區別？

A：普通蒸餾讓"學生"模型模仿"老師"在同等輸入下的逐詞預測，但老師的每個詞預測仍然是相互獨立的。DCD的不同之處在於，它把老師在多步去噪過程中積累的"詞間依賴資訊"拼接成一個整體目標，讓學生學到的不只是單個詞的概率，而是詞語搭配的整體模式，這是它能在一步內生成連貫文字的關鍵。

Q3：響應非對稱擴散適配（RAD）為什麼能大幅降低訓練成本？

A：胸片的視覺編碼非常龐大，大約包含2870個特徵片段。傳統的擴散模型轉換方法需要在訓練中把整個輸入序列（包括這些視覺特徵）完整複製，計算量成倍增加。RAD只複製文字回復部分，視覺特徵和指令只保留一份，通過特殊的注意力掩碼確保每個回復片段都能訪問完整的圖像資訊，從而在不損失資訊的前提下減少了73%的計算量。