漢陽大學與韓國外國語大學聯手破解醫療數據困局：讓AI自己學會「越看越仔細」

這項由韓國漢陽大學與韓國外國語大學聯合開展的研究，於2026年6月以預印本形式發布（論文編號：arXiv:2606.19827），目前正在等待正式會議或期刊收錄。對完整技術細節感興趣的讀者，可通過該編號在arXiv平台查閱原文。

贊助商廣告

醫院裡每天都在產生海量的表格數據——患者年齡、血壓讀數、實驗室檢驗結果、病史評分……這些數據被整整齊齊地排列在電子健康檔案里，卻像一座巨大的沉睡寶庫，很少被充分挖掘。原因並不難理解：要讓AI從這些數據中真正學到有用的知識，通常需要醫生逐一標註每條記錄——"這位患者有肝臟問題"、"那位患者心衰風險高"——但醫生的時間極其寶貴，標註工作既昂貴又耗時。

研究團隊從這個痛點出發，探索了一種讓AI在沒有人工標註的情況下，依然能從醫療表格數據中自主學習的方法。他們的核心創新，可以用一個非常直觀的比喻來理解：教一個孩子認識事物，你不會一開始就要求他分辨"米其林三星餐廳的紅酒與二星餐廳的區別"，而是先讓他分清"甜的還是鹹的"，等他掌握了基礎，再逐步引導他識別更細微的差異。這個"從粗到細、循序漸進"的思路，就是這篇論文的靈魂所在，研究團隊將整套方法命名為"自適應分箱"（Adaptive Binning）。

一、為什麼表格數據讓AI如此頭疼

在理解這項研究的創新之前，有必要先搞清楚一個問題：AI處理圖片、文字都已經相當成熟，為什麼一遇到醫療表格數據就犯難？

圖片有像素的空間規律，文字有語法和語義的序列結構，但表格數據兩樣都沒有。一張表格里，第一列可能是患者性別（男/女/其他），第二列是年齡（具體數字），第三列是某項血液指標（浮點數），第四列是是否有某種病史（是/否）。這些數字和類別混在一起，彼此之間的關係複雜且非線性，就像一個菜單里同時出現了食材重量、烹飪時間、口味評分和菜系分類，AI很難找到統一的"語言"來理解它們。

贊助商廣告

正因如此，在沒有標註數據的情況下，傳統的深度學習方法在表格數據上的表現往往不如XGBoost、CatBoost這類基於決策樹的經典算法。這些決策樹算法天生擅長處理混合類型數據，會自動對數據進行"切分"——比如把年齡分成"小於45歲"和"大於等於45歲"兩組，再在每組內繼續切分，最終形成一棵判斷樹。

於是，有研究者萌生了一個聰明的想法：既然深度學習在表格上打不過決策樹，那能不能讓深度學習也學會決策樹那種"切分"的思維方式？具體來說，就是把連續的數值特徵（比如年齡）預先分成若干個"箱子"（比如0-20歲、20-40歲、40-60歲……），然後讓AI預測每個數據點落在哪個箱子裡。這種方法叫做"分箱預訓練任務"，在無標註學習領域已經被驗證是有效的——這正是這篇論文所改進的基礎方法（由韓國延世大學等機構2024年提出，發表於國際機器學習大會ICML）。

然而，已有的分箱方法存在一個根本性的局限：所有特徵從頭到尾都用同樣數量的箱子，箱子的邊界在訓練開始前就固定死了，整個過程中從不調整。這就好比教學生認識音樂，無論是學鼓還是學鋼琴，無論是初學者還是進階者，永遠只給他們同一套粗粒度的樂理入門知識，而不根據每個學生的進展來調整教學深度。這種"一刀切"的方式，自然會留下大量可以改進的空間。

二、從"一套固定菜譜"到"因材施教"：自適應分箱的核心邏輯

漢陽大學與韓國外國語大學的研究團隊設計了一套精妙的機制，讓AI在學習過程中能夠動態調整每個特徵的"分箱精細度"。整套方法由三個緊密配合的模組構成，分別回答了三個關鍵問題：何時細化、在哪裡細化、如何在細化的同時保持正確的學習方向。

**一、何時細化——特徵級高原觸發機制（FPT）**

每一位有經驗的教練都知道，運動員的訓練不能一直停留在同一難度上，但也不能毫無根據地隨意加難。最好的時機，是當運動員在當前難度上已經達到瓶頸、進步停滯時，再推進到下一個層次。

贊助商廣告

研究團隊把這個邏輯直接搬進了AI的訓練過程。在整個預訓練階段，AI會同時學習多個數值特徵，比如患者年齡、血壓、膽固醇水平等。每個特徵的學習進度是不同的——有些特徵的規律簡單，AI很快就能掌握；有些特徵的規律複雜，需要更長時間。系統會獨立監控每一個特徵的學習損失（一個衡量AI預測有多不準的指標），當某個特徵的損失在連續若干輪訓練中不再下降、陷入"高原期"，系統就會判定："好了，這個特徵在當前粗粒度下已經學到頭了，是時候把它的箱子分得更細，給AI一個更難的挑戰。"

這種按需觸發、特徵各自為政的機制，避免了全局統一加難帶來的效率損耗——那些還在快速進步的特徵不會被打擾，而已經停滯的特徵會得到針對性的推進。研究中將這個等待周期（高原觸發所需的輪數）設為5輪，通過大量實驗驗證這是一個穩健的默認值。

**二、在哪裡細化——基於分散度的資訊增益分裂機制（DIGS）**

當某個特徵被判定需要細化時，新的分界線應該畫在哪裡？這是第二個需要回答的問題。

最簡單的方法是直接用統計學中的方差減少原則：把一個箱子從中間劈開，使得兩個子箱內部的數值差異儘可能小（即降低方差）。這和決策樹的分裂邏輯如出一轍，直覺上合理，但有一個盲點：它完全無視了AI當前已經學到的"內心世界"——那些被AI處理後形成的高維表示向量。

研究團隊在這裡加入了一個獨到的設計。他們不僅考慮數值空間中的方差減少，還同時考慮AI內部表示空間中的"分散度減少"。簡單來說，就是：候選的分割線不僅要讓兩組數據在原始數值上更均勻，還要讓AI對兩組數據的"理解"在語義空間中更加聚焦、內部更加一致。

這就像在圖書館重新分類書籍，不僅要按照出版年份（原始數值）來劃分，還要參考讀者實際借閱行為形成的隱含相關性（表示空間）。只有同時滿足兩個維度的分割，才能真正提升分類的質量。最終，系統會計算每個候選分割的綜合得分——數值方差減少量乘以表示分散度減少量——只有當得分超過預設閾值時，這個分割才會真正執行。研究將這個閾值設為萬分之一，並通過系統性實驗證明這個選擇相當穩健。

贊助商廣告

**三、如何細化——異質感知的序數損失函數（HORD）**

前兩個模組解決了"何時"和"在哪裡"的問題，第三個模組則解決"用什麼方式學習"的問題。

醫療表格中的特徵大致分為兩類：一類是純類別型特徵，比如性別、民族，這些類別之間沒有大小順序之分，"男"不比"女"大，也不比"女"小；另一類是數值型特徵，比如年齡、血壓，這些特徵被分成箱子後，箱子之間是有順序的——第1箱代表最小值範圍，第3箱代表中間值範圍，第5箱代表最大值範圍，預測錯一格比錯五格要輕得多。

現有的分箱方法對兩類特徵一視同仁，都用均方誤差（方差）來衡量預測的好壞，這對數值特徵來說是個合理的近似，但本質上忽略了箱子之間的有序關係。研究團隊為此設計了一套新的損失函數，對類別特徵沿用經典的交叉熵損失（即讓AI準確預測屬於哪個類別），而對數值特徵則引入了"軟序數標籤"——當真實答案是第3箱時，不是硬性要求AI只能預測第3箱，而是用一個以第3箱為中心、向兩側衰減的分布作為目標，預測成第2箱或第4箱扣的分比預測成第1箱或第5箱少得多。此外，這個損失函數還加入了對預測分布的均值和方差的約束，防止AI做出過於模糊或過於極端的預測。

最終，整個預訓練的損失函數將類別特徵的損失和數值特徵的損失按照各自的特徵數量加權平均，無論一張表格里類別特徵多還是數值特徵多，兩類特徵都能獲得公平的監督信號。

三、在什麼數據上驗證，驗證了什麼

為了讓實驗結果有說服力，研究團隊專門整理了一個標準化的醫療表格數據集基準，涵蓋了來自不同臨床場景的八個公開數據集。這八個數據集覆蓋了幾乎所有常見的預測任務類型，包括兩個二分類任務（判斷患者是否患有肝病或心力衰竭），兩個無序多分類任務（判斷心臟超聲圖像屬於哪種類別、判斷癲癇發作類型），兩個有序多分類任務（預測肥胖程度等級、預測母嬰健康風險等級），以及兩個回歸任務（預測帕金森病震顫的嚴重程度評分、預測體脂率）。

贊助商廣告

這些數據集的規模從252條記錄到11500條不等，特徵數從6個到178個，有些數據集存在缺失值，有些則沒有。這種多樣性確保了實驗結論不是針對某一種特殊情況的偶髮結果。

研究團隊為所有方法設定了統一的預訓練協議：在沒有任何標籤的情況下，模型在這些數據上訓練1000輪，期間完全不使用任何下游任務的標籤資訊。預訓練完成後，再用兩種方式評估學到的表示質量。

第一種方式是"線性探針"——凍結預訓練好的編碼器，只在頂部訓練一個極簡的線性分類器或回歸器，訓練100輪。如果預訓練學到了好的表示，這個線性探針的效果就好；如果預訓練幾乎什麼都沒學到，線性探針就會很差。這種評估方式對表示質量的要求極為苛刻，因為線性層本身幾乎沒有任何擬合能力。

第二種方式是"微調"——使用預訓練權重初始化模型，然後在有標籤的數據上進行端到端的訓練。研究團隊測試了多種下游模型架構，包括標準MLP（多層感知機）、ResNet（殘差網路）、TabNet（專為表格設計的注意力模型）、FT-Transformer（基於Transformer的表格模型）和T2G-Former（基於關係圖的表格Transformer）。

四、數字背後的故事：方法真的有效嗎

在線性探針評估中，研究團隊對比了十種不同的方法組合，包括原始值重建、掩碼預測、固定分箱重建，以及是否加入隨機遮擋或固定值替換等噪聲擴增手段。評估指標被匯總為"平均排名"——每種方法在每個數據集上的排名取均值，排名越低表示綜合表現越好。

結果相當清晰：自適應分箱在三種遮擋配置（無遮擋、固定值遮擋、隨機值遮擋）下分別獲得了3.56、2.50和1.50的平均排名，而其他所有方法的最佳成績是固定分箱加隨機遮擋的6.31分。也就是說，即便自適應分箱在完全不加噪聲的情況下運行，也比固定分箱加了最優噪聲的版本強得多。研究團隊特別指出，這說明自適應分箱帶來的提升主要來自訓練自適應的特徵級分箱機制本身，而不是噪聲擴增帶來的正則化效果——後者只是錦上添花。

贊助商廣告

在具體數據集上，這種改進也體現得相當突出。以心力衰竭數據集的AUC（分類面積指標，越高越好）為例，固定分箱加最優遮擋得到90.11%，而自適應分箱不加遮擋就達到93.25%，加了隨機遮擋後更是飆升至96.88%，提升幅度相當顯著。在帕金森病震顫預測（回歸任務）上，固定分箱的均方根誤差最好約為15.71，而自適應分箱不加遮擋就已降至14.27，加了隨機遮擋後更進一步降至11.32，幾乎減少了近三分之一的誤差。

消融實驗（即逐個拆除方法的某一模組來驗證其貢獻）的結果同樣清晰地展示了三個模組各自的價值。移除特徵級自適應機制（讓所有特徵同步細化）會導致多個數據集上性能下降。移除高原觸發機制（改為固定間隔觸發分裂）帶來更大的損失。移除表示空間感知分裂（只用方差減少判斷分裂點）損失最為顯著。移除序數感知損失函數的損失同樣不可忽視——尤其是在心力衰竭數據集上，雖然訓練過程中幾乎沒有觸發任何分裂（特徵規律相對簡單），但僅僅換上更合適的損失函數，AUC就從88.41%提升到了96.88%，可見序數感知監督本身就具有獨立的價值。

超參數敏感性實驗對研究的實用價值同樣重要。研究團隊系統地測試了損失函數中三個權重係數以及高原觸發的等待輪數和分裂閾值在不同取值下的表現，結果顯示：選擇默認配置時，各數據集上的統計顯著性最強；偏離默認值越遠，性能下降越明顯。這意味著研究者不需要為每個新數據集重新調參，一套默認配置就能提供可靠的起點，降低了在臨床部署中因過度調參而引入風險的可能性。

在微調評估中，自適應分箱的預訓練初始化在大多數模型架構和數據集的組合上，都能達到與固定分箱持平或更優的性能。特別是對於TabNet和FT-Transformer這類更具表達力的架構，自適應分箱的預訓練帶來的提升尤為明顯。以FT-Transformer在心力衰竭數據集上的結果為例，無預訓練的純監督訓練AUC為89.43%，固定分箱預訓練初始化為92.47%，而自適應分箱預訓練初始化達到了93.43%，逐級提升的趨勢相當穩定。這表明自適應分箱學到的表示是真正可轉移的歸納偏置，而不只是在線性探針這種特殊評估條件下的表面優勢。

贊助商廣告

五、這項研究的意義與邊界

歸根結底，這項研究解決的核心問題是：如何讓AI從無標註的醫療表格數據中學到更好的表示，從而減少對昂貴人工標註的依賴。

醫療場景對這一問題的需求尤為迫切。一個關於肝病風險的預測模型、一個關於心衰早期篩查的工具，都需要大量經過醫生確認的標註數據才能訓練，而這在許多醫療機構中是難以為繼的。自適應分箱提供了一個可行路徑：先用大量無標註的常規檢查數據對模型進行預訓練，讓它學會如何理解不同特徵之間的關係和每個特徵的內部結構，再用少量標註數據微調，就能達到相當不錯的效果。

研究團隊自己也坦承了這項工作的局限性：目前的實驗都是在同一個數據集上進行預訓練和下游任務評估，也就是說，數據沒有跨機構、跨數據集的泛化驗證；此外，評估的下游任務種類相對有限。未來的研究方向指向跨數據集的預訓練與遷移適應，以及更廣泛的臨床終點評估，這些都是將這項技術真正推向實際應用所必須解決的問題。

另一方面，這項研究還為領域提供了一個標準化的醫療表格SSL基準——八個數據集、統一的評估協議、公開的代碼實現，這對一個過去缺乏可比較實驗標準的研究方向來說，本身就是一項重要貢獻。

說到底，這篇論文做的事情，就是把"按需教學"這個樸素的教育直覺，用嚴謹的數學和工程語言實現在了AI的自學過程里。它告訴AI：不同的知識點應該分開學，學到瓶頸了再加難，加難的時候要聰明地選位置，而且學習不同類型的知識要用不同的方式評分。這些聽起來理所當然的原則，落實到代碼層面並不簡單，但帶來的效果也是紮實的。

對於那些希望用深度學習處理醫療數據卻苦於標註成本的研究者和工程師來說，這篇工作提供了一套值得嘗試的工具——不需要針對每個數據集反覆調參，一套默認配置就能讓AI在沒有監督的情況下，學會越看越仔細。有興趣深入了解全部技術細節的讀者，可以通過arXiv編號2606.19827查閱完整論文，也可以訪問論文中提到的開源代碼庫獲取可復現的實驗實現。

贊助商廣告

Q&A

Q1：自適應分箱方法和普通分箱方法相比，主要區別是什麼？

A：普通分箱方法在訓練開始前就固定好箱子數量和邊界，整個訓練過程中從不改變，所有特徵用同樣的分箱粒度。自適應分箱則會監控每個特徵的學習進度，當某個特徵陷入停滯時才觸發細化，而且細化位置由AI當前學到的內部表示共同決定，同時對數值型和類別型特徵分別採用不同的損失函數。

Q2：自適應分箱需要標註數據嗎？

A：預訓練階段完全不需要標註數據，AI只通過預測每個特徵落在哪個箱子裡來自我學習。只有在後續的微調或線性探針評估階段，才會用到少量有標註的數據。這正是這套方法在標註成本高昂的醫療場景中具有實際價值的原因。

Q3：自適應分箱方法在哪些數據集上做了驗證？

A：研究團隊在八個公開醫療表格數據集上進行了驗證，涵蓋肝病患者數據集、心力衰竭臨床記錄、心臟圖譜、癲癇發作識別、肥胖程度估計、母嬰健康風險、帕金森遙測監控和體脂預測，任務類型包括二分類、無序多分類、有序多分類和回歸，數據規模從252條到11500條不等。