新南威爾斯大學與谷歌聯手：一塊小小的血糖傳感器，如何成為預測糖尿病的「命運水晶球」？

這項由新南威爾斯大學與谷歌研究院聯合開展的研究，於2026年5月1日以預印本形式發布，論文編號為arXiv:2605.00933，有興趣深入了解技術細節的讀者可通過該編號在arXiv平台查閱完整原文。

贊助商廣告

**一場關於"看透血糖"的偵探故事**

每天，全球有數以億計的人戴著一種小小的傳感器貼片生活——連續血糖監測儀（CGM）。這個像硬幣大小的設備每五分鐘就會記錄一次你皮膚下的血糖濃度，24小時不間斷，織出一張密密麻麻的血糖波動地圖。對普通人而言，這張地圖也許只是一條起伏的折線，但對醫學研究者而言，它藏著的秘密遠不止於此。

糖尿病新南威爾斯大學與谷歌聯手一塊小小的血糖傳感器如何成為預測糖尿病的命運水晶球並不是從天而降的。在被正式確診之前，人體往往已經在兩條截然不同的"岔路"上悄悄走偏：一條叫做**胰島素抵抗**，另一條叫做**β細胞功能障礙**。前者的意思是，你的身體分泌了足夠的胰島素，但細胞就是不"聽話"，拒絕接受它的指令，血糖於是居高不下——類似於你拼命打電話，對方就是不接。後者則是胰島細胞本身"偷懶"了，分泌的胰島素越來越少，就像工廠產能下降，供貨跟不上需求。這兩種機制雖然結果相似（血糖升高），但根源完全不同，治療方案和生活干預方向也大相徑庭。

問題在於，這兩種狀態產生的血糖曲線往往高度相似，就像兩個不同原因引發的發燒，體溫計的讀數幾乎一模一樣。傳統方法想區分它們，需要做一種叫做"口服葡萄糖耐量試驗（OGTT）"的檢查：在醫院裡喝下一大杯糖水，然後每隔一段時間抽一管靜脈血。這個過程耗時漫長、有創傷、成本高昂，根本無法在大規模人群中推廣。

那麼，穿戴在手臂上的那塊小小傳感器，能不能替代這根刺入靜脈的針？這正是這項研究試圖回答的核心問題。

**一、研究面臨的兩個死結**

研究團隊一開始就面對兩個相互糾纏的麻煩。

第一個麻煩可以用一個日常比喻來理解：假設你要根據一個人的行為來判斷他的內心狀態，但這個人的行為會因為場合不同而完全變樣——在家裡溫文爾雅，在公司咄咄逼人，在朋友面前嘻嘻哈哈。同樣一個內心狀態，表現出來的"信號"卻五花八門。血糖數據也是如此。同一個人的胰島素抵抗狀態，在醫院做的靜脈血檢測是一種"樣子"，戴著傳感器在家裡自由生活時測出來的是另一種"樣子"，用統計學方法將血糖分布壓縮成一張密度圖（這種方法叫做Glucodensity，即血糖密度圖新南威爾斯大學與谷歌聯手一塊小小的血糖傳感器如何成為預測糖尿病的命運水晶球）又是第三種"樣子"。每一種"樣子"都捕捉了真相的一個側面，但單獨依賴任何一種，都難以在不同場合下穩定地發揮作用。

贊助商廣告

第二個麻煩是穩定性問題。現有的各種方法各有各的擅長場景：某種方法在醫院環境下表現優秀，到了居家場景就崩了；另一種方法在某類人群上效果不錯，換一批人就失靈了。這就像一位偵探，破某類案子很厲害，換個案子類型就束手無策。在醫療場景中，這種不穩定性是不能接受的——你不能用一種只在特定條件下好使的工具來做健康決策。

研究團隊認為，這兩個麻煩其實指向同一個根本原因：現有方法都太"表面化"了，它們學到的是某種特定信號的表面特徵，而不是背後更深層的、跨越各種"樣子"都能保持穩定的生理規律。破解之道，是找到一種能夠**超越任何單一視角、抓住更高層次規律**的表徵方式。

**二、一套全新的"抽象偵探"框架**

研究團隊提出的解決方案叫做CGM-JEPA 新南威爾斯大學與谷歌聯手一塊小小的血糖傳感器如何成為預測糖尿病的命運水晶球，以及它的加強版X-CGM-JEPA。名字里的JEPA代表"聯合嵌入預測架構"（Joint Embedding Predictive Architecture），這個概念最早被用於電腦視覺領域，現在被研究團隊首次引入到血糖時間序列的分析中。

要理解JEPA的核心思想，可以用學習認路來打比方。有兩種方式可以記住一條回家的路：第一種是死記硬背每一個路口的樣子——這棵樹、那塊招牌、某個路燈的顏色。第二種是理解這條路的空間結構——哪裡是主幹道，哪裡是小巷，大概的方向感是什麼。第一種方式在熟悉的場景下很管用，但一旦路燈換了、樹被砍了，或者你換了個起點，立刻迷路。第二種方式掌握的是"更高層次的結構"，換了環境照樣能找到家。

CGM-JEPA選擇了第二種方式。它的訓練過程是這樣的：把一天24小時的血糖數據切成24個小塊（每塊對應一個小時），然後隨機遮住其中一些小塊，讓模型用剩餘可見的部分去**預測被遮住部分在"抽象空間"里應該是什麼樣子**。關鍵在於，它預測的不是被遮住那段血糖數值的具體數字，而是這段數據在一個高維抽象空間中的"語義坐標"。這個區別非常重要：如果你讓模型猜具體數值，它會拼命記住各種表面特徵；如果你讓它猜"抽象坐標"，它就被迫去理解更深層的規律。

贊助商廣告

為了防止這個抽象坐標的"參考系"隨著訓練崩塌（這是同類方法的常見問題，整個空間縮成一個點，所有東西都"預測"成同一個答案），模型採用了一種叫做**指數移動平均新南威爾斯大學與谷歌聯手一塊小小的血糖傳感器如何成為預測糖尿病的命運水晶球 **（EMA）的機制：專門維護一個"目標編碼器"，它的參數不直接訓練，而是慢慢跟隨"主編碼器"的變化，就像一位穩重的老師傅，不會因為學徒的一時冒進而輕易改變自己的判斷。

X-CGM-JEPA則在這個基礎上加了一個"第二視角"。除了從時間序列角度預測被遮住的血糖片段，它還同時學習用血糖時間序列來預測對應的"血糖密度圖"（Glucodensity）——也就是把這一天的血糖值、血糖變化速率和變化加速度的聯合分布，壓縮成一張三通道的熱力圖。這兩種視角捕捉的資訊是互補的：時間序列擅長捕捉局部的動態變化，密度圖則能看到整天血糖的全局分布結構。當時間序列看不清楚的地方，密度圖能補上資訊；當兩者都看到同樣的規律時，資訊得到強化。研究團隊把這個設計理念稱為"加法式抽象新南威爾斯大學與谷歌聯手一塊小小的血糖傳感器如何成為預測糖尿病的命運水晶球 "：一個視角的盲區，由另一個視角來填補。

**三、數據從哪兒來？怎麼訓練？**

為了訓練這套模型，研究團隊整合了兩個來源的數據。第一個是斯坦福大學CGM研究中的22名受試者的居家連續血糖數據，第二個是西班牙研究者Colás團隊發布的206名受試者數據集。兩個來源合併後，形成了約413個"受試者-天"的訓練數據，換算成每五分鐘一個點的密度，大約是389,000行血糖讀數。這些數據全部是**無標籤**的——也就是說，模型在學習過程中完全不知道這些人是否有胰島素抵抗或β細胞問題，它只是在大量血糖曲線中學習"血糖規律"本身。

對於評估效果，研究團隊使用了斯坦福大學一項臨床研究的數據，分為兩個隊列。"初始隊列"有27名受試者，他們有通過靜脈抽血OGTT得到的金標準代謝標籤，但沒有居家CGM數據。"驗證隊列"有17名受試者，他們同時擁有靜脈血數據和多種方式的CGM數據（包括在醫院戴的CGM，以及回家後兩次居家CGM）。兩個隊列的受試者完全沒有重疊，驗證隊列的受試者在預訓練階段也被完全排除在外，確保評估的嚴格性。

贊助商廣告

整個評估採用了非常嚴格的統計方案：在每種"場景"下，都進行20輪、每輪2折的交叉驗證，也就是總共40次獨立評估，然後取平均值。這樣做的目的是消除偶然性——不是某一次運氣好，而是在反覆折騰之後仍然穩定領先。

**四、三種戰場，全面檢驗**

研究團隊設定了三種不同的"實戰場景"來檢驗模型性能，每一種都對應現實中真實可能發生的部署情況。

第一種叫做"居家CGM場景"：用驗證隊列受試者的居家CGM數據來訓練分類器，也用同樣類型的數據來測試。這最接近未來大規模推廣時的真實場景——你在家裡戴著傳感器，系統直接給你分析結果。

第二種叫做"靜脈血轉CGM遷移場景"：分類器用靜脈血檢測數據訓練（因為這是有金標準標籤的數據來源），但測試時用的是居家CGM數據。這模擬了一種很現實的困境：有準確標籤的歷史數據來自醫院，但未來要推廣時只有消費級傳感器數據，兩者存在"模態差距"。

第三種叫做"隊列泛化場景"：分類器在初始隊列（27人，僅有靜脈血數據）上訓練，在驗證隊列（17人，也用靜脈血數據）上測試。這檢驗的是模型面對"換一批人"時的泛化能力。

在每種場景下，都評估兩個臨床指標：胰島素抵抗（IR）和β細胞功能障礙，共形成六個"戰場"。對比的基準方法包括：經典降維方法PCA、專門針對血糖數據設計的GluFormer、通用時間序列對比學習方法TS2Vec，以及兩個大型時間序列基礎模型MOMENT（小版和大版）和Mantis。

**五、戰場上的成績單**

結果相當清晰地呈現出了一個規律，可以用一個競技場比賽的類比來理解：在六個不同項目的比賽中，沒有任何一個"基準選手"能在超過三個項目里保持前三名，但CGM-JEPA家族卻幾乎在所有項目里都待在前兩名的位置。

具體來說，在"居家CGM"場景中，X-CGM-JEPA預測β細胞功能障礙的AUROC（這是衡量分類器整體辨別能力的指標，滿分是1，0.5相當於隨機猜測）達到了0.946，比最強基準方法PCA高出約2.1個百分點。在F1分數（衡量精準率和召回率綜合平衡的指標）上，只有JEPA家族的兩個版本超過了0.80大關，而最強基準PCA僅為0.760，相差整整5個百分點——這個差距在實際篩查部署中意味著更少的漏診和誤診。對於胰島素抵抗這個指標，GluFormer在這個場景下是唯一一次超過JEPA家族的情況，AUROC為0.889，而X-CGM-JEPA為0.857，但有趣的是X-CGM-JEPA的F1（0.754）和PR-AUC（0.883）反而更高，說明在實際操作中的表現更均衡。

贊助商廣告

在"靜脈血轉CGM遷移"這個最具挑戰性的場景中，JEPA家族的優勢最為突出。對於β細胞功能障礙，X-CGM-JEPA的AUROC達到0.949，而GluFormer只有0.801，MOMENT大版更是僅有0.606，幾近隨機水平。對於胰島素抵抗，更戲劇性的結果是GluFormer在這個場景下AUROC只有0.530，幾乎等於隨機猜測——這說明它在"居家場景"下學到的東西，完全無法遷移到"模態切換"的情境中。JEPA家族在兩個指標上的標準差（衡量穩定性的指標）也是所有方法中最低的，意味著它不僅表現好，而且非常穩定。

在"隊列泛化"場景中，JEPA家族取得了全文中最大的絕對優勢：對於β細胞功能障礙，X-CGM-JEPA的AUROC為0.855，而最強基準PCA只有0.790，差距高達6.5個百分點。這是一個在醫學研究中相當可觀的提升。與此同時，X-CGM-JEPA在這個場景下的AUROC標準差從CGM-JEPA的0.112驟降到0.064，相當於穩定性提高了43%——這正好印證了"加法式抽象"的設計邏輯：當時間序列數據本身比較稀疏（靜脈血只有大約9個時間點），密度圖視角提供的互補資訊能顯著穩定表徵的質量。

跨全部108個配對比較（3個指標×6個場景×6個基準方法），CGM-JEPA在101/108的情況下勝出，X-CGM-JEPA在103/108的情況下勝出，統計顯著性（Wilcoxon檢驗）p

**六、深入表徵空間：聚類結構的質量**

除了分類性能，研究團隊還對模型學到的"表徵空間"本身做了幾何分析，相當於檢查偵探的"案件檔案室"整理得是否合理——不僅要關注最終破案率，還要看檔案的條理性。

三類無監督指標（輪廓係數、Calinski-Harabasz指數、Davies-Bouldin指數）衡量的是表徵空間中不同類別的樣本是否分布得清晰、緊湊、間距分明。在全部三個隊列-模態組合中，JEPA家族的幾何質量都優於所有基準方法，沒有出現任何例外。

更能說明問題的是"標籤感知聚類一致性"分析：研究團隊對每種方法的表徵空間做了雙簇K均值聚類，然後看聚出來的兩個群體和真實的代謝標籤（有問題/沒問題）是否吻合。結果顯示，在初始隊列的靜脈血數據上，X-CGM-JEPA的調整蘭德指數（ARI，越接近1越好）為0.288，而CGM-JEPA為0.208，PCA為0.225。X-CGM-JEPA比純時間序列版本高出39%，比最強基準高出28%——這意味著，在完全沒有任何標籤資訊的情況下，模型自然形成的分組已經與臨床真相高度吻合。

贊助商廣告

這個分析還揭示了一個值得關注的細節：標籤感知聚類的優勢正好集中在"數據最稀疏"的那個場景（靜脈血，每個受試者只有約9個時間點的真實觀測）。當時間維度的資訊量最少時，密度圖視角的補充作用也最大——這與研究團隊的理論預期完全一致。

**七、血糖曲線的"時間地圖"：判別信號藏在哪裡？**

研究團隊還做了一個很有臨床意義的分析：在OGTT的不同時間段，模型提取的表徵信號對兩種代謝障礙的區分力有多強？

他們把一天的血糖軌跡切成四個時間段（P0到P3，分別對應-10到45分鐘、50到105分鐘、110到165分鐘、170到225分鐘），然後計算每個時間段的表徵對"有病"和"沒病"兩類樣本的區分能力。結果出現了兩種截然不同的模式。對於胰島素抵抗，判別能力在P1（喝糖水後50到105分鐘）達到峰值，P2次之——這與生理學知識高度吻合：胰島素抵抗的問題在於外周組織清除葡萄糖的能力下降，這個問題在葡萄糖攝入後早期就會顯現出來。對於β細胞功能障礙，峰值則出現在P2（110到165分鐘），因為胰島素分泌不足的後果要等到葡萄糖負荷充分之後才會完全暴露出來。

同時，比較CGM-JEPA和X-CGM-JEPA在各時間段的判別能力，可以發現一個耐人尋味的現象：X-CGM-JEPA各時間段的峰值判別能力反而略低於CGM-JEPA（比如胰島素抵抗P1：0.373 vs 0.448），但它的下游分類F1反而更高。這說明X-CGM-JEPA並沒有把所有鑑別資訊集中押注在某一個特定時間窗口，而是把判別信號更均勻地分布在整條時間軸上——這正是密度圖視角的效果：當你知道"整天的血糖分布長什麼樣"時，你就不必非得死盯著某一段時間來做判斷。

**八、公平性：被遺忘的群體獲得更多關注**

研究團隊還做了一個在醫療AI領域經常被忽視的分析：按照受試者的性別、年齡段、體重指數（BMI）和種族，分別計算各個子群體上兩種模型的表現差異。

贊助商廣告

結果呈現出一種清晰的"劫富濟貧"模式。在"靜脈血轉CGM遷移"場景中，原本CGM-JEPA表現最差的子群體，恰恰是X-CGM-JEPA提升最大的地方。亞裔子群體（n=5）在β細胞功能障礙檢測上，CGM-JEPA的AUROC僅為0.739，而X-CGM-JEPA提升至0.792，差了5.2個百分點。同樣在胰島素抵抗檢測上，亞裔子群體從0.669提升至0.723，提升幅度（+5.4個百分點）是所有子群體中最大的。女性子群體在兩個任務上也分別提升了1.6和2.3個百分點。而原本表現就已經接近天花板的子群體（比如高加索裔男性AUROC已達0.985），變化則微乎其微（甚至略有下降，但絕對值仍在0.87以上）。

用這個框架來衡量，兩種族群之間的AUROC差距在β細胞任務上從0.246壓縮到0.184（縮小了25%），在胰島素抵抗任務上從0.084壓縮到0.039（縮小了54%）。跨性別的差距也分別縮小了8%和10%。整體平均AUROC幾乎沒有變化（不到+0.01），這說明X-CGM-JEPA不是通過拉高平均分來刷好看的數字，而是通過改善"最薄弱的那一環"來提升整體均衡性。

這個發現背後的邏輯其實不難理解：不同族群和性別的人，其血糖動態的時序特徵可能有所不同，但血糖的整體分布結構（密度圖所捕捉的那種資訊）在不同群體間可能更為普適。當時序特徵難以區分某些群體時，分布結構視角提供的補充資訊恰好能彌補這個空白。

**九、超參數有多敏感？**

研究團隊還系統地測試了兩個關鍵超參數對結果的影響，結論相當令人放心。

在遮罩比例（即訓練時隨機遮住多少比例的時間段）的測試中，研究團隊嘗試了25%、50%、75%三種設置。CGM-JEPA的平均AUROC在三個設置間的變化不超過0.001，X-CGM-JEPA在三種設置下更是給出了完全相同的平均AUROC（0.805）。這說明一天的血糖數據有足夠的內在冗餘，無論遮住多少，剩下的部分都足以提供有效的訓練信號。

對於X-CGM-JEPA中密度圖損失的權重係數λ（取值範圍0.1到1.0），三個設置下的平均AUROC變化僅為0.0016，而每次運行的隨機波動（標準差約0.043到0.046）比這個差異大了一個數量級。換句話說，用密度圖視角來補充資訊的效果是穩定的，不會因為調權重而大幅變化——這與"兩個視角提供互補而非競爭的資訊"的理論預期一致。

贊助商廣告

**十、有多少標註數據才夠用？**

研究團隊還測試了當標註數據量減少時模型的表現。在三種標註比例（25%、50%、75%）下，規律相當清晰：當標註數據極少（25%的訓練集）時，所有方法都處於高度不確定的狀態，差異意義不大。但一旦標註數據達到50%甚至75%，JEPA家族就與其他方法拉開了差距，領先2到4個AUROC百分點。更引人注目的是穩定性差異：在50%標註數據下，CGM-JEPA的跨折標準差為0.0007，X-CGM-JEPA為0.0001，而最強基準PCA的標準差為0.012——也就是說，JEPA家族的穩定性比基準方法高出一到兩個數量級。這意味著，只要有足夠（但仍然有限）的標註數據，JEPA家族給出的結論是高度可重複的，不會因為隨機拆分方式不同而忽高忽低。

**十一、研究的邊界與誠實的局限**

研究團隊在論文中明確承認了幾個重要局限，這裡同樣值得忠實呈現。

首先，兩個評估隊列的規模偏小，初始隊列27人，驗證隊列僅17人。儘管通過大量重複交叉驗證來提高統計可靠性，但小樣本意味著子群體分析（如按種族或性別分組）的每組人數更小（最少只有5人），結論需要謹慎解讀。其次，評估數據來自同一個研究機構（斯坦福大學）使用同一種血糖儀收集，真實世界中不同品牌設備之間的差異、不同醫院數據收集流程的差異，尚未經過檢驗。第三，模型目前只支持兩種代謝亞型標籤，未來是否能擴展到更多代謝指標，還是未知數。

研究團隊特別強調：這套系統是科研原型，不是醫療產品。它沒有經過臨床驗證，不能用於任何形式的醫療診斷或決策，如需臨床應用，必須經過正式的監管審批流程。

歸根結底，這項研究做了一件重要的事：它證明了，一塊每天默默記錄血糖波動的小小傳感器貼片，通過合適的"讀法"——一種不死摳數值、而是理解結構的讀法——確實能夠反映出深層代謝狀態的差異，而且這種讀法具有相當程度的穩定性，不隨測量方式的變化而崩潰。這不意味著可以立刻用血糖手環來替代醫院檢查，但它清晰地指出了一條可以繼續前行的路：在積累更大規模、更多樣化數據的前提下，無創、連續、廉價的血糖監測設備有潛力成為大規模代謝風險篩查的核心工具。從每個人每天悄悄積累的血糖數字中，讀出疾病提前到來的信號，這件事在技術層面的可行性，正變得越來越清晰。

贊助商廣告

如果你對具體的技術實現細節感興趣，可以通過arXiv編號2605.00933查閱完整論文，研究團隊也公開發布了代碼、去識別化數據和預訓練權重，地址在GitHub上的cruiseresearchgroup/CGM-JEPA倉庫。

---

Q&A

Q1：連續血糖監測儀（CGM）預測代謝亞型和傳統醫院靜脈血檢測相比，準確率差多少？

A：根據CGM-JEPA的研究結果，在隊列泛化場景下，X-CGM-JEPA對β細胞功能障礙的AUROC為0.855，比最強基準方法高出6.5個百分點。整體來看，JEPA家族方法在三種測試場景下均保持前兩名，而靜脈血檢測仍是產生金標準標籤的來源，兩者並非直接替代關係，而是模型用靜脈血標籤訓練、用CGM數據做推斷。

Q2：X-CGM-JEPA中的"血糖密度圖"是什麼，普通人能看懂嗎？

A：血糖密度圖（Glucodensity）是把一整天的血糖曲線轉化成一張熱力圖，橫軸是血糖值，縱軸是血糖變化速度，顏色深淺代表出現頻率。直觀來說，就像把一天的血糖"走路軌跡"壓縮成一個"腳印分布圖"，可以看出某人的血糖主要在哪個區間徘徊、變化幅度大不大，比單純看曲線包含更多統計資訊。

Q3：CGM-JEPA能直接用於臨床診斷胰島素抵抗嗎？

A：目前不能。研究團隊在論文中明確說明，CGM-JEPA是科研原型，尚未經過臨床驗證，不能用於醫療診斷或決策。現有評估基於兩個小規模隊列（共44人），且僅涵蓋一種CGM設備。要進入臨床應用，需要在更大規模、更多樣化的人群和設備上驗證，並經過正式監管審批。