通過一晚上的睡眠,AI 模型就能監控最多 130 種疾病。
老年痴呆、高血壓性心臟病、中風、前列腺癌、乳腺癌、二型糖尿病等等,它都能預測到。

這聽起來就很像多年前,那場矽谷大騙局,一滴血驗證幾百項生化指標。但睡眠聽起來比血液,在不靠譜這方面,有過之而無不及。
一般來說,睡眠的監控,頂多就是每天早上醒來,我們可能會習慣性地看一眼連接手錶的 App,昨晚深睡了幾小時?評分是多少?

好一點的手錶,可能還有睡眠呼吸頻率、HRV 等結合不同算法,來呈現更詳細的睡眠數據。
但如果現在有人說,這一夜看似平靜的睡眠數據里,其實藏著你未來幾年的健康命運,你會不會覺得這是天方夜譚,但又充滿好奇。
就在最近,斯坦福大學團隊在頂級醫學期刊《Nature Medicine》上發表了一項重磅研究,他們開發了一個名為 SleepFM
的 AI 基礎模型,只是通過閱讀我們一個晚上的睡眠數據,就能預測未來患 130 種疾病的風險,甚至包括我們還能活多久。
的 AI 基礎模型,只是通過閱讀我們一個晚上的睡眠數據,就能預測未來患 130 種疾病的風險,甚至包括我們還能活多久。
SleepFM 這個睡眠評估模型,目前已經在 GitHub 上開源。科幻電影裡才會上演的體檢情節,AI 把它照進了現實。
具體是怎麼一回事,一起來看看這個模型是怎麼訓練出來的。
斯坦福的研究團隊給 AI 「餵」了 65000 多名參與者、總計時長超過 585000 小時的睡眠記錄。這個龐大的資料庫讓 SleepFM 學會了人類無法察覺的生理「語言」。

六萬多名參與者的資訊主要來自斯坦福大學的睡眠診所, 作為主力軍,該研究診所貢獻了約 35000 名參與者。這些數據記錄,也並非一時半會收集的,而是從 1999 年一直覆蓋到了 2024 年,整整跨越了 25 年。
還有來自商業醫療機構 BioSerenity 的數據,數據包含了美國 240 個睡眠中心的近 19000 份記錄,同樣時間涵蓋了 2004 年到 2019 年的長周期數據。
此外還有一些公共數據集,增加模型對不同人群的適應性;以及專門用來評估模型能力的測試集等。
這些長達 25 年 的數據積累,讓研究人員有機會做一場時間驗證。他們用 2020 年以前的舊數據訓練 AI,然後讓它預測 2020 年以後患者的情況。如果數據積累不夠久,根本不可能驗證「提前 6 年預警疾病」這種超長周期的預測能力。
有了海量且長周期的數據,這裡就得潑一盆冷水了。他們使用的數據,和我們手環上那幾個簡單的數字根本沒法比,他們用的是在睡眠門診里,常用的分析工具——多導睡眠圖
(PSG)。
(PSG)。
SleepFM 框架描述,圖 A 為多導圖的設置情況,以及來自不同睡眠中心的數據統計。圖 B 和圖 C 是將不同模態的數據,例如心電圖 EKG、腦信號 BAS、肌電圖 EMG 等信號,通過神經網路編碼,轉成深度學習模型能訓練的特徵,並預測最後的結果。圖 D 為臨床應用的評估結果。
在這個龐大的實驗中,SleepFM 學習的是最複雜的生理信號組合,即多導睡眠圖中包含的豐富數據,包括記錄大腦在想什麼的腦電圖、記錄心率變化的心電圖、以及捕捉身體肌肉運動的肌電圖、和記錄呼吸資訊的氣流信號等。
普通人不可能天天帶著這些線睡覺,這是目前的門檻所在。但另一方面,也正是因為數據如此豐富,SleepFM 才能做到普通設備做不到的事。
基於這些跨越時間的數據,斯坦福團隊通過回顧性實驗,讓 AI 預測患者隨後 6 年的真實電子病歷記錄。

在斯坦福內部測試集上,針對不同疾病大類(如循環系統、神經系統、腫瘤等)的整體預測表現。橫軸列出了循環系統、精神障礙、神經系統甚至腫瘤等十多個大類。圖中每一個黑點代表一種具體的病,位置越高,說明 AI 預測得越准(C-Index 和 AUROC 越高)。可以看到,它在神經系統和循環系統疾病上的表現尤為突出,遠超及格線(虛線表示)。
結果令人非常吃驚。僅憑一個晚上的睡眠數據,SleepFM 成功預測了 130 種疾病風險(準確度指標 C-Index > 0.75),它的準確度遠超預期。在斯坦福睡眠中心的內部測試集上,預測結果準確度均在 75% 以上。
全因死亡率(預測壽命): 準確度 84%。
痴呆症: 準確度 85%。這意味著在記憶開始模糊的幾年前,大腦在睡眠中發出的電信號就已經變了。
心力衰竭與心肌梗死: 準確度分別為 80% 和 81%。
慢性腎病: 準確度 79%。
其中,評估用的 C-Index 和 AUROC 都是用來給 AI 模型打分的指標,衡量它預測疾病到底準不準。簡單來說,數值越接近 1,說明模型越厲害;接近 0.5 則說明模型在瞎猜。
C-Index (Harrell's Concordance Index),中文名是一致性指數,它衡量的是模型對病人風險排序的準確性。
AUROC (Area Under the ROC Curve),中文名:受試者工作特徵曲線下面積,論文中是衡量,AI 能否準確區分出,哪些人在做完睡眠檢查後的 6 年內會得病,哪些人不會。

模型在外部獨立數據集(SHHS) 上的測試結果。結果顯示,在針對中風(Stroke)、心力衰竭(Congestive HF)、心肌梗死以及心血管疾病死亡等 6 項關鍵指標的預測中,AI 依然保持了極高的準確率(大部分 AUROC > 0.8)
從這個角度來看,能證明它確實掌握了「核心醫術」,不是對這 65000 人的電子病歷死記硬背。
但是,既然都要去醫院貼滿電極做 PSG,這個 AI 還有什麼用?雖然是一晚上,但是要監控心電圖、腦電圖、肌電圖,這跟我想的「睡一覺」完全不一樣。

睡眠研究常用多導圖設備(PSG)
斯坦福在論文最後給出的結論提到,首先是 SleepFM 這個模型,在同類型的多導圖預測疾病的模型中,目前是做得最好,預測最準確的一個模型。
另一方面,他們提到這也是一種存量價值。意思是,根據他們的統計,目前全球每年有數百萬人因為打呼嚕(睡眠呼吸暫停)去做 PSG 檢查。
但是在過去,這堆複雜的數據醫生看完 PSG 的「呼吸指標」後,這份檢查就沒用了。現在有了 SleepFM,同樣的一次檢查,不需要病人做額外的工作,就能得到一份關於心臟、大腦和壽命的深度風險報告,這是對現有醫療資源的極致利用。
此外,他們也沒有給多導圖之外的監控數據使用,判死刑。具體來說,SleepFM 模型像是一個可穿戴設備的教師,而我們現在的智能手錶所採用的分析算法,可以說是一個學生。

在這篇論文中埋下了一個彩蛋,SleepFM 採用了一種通道無關
(channel-agnostic)的設計。 這意味著,雖然它是被多導圖那全套裝備,訓練出來的,但它被訓練得非常靈活。
(channel-agnostic)的設計。 這意味著,雖然它是被多導圖那全套裝備,訓練出來的,但它被訓練得非常靈活。即使未來去掉了腦電圖,只剩下智能手錶能測到的心電和呼吸信號,這個經過大師級訓練的 AI,依然能利用它學到的通用規律工作。
就像論文作者所展望的,SleepFM 能為未來基於可穿戴設備的無創、實時健康監測,鋪平道路。
這麼看下來,基於多導圖的睡眠數據,還是要比那滴血更靠譜一點。論文作者在 X 發文說,多導圖能獲取的數據,比消費級的穿戴設備確實要多,但使用更便攜的穿戴設備,是他們未來工作的方向。
有網友評論說,
這項研究最終將指向這樣一個事實:幾乎所有疾病都與代謝有關,而個體的代謝狀態最能體現在睡眠中。

睡眠數據看起來像一座冰山,漂浮在海面上我們看到的只是非常有限的一部分。SleepFM 也是朝著將我們的睡眠,作為早期健康預警系統,邁出了重要一步。
在消費級穿戴設備的傳感器精度進一步提升,配合這種經過臨床大數據訓練的 AI 算法,我們的智能手錶,將來或許真就能成為一個全天候的 AI 醫生。
到那個時候,它不僅能記錄我們的入睡時間,而且能在身體發出細微求救信號的第一時間,發送一條也許能改變命運的提醒,「檢測到早期風險信號,建議及時就醫或改善生活習慣。」
在這個未來到來之前,最好的健康建議依然沒變:今晚,早點睡吧。






