這項研究由美國賓夕法尼亞大學醫學院病理與實驗室醫學系、生物工程系、生物統計學系,以及生物技術公司Enable Medicine聯合完成,於2026年4月30日以預印本形式發布於arXiv平台,論文編號為arXiv:2605.00925v1。
每當醫生拿到一張癌症患者的病理切片,他們看到的是細胞的形狀和顏色——這是H&E染色圖像,也是全球病理科每天處理數百萬份的標準工具。但問題在於,這張切片背後隱藏的資訊遠不止於此:腫瘤里有哪些免疫細胞在戰鬥?哪些蛋白質在異常表達?這位患者的預後如何?這些問題,靠一張染色圖是回答不了的,必須藉助更昂貴、更複雜的分子檢測手段。
於是,一個自然的問題就浮現出來:能不能訓練一套人工智慧系統,讓它同時"學會"看懂病理圖像、理解分子信號、讀懂臨床資訊,三種語言融為一體,彼此翻譯?這正是這篇論文要解決的核心問題。研究團隊將他們構建的這套系統命名為Haiku
(俳句),借用這種日本短詩"以少勝多、以局部見整體"的意境,來描述一個能從局部組織切片中提煉出豐富資訊的AI模型。
接下來,這篇文章將帶你完整走進這項研究,從最基礎的問題出發,一路抵達那些令人眼前一亮的實驗結果。
一、為什麼同時讀懂三種"語言"這麼難
在醫院裡,理解一個腫瘤通常需要多種檢測。病理科醫生會看H&E染色切片,判斷腫瘤的形態和分級;分子檢測實驗室會用多重熒光免疫標記(mIF
,可以理解為一種能同時點亮50多種蛋白質的高級染色技術)來揭示腫瘤微環境中的分子細節;臨床醫生則掌握著患者的分期、治療反應、生存狀態等資訊。這三種資訊來自不同的檢測體系,說著不同的"語言"。
問題在於,現有的人工智慧模型大多只會其中一種語言。有些模型擅長分析H&E圖像,有些模型專門處理空間蛋白組學數據,還有一些模型嘗試把圖像和臨床文本對齊。但把這三種語言同時放進一個統一框架里互相翻譯,以前從來沒有人系統地做過。這就像你找到了一個會說中文的翻譯、一個會說英文的翻譯、一個會說法文的翻譯,但你真正需要的是一個三語同傳,而且還能在三種語言之間自由切換、互相補充。
Haiku要做的,正是這個三語同傳的角色。更關鍵的是,它不僅要"聽懂"三種語言,還要能用一種語言的資訊去檢索、推斷另一種語言的內容——比如,只給它一張H&E圖像,它就能去資料庫里找到最相似的分子蛋白圖譜;或者只給它一段臨床描述文字,它就能推斷出組織里可能的分子特徵。
二、一個史無前例的訓練數據集
要訓練這樣一個三語同傳系統,首先需要大量"配套教材"——也就是同一塊組織同時擁有H&E圖像、分子圖像和臨床資訊的配對數據。這本身就極為稀缺,因為大多數醫院裡這三種數據是分散儲存的,很少有人把它們完整對齊。
研究團隊由Enable Medicine提供的資料庫做到了這一點。整個數據集涵蓋7600張多重熒光免疫標記(mIF)組織切片,來自1848名患者,橫跨乳腺癌、肺癌、結直腸癌、腎癌、食管癌、肝癌、卵巢癌等11種器官類型和11種疾病類型。其中,3218張切片同時擁有配對的H&E圖像和患者臨床元數據,正是這批"三重配套"數據構成了Haiku核心對比學習
訓練的基礎,貢獻了2669萬個組織圖像小塊。另外3848張僅有mIF數據的切片,則用於專門預訓練分子圖像編碼器。
為了確保實驗結果的可信度,研究團隊在患者層面進行了嚴格的訓練集與測試集分離:1606名患者(86.9%)的數據用於訓練,剩餘242名患者(13.1%)的所有切片完全隔離,專門用於評估。這個分割方式的重要性在於,它防止了同一個患者的不同切片分別出現在訓練和測試中——這是一種常見的數據泄露漏洞,在醫療AI研究中經常被忽視。
每張組織切片被分割成256×256像素的小方塊(稱為"patch",可以理解為組織的一個小窗口),每個小窗口同時對應三份數據:一個H&E染色的彩色圖像小塊、一個包含多達120個生物標記物通道的mIF圖像小塊,以及一段描述該小塊的文字。文字描述分為兩層:一層是"局部層",描述這個小窗口裡各種蛋白質的表達高低和空間分布模式;另一層是"全局層",包含該患者的腫瘤類型、分期、分級、治療反應、生存狀態等臨床資訊。這兩層文字被拼合在一起,形成了每個圖像小塊的"文字身份證"。
三、俳句的架構:一套三模態對比學習系統
理解Haiku的工作原理,可以借用一個"三面翻譯器"的比喻。這個翻譯器有三個入口,分別接收H&E圖像、mIF分子圖像和文字描述,每個入口都有一個專屬的"編碼引擎"把輸入內容壓縮成一串數字向量。然後,三個入口的輸出都被投射到同一個"共享語義空間
"里,在這個空間裡,來自同一塊組織的三種資訊應該落在彼此很近的位置,來自不同組織的資訊則應該彼此分離。
具體來說,H&E圖像的編碼引擎採用了一個叫MUSK的預訓練視覺模型,這是一個專門為病理圖像設計的視覺變換器,在大量H&E切片上預訓練過,已經學會了識別組織形態的基本特徵。文字編碼引擎使用的是BiomedBERT,一個在海量生物醫學文獻上訓練的語言模型,擅長理解醫學專業術語。
mIF圖像的編碼引擎則更為特殊。由於市面上沒有現成的、在多重熒光免疫數據上預訓練的模型,研究團隊從頭訓練了一個基於VirTues架構的mIF編碼器。這個編碼器有一個聰明的設計:它不僅能處理圖像本身,還為每個生物標記物通道綁定了一個來自ESM-3蛋白質語言模型的蛋白質嵌入向量,作為該通道的"身份標籤"。這樣,即使遇到訓練時沒見過的蛋白質,只要有對應的ESM嵌入,模型就能處理。
三個編碼引擎各自產生的向量,經過各自的"投影頭"(一個兩層神經網路)映射到同一個512維的共享空間。訓練時,來自同一塊組織的H&E向量、mIF向量和文字向量被迫靠近,而來自不同組織的向量則被推開——這種訓練方式叫做對比學習,靈感來自OpenAI的CLIP模型,原本用於對齊圖像和文字,Haiku將其擴展到了三個模態。
訓練時,為了避免破壞已經預訓練好的H&E和文字編碼器,這兩個編碼器只開放最後兩個變換器層進行微調,而mIF編碼器在對比訓練階段則完全凍結,只更新各自的投影頭。學習率也精細分層:H&E編碼器用1×10??,文字編碼器用2×10??,投影頭用1×10??。整個系統在完整訓練數據上訓練25輪,採用先線性預熱5000步、再餘弦退火的學習率調度策略。
四、跨模態檢索:給組織切片建立"三語詞典"
Haiku訓練完成後,第一個要驗證的能力是跨模態檢索——也就是說,給它一張H&E圖像小塊,它能不能從幾十萬個mIF圖像小塊的資料庫里找出同一塊組織對應的mIF圖像?反過來,給它一段文字描述,它能不能找到對應的mIF圖像?
這個任務的難度超乎想像。檢索不是在同一張切片的幾百個小塊里找,而是在336張不同患者、不同器官的測試切片的所有小塊里找——這意味著資料庫里有幾十萬個候選對象,而正確答案只有一個。這相當於把一首詩的一行,從十萬本書里找到它的原書,還要找到正確的那一頁。
評估指標用的是Recall@K,也就是在前K個檢索結果里,正確答案出現的比例。研究團隊測試了K=1、5、10、20、50五個級別。
結果相當顯著。對於H&E→mIF方向的檢索,Haiku在Recall@50達到了0.611,而作為基準對比的"樸素方法"(把mIF的多通道圖像強行疊加成RGB三通道,然後用H&E編碼器處理)幾乎沒有任何檢索能力,Recall@50僅為0.030。對於mIF→H&E方向,Haiku達到0.604,樸素基準僅為0.012。對於文字→mIF的跨模態檢索,因為文字和圖像之間本身資訊差距更大,Haiku達到0.169,這個數字看起來不高,但在如此大規模的跨數據集檢索場景下,已經體現出了有意義的對齊能力。
更直觀的是定性展示。在一個文字→mIF的檢索例子中,輸入文字描述的是一個乳腺癌患者的切片,文字中提到GranzymeB、CD11c和PanCK表達較高,而Ki67和IFNγ表達較低。Haiku檢索到的前三名mIF小塊,每一個都忠實地反映了這些特徵:富集標記物的空間分布和強度都與文字描述吻合,說明系統不僅學會了"對齊",還學會了"理解"文字的語義內容。
在零樣本分類
實驗中,Haiku還展示了一個類似於CLIP的能力:給它一張mIF圖像,再給它10個器官類型的文字提示(比如"一張乳腺組織的mIF圖像"),它能把正確的器官類型排在第一位。在10分類的器官類型任務上,宏平均F1達到0.179,而隨機猜測只有0.067;在11分類的疾病類型任務上,宏平均F1達到0.182,隨機猜測僅為0.059。兩個差異均通過了嚴格的統計顯著性檢驗。
五、下游任務:從檢索到臨床預測的飛躍
跨模態檢索是基礎能力,但更重要的問題是:這種對齊學到的特徵,對臨床上真正有用的任務有幫助嗎?
研究團隊針對這個問題設計了一系列實驗,全部在訓練集之外的獨立測試數據上進行。
在最基礎的分類任務上,團隊從336張測試切片中提取了五類臨床標籤:器官類型、組織類型、腫瘤T分期(反映腫瘤大小和侵犯程度)、N分期(反映淋巴結轉移情況)和腫瘤分級。然後用線性探針方法評估——就是凍結Haiku的編碼器權重,只在其輸出特徵上訓練一個極簡單的線性分類器,測試特徵本身攜帶了多少有用資訊。
結果表明,Haiku的單模態特徵(無論是H&E還是mIF)都明顯超越了對應的基準模型(H&E方向超越MUSK,mIF方向超越VirTues)。更重要的是,當把Haiku的H&E特徵和mIF特徵拼接在一起形成"融合特徵"時,性能進一步提升,在N分期任務上宏平均F1達到0.942,T分期達到0.961,腫瘤分級達到0.942,器官類型達到0.999,組織類型達到0.998。這些融合結果均顯著優於任何單一模態,且統計檢驗均達到顯著性水平(P值均小於0.001或接近這一水平),說明兩種模態確實攜帶了互補資訊,融合後能捕捉到任何單一模態都無法單獨提供的內容。
在更具挑戰性的生存預測和治療反應預測任務上,Haiku的表現同樣令人關注。這兩個任務使用的是完全獨立於Haiku訓練和VirTues預訓練的198張測試切片,來自兩個外部隊列:75例轉移性黑色素瘤患者(均有免疫治療記錄和隨訪數據)和66例結直腸癌患者(均有治療和長期生存數據)。這相當於讓模型在完全陌生的"考題"上接受檢驗。
在結直腸癌的生存預測任務上,使用了基於注意力機制的多實例學習框架(可以把每張切片理解為一個"證據包",模型學會從包里挑出最有預測價值的小塊,然後綜合判斷患者風險)。Haiku(mIF)特徵訓練出的Cox回歸模型,平均一致性指數(C-index
,衡量模型把高風險和低風險患者排序正確的能力,0.5是隨機猜測,1是完美)達到0.737,而VirTues基準僅為0.683,提升約5.4個百分點。更直觀的是Kaplan-Meier生存曲線:VirTues區分的高低風險組的統計顯著性P值僅為0.274(不顯著),而Haiku區分的兩組P值達到3.41×10??(顯著),說明Haiku學到的特徵能真正把預後不同的患者區分開來。
在黑色素瘤的治療反應預測任務上,Haiku(mIF)的平均AUROC(接受者工作特徵曲線下面積,反映模型區分有效與無效治療反應的能力)達到0.756,而VirTues僅為0.352;AUPRC(精確率-召回率曲線下面積)達到0.660,而VirTues僅為0.333。單折展示中,AUROC和AUPRC分別達到0.920和0.885,差距之大令人印象深刻,且差異均達到統計顯著性。結直腸癌治療反應預測的改善幅度相對較小但方向一致,AUROC從0.721提升至0.730,AUPRC從0.735提升至0.775,統計顯著性未達到傳統閾值,但平均值的改善方向始終穩健。
六、零樣本融合檢索:讓臨床資訊幫助推斷分子特徵
到這裡,Haiku已經證明了自己在檢索和分類任務上的價值。但研究團隊還想走得更遠:如果只有一張H&E圖像,再加上一段只包含臨床資訊(不含任何蛋白質資訊)的文字描述,能不能比單純用H&E圖像更準確地推斷出組織里各種蛋白質的表達水平?
這個任務被稱為"融合檢索生物標記物推斷"。方法是:把H&E圖像的相似度分數和文字的相似度分數,按照一定權重加權求和,形成一個融合的檢索分數,然後從mIF資料庫里找出最相似的若干小塊,把它們的蛋白質表達值加權平均,作為對查詢小塊蛋白質表達的預測。評估指標是預測值與真實測量值之間的皮爾遜相關係數(PCC,越接近1越好)。
關鍵的設計在於:這裡用到的文字描述是"僅含元數據"的版本,也就是把文字里涉及蛋白質表達的部分全部刪掉,只保留器官類型、疾病狀態、分期等臨床背景資訊。這樣做的目的是確保文字帶來的提升純粹來自臨床語義,而不是因為文字本身已經直接告訴了模型蛋白質資訊。
在52個經過驗證的生物標記物通道上,融合檢索(H&E權重0.8,文字權重0.2)的平均PCC達到0.718,而單純H&E檢索為0.710,差異通過了Wilcoxon符號秩檢驗(P=1.46×10??),說明臨床文字資訊確實貢獻了獨立於圖像之外的補充資訊。更引人注意的是,樸素基準(把mIF通道壓縮成RGB再用H&E編碼器處理)的平均PCC僅為-0.033,幾乎毫無預測能力,說明專用的mIF編碼器加上三模態對齊對這個任務是不可或缺的。
從各個生物標記物的具體表現來看,這種提升覆蓋了非常廣泛的生物學類別:自適應免疫標記物(如CD3e、CD8、PD-L1)、腫瘤內在標記物(如EpCAM、Ki67)、基質成分標記物(如膠原蛋白IV、CD31)等。這意味著Haiku的跨模態對齊捕捉到的不是某一類生物信號,而是真正跨越了多個生物學程序。
七、反事實預測:改變一行文字,看腫瘤微環境怎麼變
到目前為止,所有任務都在"描述現實":這張切片對應什麼分期?這位患者的預後如何?但Haiku的共享語義空間還開啟了一個更有趣的可能性:反事實推理
。
反事實推理的問題是:"如果臨床情況不同,組織里的分子環境會有什麼不同?"例如,同一個患者,同一塊組織,如果把腫瘤分期從T2N0改成T4N2,分子微環境會發生什麼變化?或者,同一個肺腺癌患者,如果把生存狀態從"已死亡"改成"存活",組織里的免疫細胞格局會有什麼不同?
這種分析靠傳統模型無法完成,因為傳統模型是單向的:給定輸入,預測輸出,但無法"擾動"某一個屬性再看其他屬性如何聯動。Haiku的共享語義空間讓這成為可能:把H&E圖像的嵌入向量固定不變(代表組織形態保持不變),只修改文字嵌入中的某個臨床屬性,然後用修改前後的"融合查詢向量"分別去檢索mIF資料庫,比較兩次檢索結果的蛋白質表達差異,就可以得到一個"如果分期/預後改變,分子特徵會怎麼變"的預測。
研究團隊強調,這些分析是探索性的、假說生成性的,而非機制性結論。單患者的案例研究無法代替大規模驗證,所有結論都需要後續實驗研究來核實。帶著這個前提,團隊做了兩個案例研究。
第一個案例研究針對乳腺癌進展動態。團隊選取了一位中期乳腺癌患者(T2N0M0,IIA期,2級)的281個組織圖像小塊,只把文字里的分期欄位修改為晚期(T4N2M1,IV期,3級),其餘所有資訊保持不變,然後比較兩次檢索的mIF結果。
首先,檢索結果的臨床構成發生了顯著變化:原始檢索中,從資料庫檢索到的小塊里有96.6%來自N0期患者,修改後降至88.6%,而N2期患者的比例從1.3%上升至4.9%。T分期的變化同樣顯著。這說明Haiku確實對文字擾動做出了響應,而不是返回固定不變的結果。
更有趣的是分子層面的變化。研究團隊把281個小塊按照H&E形態聚類成四個組織微環境:富含成纖維細胞的基質(C0,100個小塊)、炎症腫瘤區(C1,70個小塊)、黏液/ECM重塑基質(C2,39個小塊)和以上皮細胞為主的腫瘤核心(C3,72個小塊)。在每個微環境內部,分別統計反事實條件下蛋白質表達的變化。
在上皮主導的腫瘤核心(C3)里,晚期反事實擾動帶來了兩類協調的、符合生物學邏輯的變化:泛巨噬細胞標記物CD68上升了69.7%,淋巴管/癌症相關成纖維細胞標記物Podoplanin上升了99.9%,這兩者在文獻中均與乳腺癌晚期和不良預後相關;同時,乳腺癌管腔分化三聯征GATA3(-22.3%)、Keratin8_18(-23.0%)和E-cadherin(-13.4%)全部顯著下降,與乳腺癌進展中管腔分化喪失的文獻記錄方向一致。
在炎症腫瘤區(C1),晚期擾動產生的最強信號是Vimentin上升了73.9%,同時GATA3顯著下降41.1%,這個Vimentin上升/GATA3下降的組合與文獻中乳腺癌上皮-間質轉化的分子標誌高度一致。在黏液基質(C2),HLA-DR(抗原呈遞相關蛋白)下降了34.2%,與三陰性乳腺癌中HLA-DR丟失與預後相關的報道方向吻合。在富含成纖維細胞的基質(C0),則出現了協調的B細胞浸潤信號(CD19上升70.5%,CD20上升132.9%,CD79上升142.7%)和CD8 T細胞信號(CD8上升28.9%)。
還有一個細節值得關註:未成熟T細胞標記物CD45RA在全部四個微環境中均顯著下降(C0下降29.5%,C1下降49.7%,C2下降39.8%,C3下降43.9%),且在腫瘤區下降幅度大於基質區。這與乳腺癌文獻中初始T細胞在腫瘤組織中耗竭、腫瘤免疫微環境隨疾病進展向激活/效應狀態轉變的描述方向一致。
在成纖維細胞基質(C0)內部,團隊還進行了主成分分析,發現第二主成分(PC2)能區分哪些小塊在反事實擾動下偏向髓系/抗原呈遞方向,哪些偏向上皮/B系方向。把PC2分數與原始mIF測量值相關聯,發現免疫檢查點標記物LAG3和基底/肌上皮標記物TP63的基線值都與PC2有正相關(皮爾遜相關係數均為0.45),說明一個小塊在反事實擾動下"往哪個方向走",是由它自身的基線免疫和細胞類型狀態所決定的——基線LAG3和TP63更高的小塊,傾向於在反事實擾動下向髓系方向偏移。
第二個案例研究針對肺腺癌的生存相關分子特徵。團隊選取了一位肺腺癌已死亡患者(生存25個月,IIIA期,T3N1M0)的154個組織小塊,只把文字里的生存狀態從"已死亡"改為"存活",其他臨床資訊(包括分期)保持不變,比較反事實推斷的分子變化。
同樣按照H&E形態聚類成四個空間微環境:上皮主導的腫瘤核心(C0,42個小塊)、效應細胞富集的腫瘤區(C1,30個小塊)、基質-血管轉運微環境(C2,31個小塊)和腫瘤-基質交界面(C3,51個小塊)。
在上皮主導的腫瘤核心(C0)里,"存活"狀態下CD8上升50.6%,顆粒酶B(殺傷性T細胞釋放的效應分子)上升38.0%,記憶T細胞標記物CD45RO上升36.8%,同時免疫檢查點分子PD-L1下降61.7%。這個模式與非小細胞肺癌中高密度CD8?T細胞和記憶T細胞與良好預後相關的大量文獻報道方向一致。
在效應細胞富集的腫瘤區(C1),這是免疫檢查點緩解信號最強的微環境:PD1下降24.6%,PD-L1下降30.7%,VISTA下降34.7%,同時CD8上升89.5%,CD45RO上升35.7%,抑制性髓系標記物CD11c下降35.6%,MPO下降27.5%。這個多重檢查點同時緩解的模式,與免疫檢查點抑制劑有效應答的分子簽名有相似之處。
在基質-血管轉運微環境(C2),CD8上升35.8%,CD21(濾泡B細胞標記物)上升71.9%,粒系髓系活動(MPO)下降32.1%。值得注意的是,這個微環境裡廣譜B細胞標記物CD20反而下降了59.7%,說明B細胞方面的變化不是簡單的B細胞擴增,而更可能是CD21陽性的生發中心樣B細胞亞群富集——這種富含三級淋巴結構的模式在肺癌文獻中與良好預後有關聯。
在腫瘤-基質交界面(C3),CD8上升13.5%,調節性T細胞標記物FoxP3下降36.1%,細胞外基質蛋白膠原蛋白IV下降23.7%,而Ki67(反映細胞增殖活力)下降24.8%,成為四個微環境中唯一達到統計顯著性的Ki67下降信號(其他三個微環境有同方向趨勢但未達到顯著性)。這個組合指向一個從免疫抑制、纖維化屏障向更開放的免疫接觸界面的轉變,與文獻中促進免疫細胞進入腫瘤的有利微環境特徵相呼應。
整個肺癌反事實分析展現出一個具有四個收斂主題的圖景:效應T細胞擴增、廣泛的免疫檢查點緩解、抑制性髓系清除,以及僅在腫瘤-基質交界面達到顯著性的增殖減少。這些方向性一致的信號,僅通過修改一個"生存狀態"文字屬性就浮現出來,說明Haiku的共享語義空間確實捕捉到了某種與臨床預後關聯的分子組織模式。
八、局限性與未來方向
研究團隊坦誠地指出了Haiku目前的幾個局限。首先,當前模型的對比學習訓練只能處理配對數據(同時有H&E、mIF和文字的樣本),而大量現實中的單模態數據(比如只有H&E的大規模切片庫)尚未被充分利用,未來引入混合配對/非配對數據的訓練範式可能進一步提升模型規模和泛化能力。
其次,Haiku的文字描述是從結構化元數據模板生成的,而非真正的自由文本臨床報告。將模型擴展到處理真實、雜亂的臨床病歷文本仍是一個開放挑戰。
第三,最重要也最需要強調的:反事實分析目前是單患者的概念驗證(乳腺癌281個小塊來自一位患者,肺腺癌154個小塊來自另一位患者),所有方向性結論都需要在更大規模的患者隊列中驗證,並需要實驗室實驗來確認具體的分子機制。反事實分析工具的價值在於生成假說,而非提供最終答案。
第四,模型當前在256×256像素的小塊層面工作,要部署到完整的全切片分析場景,還需要與全切片層面的架構整合。
此外,對比學習的性能很大程度上取決於各模態編碼器的質量,這意味著Haiku可以直接受益於未來更強大的單模態基礎模型的發展,但也意味著當前版本的表現受限於所使用的預訓練編碼器。
歸根結底,Haiku這個研究做的事情,是把三種原本各說各話的醫學語言——組織形態、分子蛋白和臨床資訊——編入了同一本"詞典",讓它們在同一個空間裡互相翻譯、互相補充。這不僅僅是一個更好的單一任務模型,而是一個通用的多模態連接框架:一旦這個詞典建好,無論是檢索類似案例、預測臨床結局、推斷分子特徵,還是探索"如果臨床條件改變,分子環境會怎樣"這類假設性問題,都能從同一個預訓練模型出發,無需為每個任務重新訓練。對於任何一個從事病理學、腫瘤學或精準醫療研究的人來說,這個框架開闢的方向值得認真關注。有興趣深入了解的讀者,可以通過arXiv編號2605.00925查詢完整論文,代碼和模型檢查點已在GitHub(zhihuanglab/Haiku)和Hugging Face(zhihuanglab/Haiku)公開發布。
Q&A
Q1:Haiku模型和普通的病理AI有什麼區別?
A:普通病理AI通常只能處理一種數據類型,比如單純分析H&E染色切片或單純分析分子檢測數據。Haiku的核心區別在於它同時學習了三種數據的對應關係:H&E病理圖像、多重熒光免疫標記(mIF)分子圖像,以及患者臨床資訊文字描述。這意味著它可以用其中一種數據去檢索或推斷另一種數據的內容,而不需要每個任務都重新訓練一個專用模型。
Q2:Haiku的反事實分析是什麼意思,能用來預測真實患者的結果嗎?
A:反事實分析是指固定患者的H&E圖像(代表形態不變),只修改文字里的某個臨床屬性(比如把腫瘤分期改高),然後觀察模型檢索到的分子特徵如何變化,從而探索"如果臨床條件不同,分子微環境會怎樣"。這是一種假說生成工具,幫助研究者找到值得驗證的分子信號,但目前不能直接用於預測真實患者的結果,因為這些分析基於單個患者的案例,還需要大規模隊列驗證和實驗室實驗來確認機制。
Q3:Haiku訓練數據有多大,普通研究機構能復現嗎?
A:Haiku在超過6200萬個組織圖像小塊上訓練,來自7066張切片、1606名患者,數據由Enable Medicine提供,是私有數據集。完整數據集目前未公開,但研究團隊在Hugging Face上提供了演示數據,代碼和模型權重也已開源,允許研究者在自有數據上使用已訓練好的Haiku編碼器提取特徵或進行遷移學習。






