賓大與Enable Medicine聯手打造「俳句」AI：一張病理切片，讀懂分子、圖像與臨床三重密碼

這項研究由美國賓夕法尼亞大學醫學院病理與實驗室醫學系、生物工程系、生物統計學系，以及生物技術公司Enable Medicine聯合完成，於2026年4月30日以預印本形式發布於arXiv平台，論文編號為arXiv:2605.00925v1。

贊助商廣告

每當醫生拿到一張癌症患者的病理切片，他們看到的是細胞的形狀和顏色——這是H&E染色圖像，也是全球病理科每天處理數百萬份的標準工具。但問題在於，這張切片背後隱藏的資訊遠不止於此：腫瘤里有哪些免疫細胞在戰鬥？哪些蛋白質在異常表達？這位患者的預後如何？這些問題，靠一張染色圖是回答不了的，必須藉助更昂貴、更複雜的分子檢測手段。

於是，一個自然的問題就浮現出來：能不能訓練一套人工智慧系統，讓它同時"學會"看懂病理圖像、理解分子信號、讀懂臨床資訊，三種語言融為一體，彼此翻譯？這正是這篇論文要解決的核心問題。研究團隊將他們構建的這套系統命名為Haiku 賓大與EnableMedicine聯手打造俳句AI一張病理切片讀懂分子圖像與臨床三重密碼（俳句），借用這種日本短詩"以少勝多、以局部見整體"的意境，來描述一個能從局部組織切片中提煉出豐富資訊的AI模型。

接下來，這篇文章將帶你完整走進這項研究，從最基礎的問題出發，一路抵達那些令人眼前一亮的實驗結果。

一、為什麼同時讀懂三種"語言"這麼難

在醫院裡，理解一個腫瘤通常需要多種檢測。病理科醫生會看H&E染色切片，判斷腫瘤的形態和分級；分子檢測實驗室會用多重熒光免疫標記（mIF 賓大與EnableMedicine聯手打造俳句AI一張病理切片讀懂分子圖像與臨床三重密碼，可以理解為一種能同時點亮50多種蛋白質的高級染色技術）來揭示腫瘤微環境中的分子細節；臨床醫生則掌握著患者的分期、治療反應、生存狀態等資訊。這三種資訊來自不同的檢測體系，說著不同的"語言"。

問題在於，現有的人工智慧模型大多只會其中一種語言。有些模型擅長分析H&E圖像，有些模型專門處理空間蛋白組學數據，還有一些模型嘗試把圖像和臨床文本對齊。但把這三種語言同時放進一個統一框架里互相翻譯，以前從來沒有人系統地做過。這就像你找到了一個會說中文的翻譯、一個會說英文的翻譯、一個會說法文的翻譯，但你真正需要的是一個三語同傳，而且還能在三種語言之間自由切換、互相補充。

贊助商廣告

Haiku要做的，正是這個三語同傳的角色。更關鍵的是，它不僅要"聽懂"三種語言，還要能用一種語言的資訊去檢索、推斷另一種語言的內容——比如，只給它一張H&E圖像，它就能去資料庫里找到最相似的分子蛋白圖譜；或者只給它一段臨床描述文字，它就能推斷出組織里可能的分子特徵。

二、一個史無前例的訓練數據集

要訓練這樣一個三語同傳系統，首先需要大量"配套教材"——也就是同一塊組織同時擁有H&E圖像、分子圖像和臨床資訊的配對數據。這本身就極為稀缺，因為大多數醫院裡這三種數據是分散儲存的，很少有人把它們完整對齊。

研究團隊由Enable Medicine提供的資料庫做到了這一點。整個數據集涵蓋7600張多重熒光免疫標記（mIF）組織切片，來自1848名患者，橫跨乳腺癌、肺癌、結直腸癌、腎癌、食管癌、肝癌、卵巢癌等11種器官類型和11種疾病類型。其中，3218張切片同時擁有配對的H&E圖像和患者臨床元數據，正是這批"三重配套"數據構成了Haiku核心對比學習賓大與EnableMedicine聯手打造俳句AI一張病理切片讀懂分子圖像與臨床三重密碼訓練的基礎，貢獻了2669萬個組織圖像小塊。另外3848張僅有mIF數據的切片，則用於專門預訓練分子圖像編碼器。

為了確保實驗結果的可信度，研究團隊在患者層面進行了嚴格的訓練集與測試集分離：1606名患者（86.9%）的數據用於訓練，剩餘242名患者（13.1%）的所有切片完全隔離，專門用於評估。這個分割方式的重要性在於，它防止了同一個患者的不同切片分別出現在訓練和測試中——這是一種常見的數據泄露漏洞，在醫療AI研究中經常被忽視。

每張組織切片被分割成256×256像素的小方塊（稱為"patch"，可以理解為組織的一個小窗口），每個小窗口同時對應三份數據：一個H&E染色的彩色圖像小塊、一個包含多達120個生物標記物通道的mIF圖像小塊，以及一段描述該小塊的文字。文字描述分為兩層：一層是"局部層"，描述這個小窗口裡各種蛋白質的表達高低和空間分布模式；另一層是"全局層"，包含該患者的腫瘤類型、分期、分級、治療反應、生存狀態等臨床資訊。這兩層文字被拼合在一起，形成了每個圖像小塊的"文字身份證"。

贊助商廣告

三、俳句的架構：一套三模態對比學習系統

理解Haiku的工作原理，可以借用一個"三面翻譯器"的比喻。這個翻譯器有三個入口，分別接收H&E圖像、mIF分子圖像和文字描述，每個入口都有一個專屬的"編碼引擎"把輸入內容壓縮成一串數字向量。然後，三個入口的輸出都被投射到同一個"共享語義空間賓大與EnableMedicine聯手打造俳句AI一張病理切片讀懂分子圖像與臨床三重密碼 "里，在這個空間裡，來自同一塊組織的三種資訊應該落在彼此很近的位置，來自不同組織的資訊則應該彼此分離。

具體來說，H&E圖像的編碼引擎採用了一個叫MUSK的預訓練視覺模型，這是一個專門為病理圖像設計的視覺變換器，在大量H&E切片上預訓練過，已經學會了識別組織形態的基本特徵。文字編碼引擎使用的是BiomedBERT，一個在海量生物醫學文獻上訓練的語言模型，擅長理解醫學專業術語。

mIF圖像的編碼引擎則更為特殊。由於市面上沒有現成的、在多重熒光免疫數據上預訓練的模型，研究團隊從頭訓練了一個基於VirTues架構的mIF編碼器。這個編碼器有一個聰明的設計：它不僅能處理圖像本身，還為每個生物標記物通道綁定了一個來自ESM-3蛋白質語言模型的蛋白質嵌入向量，作為該通道的"身份標籤"。這樣，即使遇到訓練時沒見過的蛋白質，只要有對應的ESM嵌入，模型就能處理。

三個編碼引擎各自產生的向量，經過各自的"投影頭"（一個兩層神經網路）映射到同一個512維的共享空間。訓練時，來自同一塊組織的H&E向量、mIF向量和文字向量被迫靠近，而來自不同組織的向量則被推開——這種訓練方式叫做對比學習，靈感來自OpenAI的CLIP模型，原本用於對齊圖像和文字，Haiku將其擴展到了三個模態。

訓練時，為了避免破壞已經預訓練好的H&E和文字編碼器，這兩個編碼器只開放最後兩個變換器層進行微調，而mIF編碼器在對比訓練階段則完全凍結，只更新各自的投影頭。學習率也精細分層：H&E編碼器用1×10??，文字編碼器用2×10??，投影頭用1×10??。整個系統在完整訓練數據上訓練25輪，採用先線性預熱5000步、再餘弦退火的學習率調度策略。

贊助商廣告

四、跨模態檢索：給組織切片建立"三語詞典"

Haiku訓練完成後，第一個要驗證的能力是跨模態檢索——也就是說，給它一張H&E圖像小塊，它能不能從幾十萬個mIF圖像小塊的資料庫里找出同一塊組織對應的mIF圖像？反過來，給它一段文字描述，它能不能找到對應的mIF圖像？

這個任務的難度超乎想像。檢索不是在同一張切片的幾百個小塊里找，而是在336張不同患者、不同器官的測試切片的所有小塊里找——這意味著資料庫里有幾十萬個候選對象，而正確答案只有一個。這相當於把一首詩的一行，從十萬本書里找到它的原書，還要找到正確的那一頁。

評估指標用的是Recall@K，也就是在前K個檢索結果里，正確答案出現的比例。研究團隊測試了K=1、5、10、20、50五個級別。

結果相當顯著。對於H&E→mIF方向的檢索，Haiku在Recall@50達到了0.611，而作為基準對比的"樸素方法"（把mIF的多通道圖像強行疊加成RGB三通道，然後用H&E編碼器處理）幾乎沒有任何檢索能力，Recall@50僅為0.030。對於mIF→H&E方向，Haiku達到0.604，樸素基準僅為0.012。對於文字→mIF的跨模態檢索，因為文字和圖像之間本身資訊差距更大，Haiku達到0.169，這個數字看起來不高，但在如此大規模的跨數據集檢索場景下，已經體現出了有意義的對齊能力。

更直觀的是定性展示。在一個文字→mIF的檢索例子中，輸入文字描述的是一個乳腺癌患者的切片，文字中提到GranzymeB、CD11c和PanCK表達較高，而Ki67和IFNγ表達較低。Haiku檢索到的前三名mIF小塊，每一個都忠實地反映了這些特徵：富集標記物的空間分布和強度都與文字描述吻合，說明系統不僅學會了"對齊"，還學會了"理解"文字的語義內容。

在零樣本分類賓大與EnableMedicine聯手打造俳句AI一張病理切片讀懂分子圖像與臨床三重密碼實驗中，Haiku還展示了一個類似於CLIP的能力：給它一張mIF圖像，再給它10個器官類型的文字提示（比如"一張乳腺組織的mIF圖像"），它能把正確的器官類型排在第一位。在10分類的器官類型任務上，宏平均F1達到0.179，而隨機猜測只有0.067；在11分類的疾病類型任務上，宏平均F1達到0.182，隨機猜測僅為0.059。兩個差異均通過了嚴格的統計顯著性檢驗。

贊助商廣告

五、下游任務：從檢索到臨床預測的飛躍

跨模態檢索是基礎能力，但更重要的問題是：這種對齊學到的特徵，對臨床上真正有用的任務有幫助嗎？

研究團隊針對這個問題設計了一系列實驗，全部在訓練集之外的獨立測試數據上進行。

在最基礎的分類任務上，團隊從336張測試切片中提取了五類臨床標籤：器官類型、組織類型、腫瘤T分期（反映腫瘤大小和侵犯程度）、N分期（反映淋巴結轉移情況）和腫瘤分級。然後用線性探針方法評估——就是凍結Haiku的編碼器權重，只在其輸出特徵上訓練一個極簡單的線性分類器，測試特徵本身攜帶了多少有用資訊。

結果表明，Haiku的單模態特徵（無論是H&E還是mIF）都明顯超越了對應的基準模型（H&E方向超越MUSK，mIF方向超越VirTues）。更重要的是，當把Haiku的H&E特徵和mIF特徵拼接在一起形成"融合特徵"時，性能進一步提升，在N分期任務上宏平均F1達到0.942，T分期達到0.961，腫瘤分級達到0.942，器官類型達到0.999，組織類型達到0.998。這些融合結果均顯著優於任何單一模態，且統計檢驗均達到顯著性水平（P值均小於0.001或接近這一水平），說明兩種模態確實攜帶了互補資訊，融合後能捕捉到任何單一模態都無法單獨提供的內容。

在更具挑戰性的生存預測和治療反應預測任務上，Haiku的表現同樣令人關注。這兩個任務使用的是完全獨立於Haiku訓練和VirTues預訓練的198張測試切片，來自兩個外部隊列：75例轉移性黑色素瘤患者（均有免疫治療記錄和隨訪數據）和66例結直腸癌患者（均有治療和長期生存數據）。這相當於讓模型在完全陌生的"考題"上接受檢驗。

在結直腸癌的生存預測任務上，使用了基於注意力機制的多實例學習框架（可以把每張切片理解為一個"證據包"，模型學會從包里挑出最有預測價值的小塊，然後綜合判斷患者風險）。Haiku(mIF)特徵訓練出的Cox回歸模型，平均一致性指數（C-index 賓大與EnableMedicine聯手打造俳句AI一張病理切片讀懂分子圖像與臨床三重密碼，衡量模型把高風險和低風險患者排序正確的能力，0.5是隨機猜測，1是完美）達到0.737，而VirTues基準僅為0.683，提升約5.4個百分點。更直觀的是Kaplan-Meier生存曲線：VirTues區分的高低風險組的統計顯著性P值僅為0.274（不顯著），而Haiku區分的兩組P值達到3.41×10??（顯著），說明Haiku學到的特徵能真正把預後不同的患者區分開來。

贊助商廣告

在黑色素瘤的治療反應預測任務上，Haiku(mIF)的平均AUROC（接受者工作特徵曲線下面積，反映模型區分有效與無效治療反應的能力）達到0.756，而VirTues僅為0.352；AUPRC（精確率-召回率曲線下面積）達到0.660，而VirTues僅為0.333。單折展示中，AUROC和AUPRC分別達到0.920和0.885，差距之大令人印象深刻，且差異均達到統計顯著性。結直腸癌治療反應預測的改善幅度相對較小但方向一致，AUROC從0.721提升至0.730，AUPRC從0.735提升至0.775，統計顯著性未達到傳統閾值，但平均值的改善方向始終穩健。

六、零樣本融合檢索：讓臨床資訊幫助推斷分子特徵

到這裡，Haiku已經證明了自己在檢索和分類任務上的價值。但研究團隊還想走得更遠：如果只有一張H&E圖像，再加上一段只包含臨床資訊（不含任何蛋白質資訊）的文字描述，能不能比單純用H&E圖像更準確地推斷出組織里各種蛋白質的表達水平？

這個任務被稱為"融合檢索生物標記物推斷"。方法是：把H&E圖像的相似度分數和文字的相似度分數，按照一定權重加權求和，形成一個融合的檢索分數，然後從mIF資料庫里找出最相似的若干小塊，把它們的蛋白質表達值加權平均，作為對查詢小塊蛋白質表達的預測。評估指標是預測值與真實測量值之間的皮爾遜相關係數（PCC，越接近1越好）。

關鍵的設計在於：這裡用到的文字描述是"僅含元數據"的版本，也就是把文字里涉及蛋白質表達的部分全部刪掉，只保留器官類型、疾病狀態、分期等臨床背景資訊。這樣做的目的是確保文字帶來的提升純粹來自臨床語義，而不是因為文字本身已經直接告訴了模型蛋白質資訊。

在52個經過驗證的生物標記物通道上，融合檢索（H&E權重0.8，文字權重0.2）的平均PCC達到0.718，而單純H&E檢索為0.710，差異通過了Wilcoxon符號秩檢驗（P=1.46×10??），說明臨床文字資訊確實貢獻了獨立於圖像之外的補充資訊。更引人注意的是，樸素基準（把mIF通道壓縮成RGB再用H&E編碼器處理）的平均PCC僅為-0.033，幾乎毫無預測能力，說明專用的mIF編碼器加上三模態對齊對這個任務是不可或缺的。

贊助商廣告

從各個生物標記物的具體表現來看，這種提升覆蓋了非常廣泛的生物學類別：自適應免疫標記物（如CD3e、CD8、PD-L1）、腫瘤內在標記物（如EpCAM、Ki67）、基質成分標記物（如膠原蛋白IV、CD31）等。這意味著Haiku的跨模態對齊捕捉到的不是某一類生物信號，而是真正跨越了多個生物學程序。

七、反事實預測：改變一行文字，看腫瘤微環境怎麼變

到目前為止，所有任務都在"描述現實"：這張切片對應什麼分期？這位患者的預後如何？但Haiku的共享語義空間還開啟了一個更有趣的可能性：反事實推理賓大與EnableMedicine聯手打造俳句AI一張病理切片讀懂分子圖像與臨床三重密碼。

反事實推理的問題是："如果臨床情況不同，組織里的分子環境會有什麼不同？"例如，同一個患者，同一塊組織，如果把腫瘤分期從T2N0改成T4N2，分子微環境會發生什麼變化？或者，同一個肺腺癌患者，如果把生存狀態從"已死亡"改成"存活"，組織里的免疫細胞格局會有什麼不同？

這種分析靠傳統模型無法完成，因為傳統模型是單向的：給定輸入，預測輸出，但無法"擾動"某一個屬性再看其他屬性如何聯動。Haiku的共享語義空間讓這成為可能：把H&E圖像的嵌入向量固定不變（代表組織形態保持不變），只修改文字嵌入中的某個臨床屬性，然後用修改前後的"融合查詢向量"分別去檢索mIF資料庫，比較兩次檢索結果的蛋白質表達差異，就可以得到一個"如果分期/預後改變，分子特徵會怎麼變"的預測。

研究團隊強調，這些分析是探索性的、假說生成性的，而非機制性結論。單患者的案例研究無法代替大規模驗證，所有結論都需要後續實驗研究來核實。帶著這個前提，團隊做了兩個案例研究。

第一個案例研究針對乳腺癌進展動態。團隊選取了一位中期乳腺癌患者（T2N0M0，IIA期，2級）的281個組織圖像小塊，只把文字里的分期欄位修改為晚期（T4N2M1，IV期，3級），其餘所有資訊保持不變，然後比較兩次檢索的mIF結果。

贊助商廣告

首先，檢索結果的臨床構成發生了顯著變化：原始檢索中，從資料庫檢索到的小塊里有96.6%來自N0期患者，修改後降至88.6%，而N2期患者的比例從1.3%上升至4.9%。T分期的變化同樣顯著。這說明Haiku確實對文字擾動做出了響應，而不是返回固定不變的結果。

更有趣的是分子層面的變化。研究團隊把281個小塊按照H&E形態聚類成四個組織微環境：富含成纖維細胞的基質（C0，100個小塊）、炎症腫瘤區（C1，70個小塊）、黏液/ECM重塑基質（C2，39個小塊）和以上皮細胞為主的腫瘤核心（C3，72個小塊）。在每個微環境內部，分別統計反事實條件下蛋白質表達的變化。

在上皮主導的腫瘤核心（C3）里，晚期反事實擾動帶來了兩類協調的、符合生物學邏輯的變化：泛巨噬細胞標記物CD68上升了69.7%，淋巴管/癌症相關成纖維細胞標記物Podoplanin上升了99.9%，這兩者在文獻中均與乳腺癌晚期和不良預後相關；同時，乳腺癌管腔分化三聯征GATA3（-22.3%）、Keratin8_18（-23.0%）和E-cadherin（-13.4%）全部顯著下降，與乳腺癌進展中管腔分化喪失的文獻記錄方向一致。

在炎症腫瘤區（C1），晚期擾動產生的最強信號是Vimentin上升了73.9%，同時GATA3顯著下降41.1%，這個Vimentin上升/GATA3下降的組合與文獻中乳腺癌上皮-間質轉化的分子標誌高度一致。在黏液基質（C2），HLA-DR（抗原呈遞相關蛋白）下降了34.2%，與三陰性乳腺癌中HLA-DR丟失與預後相關的報道方向吻合。在富含成纖維細胞的基質（C0），則出現了協調的B細胞浸潤信號（CD19上升70.5%，CD20上升132.9%，CD79上升142.7%）和CD8 T細胞信號（CD8上升28.9%）。

還有一個細節值得關註：未成熟T細胞標記物CD45RA在全部四個微環境中均顯著下降（C0下降29.5%，C1下降49.7%，C2下降39.8%，C3下降43.9%），且在腫瘤區下降幅度大於基質區。這與乳腺癌文獻中初始T細胞在腫瘤組織中耗竭、腫瘤免疫微環境隨疾病進展向激活/效應狀態轉變的描述方向一致。

贊助商廣告

在成纖維細胞基質（C0）內部，團隊還進行了主成分分析，發現第二主成分（PC2）能區分哪些小塊在反事實擾動下偏向髓系/抗原呈遞方向，哪些偏向上皮/B系方向。把PC2分數與原始mIF測量值相關聯，發現免疫檢查點標記物LAG3和基底/肌上皮標記物TP63的基線值都與PC2有正相關（皮爾遜相關係數均為0.45），說明一個小塊在反事實擾動下"往哪個方向走"，是由它自身的基線免疫和細胞類型狀態所決定的——基線LAG3和TP63更高的小塊，傾向於在反事實擾動下向髓系方向偏移。

第二個案例研究針對肺腺癌的生存相關分子特徵。團隊選取了一位肺腺癌已死亡患者（生存25個月，IIIA期，T3N1M0）的154個組織小塊，只把文字里的生存狀態從"已死亡"改為"存活"，其他臨床資訊（包括分期）保持不變，比較反事實推斷的分子變化。

同樣按照H&E形態聚類成四個空間微環境：上皮主導的腫瘤核心（C0，42個小塊）、效應細胞富集的腫瘤區（C1，30個小塊）、基質-血管轉運微環境（C2，31個小塊）和腫瘤-基質交界面（C3，51個小塊）。

在上皮主導的腫瘤核心（C0）里，"存活"狀態下CD8上升50.6%，顆粒酶B（殺傷性T細胞釋放的效應分子）上升38.0%，記憶T細胞標記物CD45RO上升36.8%，同時免疫檢查點分子PD-L1下降61.7%。這個模式與非小細胞肺癌中高密度CD8?T細胞和記憶T細胞與良好預後相關的大量文獻報道方向一致。

在效應細胞富集的腫瘤區（C1），這是免疫檢查點緩解信號最強的微環境：PD1下降24.6%，PD-L1下降30.7%，VISTA下降34.7%，同時CD8上升89.5%，CD45RO上升35.7%，抑制性髓系標記物CD11c下降35.6%，MPO下降27.5%。這個多重檢查點同時緩解的模式，與免疫檢查點抑制劑有效應答的分子簽名有相似之處。

在基質-血管轉運微環境（C2），CD8上升35.8%，CD21（濾泡B細胞標記物）上升71.9%，粒系髓系活動（MPO）下降32.1%。值得注意的是，這個微環境裡廣譜B細胞標記物CD20反而下降了59.7%，說明B細胞方面的變化不是簡單的B細胞擴增，而更可能是CD21陽性的生發中心樣B細胞亞群富集——這種富含三級淋巴結構的模式在肺癌文獻中與良好預後有關聯。

贊助商廣告

在腫瘤-基質交界面（C3），CD8上升13.5%，調節性T細胞標記物FoxP3下降36.1%，細胞外基質蛋白膠原蛋白IV下降23.7%，而Ki67（反映細胞增殖活力）下降24.8%，成為四個微環境中唯一達到統計顯著性的Ki67下降信號（其他三個微環境有同方向趨勢但未達到顯著性）。這個組合指向一個從免疫抑制、纖維化屏障向更開放的免疫接觸界面的轉變，與文獻中促進免疫細胞進入腫瘤的有利微環境特徵相呼應。

整個肺癌反事實分析展現出一個具有四個收斂主題的圖景：效應T細胞擴增、廣泛的免疫檢查點緩解、抑制性髓系清除，以及僅在腫瘤-基質交界面達到顯著性的增殖減少。這些方向性一致的信號，僅通過修改一個"生存狀態"文字屬性就浮現出來，說明Haiku的共享語義空間確實捕捉到了某種與臨床預後關聯的分子組織模式。

八、局限性與未來方向

研究團隊坦誠地指出了Haiku目前的幾個局限。首先，當前模型的對比學習訓練只能處理配對數據（同時有H&E、mIF和文字的樣本），而大量現實中的單模態數據（比如只有H&E的大規模切片庫）尚未被充分利用，未來引入混合配對/非配對數據的訓練範式可能進一步提升模型規模和泛化能力。

其次，Haiku的文字描述是從結構化元數據模板生成的，而非真正的自由文本臨床報告。將模型擴展到處理真實、雜亂的臨床病歷文本仍是一個開放挑戰。

第三，最重要也最需要強調的：反事實分析目前是單患者的概念驗證（乳腺癌281個小塊來自一位患者，肺腺癌154個小塊來自另一位患者），所有方向性結論都需要在更大規模的患者隊列中驗證，並需要實驗室實驗來確認具體的分子機制。反事實分析工具的價值在於生成假說，而非提供最終答案。

第四，模型當前在256×256像素的小塊層面工作，要部署到完整的全切片分析場景，還需要與全切片層面的架構整合。

此外，對比學習的性能很大程度上取決於各模態編碼器的質量，這意味著Haiku可以直接受益於未來更強大的單模態基礎模型的發展，但也意味著當前版本的表現受限於所使用的預訓練編碼器。

贊助商廣告

歸根結底，Haiku這個研究做的事情，是把三種原本各說各話的醫學語言——組織形態、分子蛋白和臨床資訊——編入了同一本"詞典"，讓它們在同一個空間裡互相翻譯、互相補充。這不僅僅是一個更好的單一任務模型，而是一個通用的多模態連接框架：一旦這個詞典建好，無論是檢索類似案例、預測臨床結局、推斷分子特徵，還是探索"如果臨床條件改變，分子環境會怎樣"這類假設性問題，都能從同一個預訓練模型出發，無需為每個任務重新訓練。對於任何一個從事病理學、腫瘤學或精準醫療研究的人來說，這個框架開闢的方向值得認真關注。有興趣深入了解的讀者，可以通過arXiv編號2605.00925查詢完整論文，代碼和模型檢查點已在GitHub（zhihuanglab/Haiku）和Hugging Face（zhihuanglab/Haiku）公開發布。

Q&A

Q1：Haiku模型和普通的病理AI有什麼區別？

A：普通病理AI通常只能處理一種數據類型，比如單純分析H&E染色切片或單純分析分子檢測數據。Haiku的核心區別在於它同時學習了三種數據的對應關係：H&E病理圖像、多重熒光免疫標記（mIF）分子圖像，以及患者臨床資訊文字描述。這意味著它可以用其中一種數據去檢索或推斷另一種數據的內容，而不需要每個任務都重新訓練一個專用模型。

Q2：Haiku的反事實分析是什麼意思，能用來預測真實患者的結果嗎？

A：反事實分析是指固定患者的H&E圖像（代表形態不變），只修改文字里的某個臨床屬性（比如把腫瘤分期改高），然後觀察模型檢索到的分子特徵如何變化，從而探索"如果臨床條件不同，分子微環境會怎樣"。這是一種假說生成工具，幫助研究者找到值得驗證的分子信號，但目前不能直接用於預測真實患者的結果，因為這些分析基於單個患者的案例，還需要大規模隊列驗證和實驗室實驗來確認機制。

Q3：Haiku訓練數據有多大，普通研究機構能復現嗎？

贊助商廣告

A：Haiku在超過6200萬個組織圖像小塊上訓練，來自7066張切片、1606名患者，數據由Enable Medicine提供，是私有數據集。完整數據集目前未公開，但研究團隊在Hugging Face上提供了演示數據，代碼和模型權重也已開源，允許研究者在自有數據上使用已訓練好的Haiku編碼器提取特徵或進行遷移學習。