最近對AI在醫藥領域的應用產生了很強的興趣。幾乎所有前沿AI實驗室都在向醫學靠攏,OpenAI和Anthropic都表達過明確的意向,而Google DeepMind已經有了AlphaFold這樣的標誌性成果。AlphaFold解決的是一個困擾生物學家半個世紀的問題:給定一段蛋白質的胺基酸序列,預測它在三維空間中會摺疊成什麼形狀。蛋白質的形狀決定了它的功能,所以能預測形狀就意味著能推斷功能,進而設計能與特定蛋白質結合的藥物分子。這個突破讓AI與醫藥的交匯變得具體可感。DeepMind的CEO Demis Hassabis因此在2024年獲得諾貝爾化學獎,之後又提出了更大的目標:用AI構建虛擬細胞,在電腦中完整模擬細胞的生物學行為,他估計大約還需要十年。

我想找一個素材,對AI藥物發現這個體系建立一個相對完整的理解,而不只是看新聞標題。然後就找到了Lex Fridman採訪Daphne Koller的一期播客,發布於2020年5月。看完覺得資訊密度很高,再回頭查驗了一下,發現她五六年前講的很多判斷到今天是應驗的。於是又找到她在斯坦福醫學院院長Lloyd Minor主持的講座The Minor Consult中的一期訪談,發布於2025年3月,結合insitro截至2026年5月的公開資料,整理成了這篇文章。
Daphne Koller是斯坦福大學電腦科學教授,概率圖模型領域的核心人物,她寫的教科書至今仍是這個領域的標準參考。17歲在耶路撒冷希伯來大學拿到本科學位,2004年獲MacArthur天才獎。她與吳恩達共同創辦了在線教育平台Coursera,但創業的時間窗口讓她付出了代價:2012年正是深度學習革命爆發的年份,她卻在全力做在線教育。講座中她坦言"I missed the beginning, which I'm feeling kind of bummed about",錯過了開端,至今覺得遺憾。
離開Coursera後,Koller去了Calico。Calico是Alphabet旗下專注衰老和長壽研究的公司,由蘋果前董事長Art Levinson領導。Koller在那裡跟著Levinson和首席醫學官Hal Barron學藥物發現,她自己管這段經歷叫"職業生涯晚期的第二次博後"。2018年她創立了insitro,把機器學習帶入新藥發現。
到2026年5月,insitro累計融資超過7億美元。與百時美施貴寶(Bristol Myers Squibb,簡稱BMS,美國最大的製藥公司之一)在漸凍症領域的合作從2020年啟動至今已推進到三個靶點,累計觸發超過3500萬美元里程碑付款,如果成功交付新藥,合作的里程碑總額可能超過20億美元。2026年1月insitro收購以色列公司CombinAbleAI,發布了TherML平台。TherML的全稱是Therapeutic Machine Learning,它把小分子藥物、寡核苷酸藥物、抗體藥物等不同類型的藥物分子設計能力統一到了同一個AI引擎里,讓insitro可以根據靶點的特性選擇最合適的藥物類型,再由AI輔助設計具體的分子結構。第一個自有候選分子CTRO-1013已完成首次人體試驗設計,計劃2026年進入臨床。Koller本人2023年當選美國國家科學院院士,2024年入選TIME雜誌AI領域最具影響力100人。
正是在Calico,Koller第一次近距離看到藥物發現的實際運作方式。她的反應很直接:這個行業居然還在用50年前的方法做事。
這個判斷在播客中展開了。她的父親大約在2008年前後因自身免疫疾病去世。自身免疫疾病是人體的免疫系統錯誤地攻擊自己的正常組織,她父親的情況是免疫系統攻擊了肺部。當時醫生能給的唯一治療方案是潑尼松,一種強效的免疫抑制類固醇,通過壓制整個免疫系統來減少對自身組織的攻擊。但代價是全身免疫力下降,加上一系列嚴重的副作用。她的風濕科醫生朋友說,潑尼松的副作用和療效之比太差,如果今天才拿去申請FDA審批,可能根本通不過。FDA是美國食品藥品監督管理局,新藥必須通過FDA審批才能上市,而審批標準隨著時間推移變得越來越嚴格。
醫生甚至提議做肺活檢來確認具體是哪種自身免疫疾病,但承認即使確認了也不會改變治療方案,因為只有潑尼松可用。
到了播客錄製時,同類疾病已經有四五種以上的可選藥物。Koller認為新藥發現正處於一個黃金時代,創造更安全、更有效藥物的能力比以往任何時候都強。缺的是足夠的生物學理解來知道把這台引擎指向哪裡。
講座中Koller給出了一個非常尖銳的衡量標準:藥物研發從進入臨床試驗到最終獲批的成功率不到10%。她說自己過去常拿太空探索做參照,但現在太空探索的成功率已經超過了10%。藥物發現可能是僅存的成功率如此低的行業。
這10%的成功率意味著90%的項目失敗了。關鍵問題是:它們為什麼失敗?
Koller在播客和講座中都給出了同樣的回答:多數藥物項目失敗的原因是從一開始就選錯了生物學假設。瞄準了錯誤的靶點,或者對疾病機制的理解本身就不對。分子做得再好也沒用,因為打在了錯誤的位置上。
這個判斷直接決定了insitro的戰略選擇。講座中Koller把AI藥物發現拆成了三個標準階段。第一階段是生物學發現,找到正確的治療假設和靶點,也就是搞清楚應該去干預哪個生物學機制。第二階段是分子設計,把靶點變成藥物分子,也就是設計一個能和靶點蛋白質精確結合的化學結構。第三階段是臨床試驗,把分子放進人體驗證安全性和有效性。insitro把主要精力放在第一階段,因為那裡才是失敗的根源。
如果生物學假設是失敗的根源,那人類對疾病的理解到底到了什麼地步?
Koller在播客中給出了一個量化評估,冷靜到有些殘酷。把人類對疾病機制的理解放在0到100的刻度上:有些疾病可能到了七八十分,但大多數接近零。阿爾茨海默症,也就是英文裡的Alzheimer's,接近零,傳統假說並沒有得到充分驗證,越來越多的人開始懷疑這些假說根本無法解釋疾病的真實發生過程。精神分裂症"幾乎確定接近零"。2型糖尿病稍好一些,胰島素抵抗等機制已經得到驗證,但背後幾乎肯定還有許多未被理解的機制。
她還強調了一個經常被忽略的前提:一種疾病往往不是一種病。乳腺癌已經被證明不是單一疾病,而是多種不同的細胞機制,只是最終都表現為不受控制的細胞增殖。同樣的邏輯幾乎必然適用於阿爾茨海默症和其他複雜疾病。在試圖理解具體機制之前,必須先承認這種異質性。把它們當成一種病來研究,方向從一開始就可能是錯的。
衰老和疾病之間的關係也比直覺中複雜。40歲之後,幾乎所有非兒童疾病的患病風險每年都呈指數上升,說明兩者顯然存在關聯。但Koller更傾向於談健康壽命而非長生不老。健康壽命指的是一個人處於高質量身體和精神狀態的年限,和單純的壽命長度是兩回事。
Koller認為AI對生命科學影響有限的最大瓶頸之一,是能同時理解機器學習和生物學的人太少。兩個領域的術語不同,思維方式不同,對"什麼是好問題"的判斷標準也不同。她自己恰好站在這個交叉點上,這也是她創立insitro的出發點之一。
講座中她用一個尖銳的比喻說明了學術數據和insitro數據的本質區別。學術研究的終極目標是Science論文的"圖二":在所有實驗圖像中精心挑選最能支持假設的那一張,就夠了。
機器學習不挑圖。它吃進所有數據來訓練預測模型。而現代機器學習能力的兩面性恰恰在這裡:它能識別微妙的生物學模式,也同樣能抓住與生物學無關的實驗噪聲。誰在那天操作了移液器、培養基的試劑配比有沒有微小差異、實驗室當天的溫度是多少,這些都是機器學習會抓取並據此做預測的偽信號。在機器學習領域這叫批次效應,指的是不同批次的實驗之間由非生物學因素造成的系統性差異。這些差異對傳統的假設驅動研究影響不大,因為研究者會用肉眼挑選最好的結果,但對需要吃掉所有數據的機器學習來說是致命的。
所以insitro建了一座數據工廠。核心投資不在算法,在流程工程、自動化和一致性協議上。Koller把這類數據叫fit for purpose,為AI量身定製的數據。大量實驗在池化條件下進行,所謂池化就是把所有要比較的細胞放在同一個培養皿的同一個環境裡,而不是分成不同的皿分別處理。這樣操作者、溫度、培養基配比等因素對所有細胞的影響完全一致,批次效應天然消失。
Koller在播客中就說過,過去生物學家用實驗技術產生數據,機器學習作為"副產品"被事後應用。insitro翻轉了這個順序:先想清楚機器學習需要什麼樣的數據,再用生物學工具去主動製造。講座中這條邏輯已經從理論走到了運營層面。
講座錄製前不久,DeepSeek顛覆了整個行業對AI模型的認知。Koller沒有像矽谷有些人感覺發慌,反而覺得這是印證了自己的長期判斷:算法來了又走,上周還被認為是必須的訓練方式,這周就被完全不同的方法取代了。數據不一樣。
高質量的、為AI量身生成的數據是很難複製的競爭壁壘。insitro花了數年建成的數據生成體系,別人也需要同樣長的時間才能追上。這和軟體公司的競爭格局完全不同。
講座中Koller坦率對比了創辦Coursera和insitro的經歷。Coursera是她的第一家公司,在那之前她連一天公司都沒待過,創業就像"從懸崖上跳下去,連底在哪都看不見"。但軟體公司有一個特點:進入門檻低,增長極快。她做TED演講時每周都要給主辦方發新的幻燈片,因為用戶數每周都在漲幾萬。
insitro完全是另一種節奏。**從比特的世界進入了原子的世界,原子不如比特聽話,尤其當這些原子組成了活細胞的時候。**建濕實驗室、調自動化設備、把流程做到足夠一致的質量,每一步都比她預期的難。但這種痛苦正是護城河的來源:軟體公司的低門檻意味著競爭對手也容易進來,insitro的這種基礎設施投入別人也需要很長時間才能複製。
傳統藥物發現依賴動物模型,做法是在小鼠身上人為引入外部干擾來製造疾病,然後在小鼠上治癒它,再希望同樣的方法能治癒人類。問題在於:製造疾病的方式和人體中疾病的真實發生機制往往完全不同。複製的只是疾病在可觀察層面的外在表現,醫學上叫表型,比如記憶力下降、運動能力喪失,但背後的生物學機制完全兩回事。
小鼠自然狀態下不會得阿爾茨海默症,不會得糖尿病,不會得動脈粥樣硬化,也不會得自閉症或精神分裂症。在這些非自然發生的疾病模型上找到的"治癒方案",大多數無法遷移到人體。大多數新藥臨床失敗的原因就在這裡。
insitro的替代方案依賴一項2006年的突破。日本科學家山中伸彌發現了一組轉錄因子,能把已經分化的成熟體細胞逆轉回幹細胞狀態。轉錄因子是一類能開啟或關閉基因表達的蛋白質,相當於細胞內部的開關。山中伸彌找到的這四個特定轉錄因子,能把一個已經定型為皮膚細胞或血液細胞的成熟細胞"重新編程",讓它回到類似胚胎幹細胞的狀態,重新獲得分化成任何細胞類型的能力。這種人工誘導出來的幹細胞叫誘導多能幹細胞,簡稱iPSC。從iPSC出發,可以再分化出神經元、心肌細胞或肝細胞。這些細胞攜帶著供體本人的基因組,但屬於目標器官的細胞類型。
Koller在播客中說,在這項發現之前幾乎沒有人預測這種逆轉是可能的。到了講座的時候,iPSC已經是insitro日常運營的基礎工具。
不同人的基因組攜帶的疾病風險差異有多大?研究者用多基因風險評分的方法來量化:把一個人基因組中所有已知的與某種疾病相關的風險變異加總,算出一個綜合分數。Koller在播客中提到,對於一些研究較充分的疾病,風險評分最高十分位的人群和最低十分位的人群之間,患病風險可以差10到12倍。這個信號是真實存在的。但她認為直接看基因組還不夠,看基因組驅動下細胞實際發生了什麼變化,比直接看基因序列本身離臨床結果更近。這也是為什麼insitro選擇在細胞層面做機器學習。
播客中Koller還提到了一種更進階的模型:類器官。這是用幹細胞培養出來的微型三維組織,能模擬真實器官的部分結構和功能。已經有腦類器官、肝類器官、腎類器官,甚至有研究者把不同類器官連接起來模擬多器官系統。她當時估計三到五年後可以做到當時做不到的疾病模型,從今天的視角看,這個時間窗口正好對上。
有了iPSC衍生的人類細胞,下一個問題是怎麼把這些活的、黏糊糊的東西變成機器學習能處理的數字數據。
Koller在播客中詳細解釋了幾項關鍵的測量技術。第一項是單細胞RNA測序。人體中每個細胞都包含相同的基因組,但不同的細胞會"開啟"不同的基因。一個基因被開啟後,細胞會根據這個基因的指令製造對應的RNA分子,這些RNA分子叫轉錄本。一個基因越活躍,產生的轉錄本就越多。單細胞RNA測序的原理就是把單個細胞中所有基因產生的轉錄本逐一計數,這樣每個細胞的狀態就被轉化成了一組數字:哪些基因活躍、哪些沉默、各自活躍到什麼程度。用這種方法可以同時測量數億個細胞,每一個都不同。
第二項是超解析度顯微鏡。傳統光學顯微鏡受到光的物理特性限制,無法分辨小於約200納米的結構。超解析度顯微鏡通過數學重建技術突破了這個限制,能看到細胞內部更精細的結構,比如蛋白質的分布和亞細胞器的形態。
第三項是微陣列技術,它是最早能在單次實驗中測量全基因組基因活躍程度的工具,雖然精度不如後來的測序技術,但正是微陣列讓人類第一次發現乳腺癌在分子層面其實是多種完全不同的疾病。
這些測量技術共同的作用是把生物學變成了數字信號。**機器學習能在這些數據中看到人眼看不到的模式。**Koller在講座中強調了這一點:人很難分辨兩張細胞顯微鏡圖像之間的微妙差異,機器學習可以。
insitro在ALS項目中的具體做法展示了這套體系怎麼運轉。ALS的全稱是肌萎縮側索硬化症,也叫漸凍症,患者的運動神經元逐漸死亡,導致肌肉萎縮、運動能力喪失,通常在確診後數年內致命,目前沒有能逆轉病程的藥物。ALS的遺傳學背景相當多樣,不同患者的致病基因並不相同,但這些不同的遺傳變異最終都匯聚到同一個終點:運動神經元死亡。這個匯聚是怎麼發生的,此前理解得很差。
insitro的做法是把這些不同的致病遺傳變異放進iPSC衍生的運動神經元系統里。轉錄組學數據,也就是一個細胞中所有基因的RNA轉錄本總量的測量結果,加上顯微鏡圖像,一起餵給機器學習模型,讓模型學會區分健康細胞和患病細胞。然後做遺傳篩選:逐個敲低基因,看哪些基因被敲低後能把疾病狀態逆轉回接近健康的狀態。這裡用到的工具是CRISPR,一種能精確編輯基因的技術,可以在活細胞中關閉、修改或刪除特定的基因。找到的那些"被敲低後能逆轉疾病"的基因就是候選靶點。下一步是設計一種藥物分子,讓這種分子在人體中達到和CRISPR基因敲低相同的效果。
Koller也給出了一個誠實的限定:ALS沒有好的模型系統,"我們只有在把藥物放進人體、看到效果之後,才能完全確認這條路走通了"。不過她補了一句,這其實是整個藥物發現行業的通病。
insitro與BMS和禮來(Eli Lilly)的合作模式幾乎相反,Koller在講座中講了兩者的區別。
BMS合作是相對傳統的生物技術與製藥公司的發現協議。insitro承擔ALS項目的主要發現工作,BMS提供神經退行性疾病領域的經驗和洞察。insitro的工作在產出分子時結束,BMS負責臨床開發和商業化。Koller說BMS在insitro相當早期的階段就投下了賭注,當時公司的能力還沒有完全證明。團隊內部有一個反覆出現的笑話:**"我們在飛行中造飛機。"**後來團隊不覺得好笑了,因為確實同時做兩件事太難了。
根據公開資料,這個合作從2020年啟動至今成果可觀。BMS先後選定了三個ALS遺傳靶點,累計觸發超過3500萬美元里程碑付款。2025年10月雙方延期合作,啟用insitro的ChemML平台為靶點設計新分子。ChemML的全稱是Chemical Machine Learning,是insitro專門用於小分子藥物設計的AI平台,能從大量化學結構數據中學習分子的物理化學性質,預測哪些結構最可能有效且安全。在iPSC衍生的運動神經元驗證實驗中,調控這些靶點能恢復神經突生長,說明受損的運動神經元在干預後重新長出了用於傳導信號的突觸延伸結構。
Lilly合作則幾乎相反。insitro自己完成了代謝領域的全部發現工作,找到了靶點。Lilly的角色是幫insitro製造分子,因為Lilly在抗體製造方面有成熟的技術和產能。抗體是一種大分子藥物,製造工藝比小分子藥物複雜得多,需要在活的細胞系統中培養生產。但項目歸insitro所有,未來的臨床開發和商業化由insitro主導。Koller的評價很直接:insitro如果自己做抗體,可能要花兩倍的時間才能做到Lilly的水平。Lilly在這個合作中扮演的是生態平台的角色,專門尋找有差異化能力的小公司,用自己的製造能力幫它們加速。
除了合作項目,insitro還在獨立推進自有管線。CTRO-1013是第一個完全自主開發的候選分子。同時insitro正在其中一個ALS靶點上同時走兩條路線:一條是自己的寡核苷酸項目,另一條是為BMS開發的小分子項目。寡核苷酸是一種由短鏈核酸分子構成的藥物,它的原理和CRISPR不同但目標類似:通過與目標基因的RNA結合來阻止該基因的蛋白質產物被製造出來,相當於從資訊傳遞的中間環節截斷了致病基因的表達。2026年2月insitro公布的棕色脂肪組織研究則指向了肥胖領域的新方向,一個候選靶點在臨床前模型中實現了15%的體重下降。
講座中Koller被問到對未來的預判。她承認AI藥物發現三個階段中,中間階段進展最快。AlphaFold及其後續工作不僅能預測蛋白質的三維形狀,現在還能反過來設計全新的蛋白質,讓它們摺疊成預先指定的形狀並具備特定的生物學功能。多家公司在這個方向上取得了成果。
她的預判是:**5到10年內,AI輔助的分子設計將成為行業常態。**但她也糾正了一種流行敘事:完全由電腦自主完成的端到端藥物設計"我不知道是否可能"。正確的問題應該是"有AI和沒有AI,差多少",而答案是"差距巨大"。
insitro聚焦的第一階段,找到正確的生物學假設,比分子設計更難。難在問題定義本身就不清晰:設計分子時你可以測試分子是否實現了預期功能,但你提出的治療假設是否正確,只有等到在人體中驗證了才知道。Koller估計5年內會有來自AI輔助發現的藥物進入臨床試驗,10年內這類藥物會越來越多。她給出了一個理由:人類不藉助AI來精確測量和解讀人體生理學數據的能力正在觸及極限,而面對越來越豐富的數據,不用AI來解讀將變得越來越不可能。
然後她提出了一個更遠的願景。大語言模型在不理解語言學或語義學的情況下,能對人類語言做出高質量的預測。類似地,如果有足夠多的高質量人類生物學數據,是否有可能構建出能預測生物學干預後果的模型,即使模型內部沒有一個可解釋的機制?
她沒有宣稱這已經實現。但她說,如果社會要做一件事來釋放AI對人類健康的價值,應該是持續努力創建一個豐富的人類生物學數據語料庫,讓這樣的模型得以訓練。目前生命科學還遠不像自然語言那樣擁有網路規模的數據,但她認為這條路是可以走通的。
講座結尾,Koller被問到當下領導者最需要什麼特質。
第一是大膽:兩年前認為不可能的事情,今天的技術可能已經能做到,不要被過去的認知框住。第二是謙遜:如果你帶著"我有技術,要改變一切,不需要理解你們的問題"的心態進入一個新領域,這種心態"既會傷害科學的成功,也會傷害技術被採納的意願"。第三是敏捷:變化在持續發生,如果把全部賭注押在某一個特定假設上,一旦像DeepSeek這樣的意外出現,就可能措手不及。
insitro的團隊構成本身就是這三條原則的體現。研發團隊中約60%到65%是生命科學家,其餘35%到40%是計算科學家。Koller說這種接近對半的比例在行業中極為少見,多數公司95%偏向一方。在insitro,跨學科團隊從決定研究什麼問題的階段就開始合作。Koller觀察到,當這些人在早期階段就坐在同一個房間裡時,"they don't just come up with better answers, they come up with better questions"。他們提出的不只是更好的答案,還有更好的問題。
至於生存層面的風險判斷,Koller說自己更偏向技術樂觀主義者。人類在歷史上反覆"玩火",從真正的火到越來越危險的各種版本的"火",但到目前為止還活著。即使不考慮AI是否會比最聰明的人類更聰明,單看當前的軌跡,每個人相當於擁有了無限量的高水平研究助理,這本身就能釋放巨大的創造力和創新。至於什麼更可能毀滅人類,她認為是氣候變化,不是超級AI。這和她在播客中的判斷一致:當時她擔心的是CRISPR基因編輯被濫用來製造危險病毒,以及複雜系統的連鎖失控,不是遙遠的超級智能。
從播客到講座,Koller的核心論點保持了連貫性:藥物發現失敗的主因在生物學假設,數據生成應該為機器學習的需求而設計,跨學科團隊的文化建設和算法選擇同樣重要。這些判斷在提出時是推斷,現在有了insitro的ALS靶點在iPSC運動神經元中逆轉疾病表型、BMS付出真金白銀、第一個候選分子即將進入人體試驗的驗證。
高飛的「高飛的電子替身」是誰?:這是一個內容從業者,從自身多年的產業積累出發,記錄「模型時代」所見所聞的AI社交媒體項目。考慮大家的時間是稀缺的,所以落筆主要著眼於:前沿AI人物的談話,因為這些人現在想的,會指向一些未來的方向;科普一些關鍵AI技術的原理,希望多少做到「知其然又知其所以然」;趨勢性AI產品的方法論,能夠對我們的工作和生活帶來啟發。當然,這個欄目始於AI,但不停留於AI,內容偶爾會發散到一些科學的,品味的,有趣的東西。其實更重要的,是希望和大家共創一份AGI生存指南。就像李飛飛說,我們不需要總擔憂「Human Bottlenecks「,要多去想」Human Opportunities」。預測未來每一個Token最好的方法,是親手製造這個Token。最後,替身使者總是會相互吸引,對讀者群的感興趣的同學請加:rohanjojo。
Q1: insitro為什麼把重心放在藥物發現的第一階段而非分子設計?因為90%的新藥失敗發生在第一階段:選錯了生物學假設和靶點。分子設計已經有AlphaFold等工具在快速推進,但找到正確的治療假設是一個更難、定義更模糊、驗證周期更長的問題,也是失敗率的真正來源。insitro用iPSC衍生的人類細胞加大規模機器學習來替代傳統的動物模型和假設驅動的研究,試圖在更接近人類生物學的層面上找到正確的靶點。
Q2: insitro的數據生成與傳統學術實驗室有什麼區別?學術實驗室的數據是為支持假設而生的,挑最好的那張圖就夠了。insitro的數據是為訓練機器學習模型而生的,必須系統化、一致、儘可能消除批次效應和實驗噪聲。這需要大量投入在自動化、流程工程和質量協議上,本質上是建一座數據工廠。Koller認為算法會不斷被顛覆,高質量數據才是持久的競爭壁壘。
Q3: Koller認為AI藥物發現在5到10年內會走到什麼地步?5年內,AI輔助的分子設計將成為行業常態,會有AI顯著參與發現的藥物進入臨床試驗。10年內,AI在生物學假設發現階段的參與會大幅增加,因為人類不藉助AI來精確測量和解讀複雜人體數據的能力正在觸及極限。終極願景是構建一個類似大語言模型對自然語言那樣的、能對生物學干預做出高質量預測的系統,但前提是社會需要投入創建大規模人類生物學數據語料庫。






