近年來,大語言模型已成為軟體工程師和知識工作者不可或缺的助手。Nimbus Therapeutics公司邀請亞馬遜生成式AI創新中心與通用人工智慧(AGI
)團隊,共同探索能否為研發新藥的藥物化學家打造同樣強大的AI助手。這樣的智能體有望顯著加速藥物發現進程,從而拯救更多生命。
傳統的藥物發現AI通常依賴圖神經網路(GNN)。GNN是整個製藥研發領域分子屬性預測的核心工具,憑藉其在特定任務上的高準確率贏得了廣泛認可。
然而,這種方式通常需要針對不同分子屬性分別構建和維護多個GNN模型,不僅成本高昂,運營管理也極為複雜。雖然大語言模型近年來在多個研究領域取得了突破性進展,吸引了眾多生物技術企業的目光,但在藥物發現領域,通用型的現成大語言模型在預測精度上仍不及GNN或其他計算方法。
我們採用了一種全新方案,將GNN的高準確率與大語言模型的泛化能力和推理能力相結合。通過監督微調(SFT)和強化微調(RFT)對通用大語言模型進行定製化訓練,我們以極短的時間和極低的人力成本,實現了與多個GNN模型相當的預測效果。
經過微調的大語言模型大幅簡化了工作流程。在傳統模式下,每個GNN都有獨立的使用界面,各自有不同的數據格式和故障模式,輸出的結果也是孤立的數值,化學家需要手動進行整合分析。而每當需要預測新的分子屬性時,就必須重新構建多任務數據集,並從頭訓練和驗證一個全新模型,整個過程往往耗時數周。
相比之下,單一的微調大語言模型允許化學家只需提交一個查詢請求,即可獲取所有感興趣的分子屬性預測結果。如需新增屬性預測,只需進行增量微調,無需從零開始構建新模型。更重要的是,語言模型還開啟了一種質上不同的能力——對話交互。
通過微調後的大語言模型,用戶可以詢問模型輸出背後的推理依據,也可以提出分子結構修改建議,以期獲得所需屬性。這預示著一種將分子屬性預測與分子生成融為一體的交互式助手正在成為可能,我們認為這是AI輔助藥物設計的理想下一步。
定製化大語言模型可以解鎖面向特定科學領域的專業助手,為精簡團隊的生物技術公司提供了一種切實可行的方式,與能夠理解其科學語言的AI系統展開合作。
目前,將一種新藥推向市場平均需要10至15年,花費逾20億美元,且進入臨床試驗的候選藥物中僅約8%最終獲得FDA批准。我們認為,AI助手尤其能夠提升藥物開發早期階段的工作效率,助力化學家設計具備類藥物特性的分子。提高開發速度並增加可行候選藥物的數量,將最大化將安全有效的藥物推向臨床的可能性。
此次與Nimbus Therapeutics的合作,聚焦於藥物開發中三大關鍵類別的屬性預測:
親脂性(含一個相關屬性)決定分子能否穿越生物膜,是藥物吸收和分布的基礎,並影響藥物的所有其他特性。
滲透性(含四個相關屬性)衡量藥物通過血液進入人體的難易程度。
清除率(含六個相關屬性)決定人體消除藥物的速度。若藥物清除過慢可能導致毒性積累;清除過快則藥效不足。
這些屬性的數值範圍各異,且存在複雜的相互依賴關係,在實踐中通常需要分別構建獨立的多任務GNN模型。我們測試了通用大語言模型Claude Sonnet 4和Nova 2 Lite在預測特定分子上述三類屬性方面的表現。儘管這些模型在其他領域表現卓越,但在此任務上卻明顯遜於專用GNN,根據均方根誤差(RMSE)測量,誤差差距在40%至200%以上不等,因屬性而異。
然而,我們發現,通過對Nova 2 Lite依次應用監督微調(SFT)和強化微調(RFT),可以彌合這一差距。我們使用單一微調大語言模型對11種不同分子屬性進行預測,其準確率與多個獨立訓練的多任務GNN模型相當。
我們的大語言模型微調方案遵循一項人才培養與機器學習共通的原則:基礎知識的積累必須先於性能優化。在SFT階段,模型學習了分子結構與屬性關係等核心概念;而在RFT階段,訓練重點轉向通過實踐和反饋來培養預測判斷力。
在SFT階段,我們向Nova 2 Lite提供了超過55,000個標註了11種屬性實驗測量值的分子樣本。SFT至關重要,因為我們要求模型執行的領域特定任務遠超其通用預訓練數據的覆蓋範圍。例如,我們使用一種名為SMILES(簡化分子輸入行表示系統)的符號來表示化學結構。若沒有SFT,大語言模型將無法完成"從SMILES字符串預測化學屬性並以結構化JSON格式輸出"等任務。
第二個訓練階段——強化微調(RFT)——對於實驗數據有限的屬性尤為關鍵,因為在這種情況下,單獨依靠SFT難以實現良好泛化。RFT還支持模型在不同屬性之間進行跨屬性學習遷移。例如,親脂性會影響滲透性,而二者均可為代謝預測提供參考。此外,RFT將學習目標從模式匹配("給定分子X,基於相似樣本輸出數值Y")轉變為質量優化("最小化所有屬性的預測誤差")。
我們在15,000個訓練過程中未曾出現的分子上對SFT和RFT模型進行了測試,並構建了一個系統提示詞,涵蓋核心化學知識以及11種目標化學屬性的定義和預期數值範圍。
在RFT階段,我們嘗試了三種生成獎勵的策略,以指導學習過程。分子屬性預測任務特別適合通過獎勵工程來驅動RFT訓練,因為輸出結果是單一數值,可以精確衡量每次預測的偏差程度。
第一種策略是使用指數衰減函數,使預測值越接近真實值所獲獎勵呈指數級增長。但在誤差較大時,從"非常差"提升到"較差"幾乎獲得不到任何獎勵差異,導致模型無法從最差的預測中學習;而在誤差較小時,微小變化卻引發較大獎勵差異,令獎勵信號充滿噪聲,最終效果適得其反。
第二種策略採用二元通過/失敗獎勵,則產生了相反的問題:模型對漸進式改進毫無激勵——要麼越過一個任意設定的閾值(在我們的實驗中為誤差在10%以內),要麼得不到任何反饋。
基於Huber損失的獎勵策略——這一指標由瑞士統計學家Peter Huber於1964年提出,其特點是限制異常值的影響——有效解決了上述兩個問題。與指數衰減不同,Huber獎勵在誤差較大時不會趨近於零,模型始終能收到有意義的改進信號;同時在接近正確答案時保持穩定,使預測得到精細優化而不會對微小波動過度反應。這一策略取得了最佳效果,相比基線實現了4.9%的R?提升,並被用作同時訓練模型預測多種分子屬性的默認獎勵機制。
在此基礎上進行多屬性訓練,我們微調了一個可同時預測全部11種屬性的單一模型。表現最佳的模型是在全量SFT基礎上疊加RFT訓練的Nova 2 Lite,即對所有模型參數進行了更新。該模型在平均RMSE指標上比Claude Sonnet 4優出39%,比基礎版Nova 2 Lite優出37%。儘管平均落後於基線GNN約5%,但在11種屬性中的7種上,其表現與GNN持平甚至超越——考慮到這是單一大語言模型與多個獨立訓練的多任務GNN模型正面較量,這一結果令人矚目,不僅減少了模型數量,更大幅壓縮了圍繞訓練、部署和維護的整體基礎設施成本。
值得特別指出的是,Nova Forge——一項允許亞馬遜雲服務(AWS)客戶在預訓練和SFT過程中使用私有數據的服務——在SageMaker上同時支持SFT和RFT,具備廣泛的模型定製能力。由於SageMaker在內部統一管理訓練框架和基礎設施,企業無需自行從零構建和維護定製化訓練流水線,從而有效降低了成本。
基於上述初步實驗與研究成果,Nimbus Therapeutics近期已在Amazon Bedrock上部署了其自研的Novus模型。Novus是該公司通過Nova Forge定製構建的大語言模型,目前已能以媲美專用GNN的精度處理分子屬性預測任務。
下一個里程碑是將這些能力延伸至分子設計領域,使模型能夠在一次對話中提出結構修改方案、預測其下游屬性,並解釋其推理過程。
Q&A
Q1:GNN在藥物發現中有什麼局限性,為什麼要用大語言模型來替代?
A:GNN雖然在分子屬性預測上準確率高,但需要針對不同屬性分別構建和維護多個模型,成本高、管理複雜。而且每新增一種屬性預測,就需要重新訓練整套模型,耗時可達數周。相比之下,微調後的大語言模型只需一個模型即可預測多種屬性,還支持對話交互,化學家可以直接詢問預測背後的推理邏輯或提出結構修改建議,大幅簡化了工作流程。
Q2:Huber損失獎勵策略為什麼比其他獎勵策略效果更好?
A:在RFT訓練中,指數衰減獎勵在誤差較大時幾乎不給模型任何改進信號,而二元通過/失敗獎勵則對漸進式改進毫無激勵。Huber損失獎勵策略兼顧了兩者的優點:誤差大時依然提供有意義的學習信號,誤差小時又足夠穩定不會引發過度反應。最終該策略實現了比基線高4.9%的R?提升,被選為多屬性同步訓練的默認獎勵機制。
Q3:Nimbus Therapeutics的Novus模型目前能做什麼,未來計劃往哪個方向發展?
A:Novus是Nimbus Therapeutics基於Amazon Nova Forge定製構建的大語言模型,目前已部署在Amazon Bedrock上,能夠以媲美專用GNN的精度完成分子屬性預測任務。未來,團隊計劃將其能力擴展至分子設計領域,使模型可以在單次對話中提出分子結構修改建議、預測對應的下游屬性,並給出推理解釋,最終實現真正意義上的AI輔助藥物設計助手。






