這項由中國人民大學高嶺人工智慧學院、上海人工智慧實驗室、浙江大學、上海創新研究院、華東師範大學、中關村學院以及武漢大學人工智慧學院聯合完成的研究,發布於2026年6月,論文編號為arXiv:2606.22138,感興趣的讀者可通過該編號查閱完整原文。
一、科學家面對的"語言障礙"問題
在生物醫學領域,研究一種藥物分子、一種蛋白質,或者理解它們之間的相互作用,就好像要同時讀懂三種完全不同的語言:一種是化學家寫在紙上的"分子結構式",一種是蛋白質研究者使用的"胺基酸序列",還有一種是科學家們在論文裡寫的"自然語言描述"。更複雜的是,每種語言還有"平面版本"(序列)和"立體版本"(三維空間結構)之分。
以往的人工智慧模型,就像是只會說一門外語的翻譯官——有的擅長處理蛋白質序列,有的擅長理解分子化學式,有的能讀懂科學論文,但幾乎沒有一個能把所有這些資訊融會貫通地放在同一個"大腦"里處理。這就造成了一個尷尬的現實:當你需要研究"某種小分子藥物如何與某種蛋白質結合"這樣跨界的問題時,現有的AI工具往往需要多個系統協同配合,資訊在系統間傳遞時還容易出現"翻譯錯誤"。
研究團隊把這個問題用一張表格總結得相當清楚:比如ESM3這款模型,只會處理蛋白質,不懂分子;AlphaFold3能處理分子和蛋白質的結構預測,卻讀不懂自然語言;而BioT5這類模型能把分子序列和自然語言聯繫起來,卻完全不懂三維立體結構。沒有任何一款模型能同時處理分子序列、分子三維結構、蛋白質序列、蛋白質三維結構,以及自然語言這五種資訊。
正是為了填補這個空缺,研究團隊構建了BioMatrix——一個能同時"說"所有這五種"語言"的統一生物基礎模型。
二、BioMatrix的核心思路:把所有語言翻譯成同一套"字母表"
BioMatrix解決這個問題的核心思路,可以用一個廚房的比喻來理解。假設你是一家需要處理中餐、西餐、日料和印度料理的"超級餐廳"的廚師長。最笨的辦法是為每種菜系雇一個專門的廚師,他們各自用不同的度量單位(一個用克,一個用盎司,一個用匙)、不同的刀法、不同的火候標準,互相之間根本沒法協作。而聰明的辦法是:把所有菜系的食譜都統一轉換成同一套標準語言——統一的度量單位、統一的操作步驟描述、統一的術語體系——然後用一套通用廚房設備完成所有工作。
BioMatrix採用的就是這種"統一食譜語言"的策略,技術上稱為"統一分詞方案"(unified tokenization scheme)。簡單說,就是把所有不同類型的生物資訊都轉換成同一套"字符集"或"代碼",讓一個大語言模型能夠統一處理。
具體來說,研究團隊做了這樣幾件事。對於分子的"平面表示"(也就是分子式),模型同時支持兩種寫法:一種叫SMILES,是化學領域最常用的線性表示法,比如乙醇寫成CCO;另一種叫SELFIES,是一種更新的表示法,它有個特殊優勢:任何語法正確的SELFIES字符串都必然對應一個合法的分子,不會出現"寫了半天發現這個分子根本不存在"的問題。對於分子的三維結構,研究團隊改進了一種叫MolStrucTok的技術——該技術把分子中每個原子的空間位置(用距離、角度來描述)壓縮成一個離散的數字代碼,就像把GPS坐標量化成郵政編碼一樣。對於蛋白質的平面表示(胺基酸序列),模型使用每種胺基酸對應一個專屬代碼,共26個代碼覆蓋所有常見和非常見胺基酸。對於蛋白質的三維結構,研究團隊使用了一種叫GCP-VQVAE的技術,把蛋白質骨架的幾何資訊壓縮成每個胺基酸殘基對應一個數字代碼,用4096個代碼構成一本"蛋白質結構字典"。而自然語言,就直接使用原有的語言模型詞表。
將這一切整合在一起後,一個蛋白質摺疊問題就變成了這樣一個任務:"給定胺基酸序列代碼串,預測對應的結構代碼串"——這和普通語言模型處理"給定一段中文,預測下一個詞"在形式上完全一樣。
三、兩個關鍵的技術改進:讓"結構字典"更精準
在分子三維結構的編碼方面,研究團隊對原有的MolStrucTok進行了一項精妙的改進。原版的系統用一個共享的神經網路頭部同時預測四個不同的幾何參數:原子間距離、極角、方位角的絕對值,以及方位角的符號(正負)。這四個參數的性質差別很大——距離是正數,兩個角度是有界的弧度值,符號只是0或1——就像用同一把尺子同時測量體重、身高、血壓和心率,各自的量綱完全不同,放在一起會互相干擾。
研究團隊的解決方案是把這個共享頭部拆開,讓四個參數各自擁有一個專屬的神經網路頭部獨立預測。這個改動看起來很小,但效果相當明顯:在QM9分子數據集上,每個幾何參數的重建誤差平均降低了約0.1埃(埃是原子尺度的距離單位,1埃等於0.1納米)。就好像把一個負責同時報告天氣、交通、股市和體育的播音員拆分成四個專業播音員,每個人只報自己最擅長的內容,準確率自然提高了。
在詞彙表設計上,研究團隊還解決了一個"詞彙爆炸"的問題。理論上,分子結構的代碼詞彙表可以通過把925種SELFIES原子符號和512種MolStrucTok結構代碼兩兩組合得到,最多約47萬種組合。但實際訓練數據中真正出現過的組合遠沒這麼多。研究團隊統計了預訓練數據中所有實際出現的組合,按頻率從高到低排列,只保留能覆蓋99%出現頻次的最小前綴集合,最終精簡到11294個聯合詞條。這就像編一本真正實用的詞典——不是把所有理論上能造的詞都收進來,而是只收錄真正在書面語中頻繁出現的詞,讓模型能充分學習每個詞的含義,而不是對著大量幾乎從未見過的生僻詞發愁。
對於蛋白質則採用了不同的策略。如果也把胺基酸符號和結構代碼組合,理論上需要超過7萬個聯合詞條,這幾乎相當於原始語言模型詞彙表的一半,而且許多組合在訓練數據中只出現寥寥幾次,根本學不到什麼有用資訊。因此蛋白質的胺基酸詞條和結構詞條保持獨立,每個殘基用兩個代碼分別描述序列資訊和結構資訊,在自然對齊的同時避免了詞彙表的膨脹。
四、讓新詞彙"不從零開始":聰明的初始化策略
向語言模型的詞彙表中加入幾千個新代碼,會遇到一個實際問題:這些新詞條的初始"理解"從哪裡來?如果隨機初始化,模型在訓練早期對這些新詞條完全無知,需要很長時間才能建立起對它們的基本理解,訓練過程會很不穩定。
研究團隊採用了一種巧妙的"以舊帶新"策略:為每個新詞條編寫一段簡短的自然語言描述,然後用原有語言模型對這段描述的理解來初始化新詞條的表示向量。比如,控制分子SMILES片段開始的特殊標記,描述為"開始一段分子SMILES字符串";代表丙氨酸的蛋白質詞條,描述為"丙氨酸"。對於那些本身就是純粹數字代碼的結構詞條(沒有自然語言對應物),就直接用代碼字符串本身作為描述。這樣,每個新詞條在訓練開始時,就已經"住在"語言模型的語義空間中一個有意義的位置附近了,就像給一個新員工安排了一個有經驗同事的座位,而不是把他扔在一個完全陌生的角落。
五、304.4億詞的學習材料:餵給AI的"生物學圖書館"
構建BioMatrix的第二個關鍵步驟是準備訓練數據。研究團隊為此建立了一個規模達到3044億詞(這裡"詞"是token的意思,大致對應一個漢字或英文詞片段)的預訓練語料庫,涵蓋四大類內容。
第一類是通用文本和科學文本,包括FineWeb-Edu這個大規模教育內容篩選數據集,以及來自FineFineWeb的生物、化學、醫學和健康四個專業子集,還有PubMed收錄的大量同行評審文獻全文。這部分數據的作用是防止模型在大量專業訓練後"忘記"如何說正常的人話,同時獲得紮實的科學表達能力。
第二類是以分子為中心的數據,主要來自PubChem資料庫,覆蓋截至2025年12月的所有化合物,每個分子的SMILES表示、SELFIES表示、三維結構代碼、物理化學性質(如分子量、親水性、極性表面積等),以及IUPAC命名和文字描述,都被組合成訓練樣本。此外還引入了PCQM4Mv2和PubChemQC兩個高精度量子化學數據集的三維構象,以及MolTextNet這個包含約250萬個分子描述對的數據集。
第三類是以蛋白質為中心的數據,來源包括UniRef50(提供大規模蛋白質序列覆蓋)、RCSB蛋白質資料庫(實驗解析的三維結構)、UniProt/Swiss-Prot(含豐富功能注釋的人工審核蛋白質資料庫)、UniProt/TrEMBL(自動注釋的大規模蛋白質序列庫),以及AlphaFold蛋白質結構資料庫(包含約1.3億個預測結構,覆蓋資料庫中60%以上的條目)。對於同時具有序列和結構資訊的蛋白質,研究團隊採用了"三視圖"策略:對每個蛋白質生成三種訓練樣本,分別是只有序列的樣本、只有結構的樣本,以及序列和結構同時出現的聯合樣本,讓模型既學會獨立處理每種模態,也學會聯合理解兩種模態。
第四類是跨實體和交錯數據,專門用於建立不同生物分子之間的關聯知識。其中"交錯生物醫學文本"是通過一個叫BERN2的工具對PubMed、bioRxiv、S2ORC和USPTO專利資料庫中的科學文本進行處理,自動識別文中提及的分子和蛋白質實體,並在實體名稱後面直接插入對應的結構表示——這就像在一本化學教科書里,每次出現"苯"這個詞,後面都自動附上苯的化學結構式和三維坐標,讓模型學會文字描述和結構之間的對應關係。還有來自BindingDB、STITCH、CrossDocked2020等資料庫的分子-蛋白質相互作用數據,以及蛋白質-蛋白質相互作用數據,讓模型能夠理解不同生物分子之間的結合與相互作用。
六、訓練過程:在64塊頂級顯卡上度過的漫長學習之旅
BioMatrix的預訓練在64塊英偉達
H100 GPU上進行,批次大小為1024,序列最大長度8192個詞條,使用AdamW優化器,峰值學習率為0.0002,按餘弦退火策略逐漸降低,共經歷約36400步訓練,消耗完全部3044億詞的訓練數據。研究團隊同時訓練了1.7億參數規模和40億參數規模兩個版本,兩者都以Qwen3語言模型為基礎進行持續預訓練。
訓練過程中出現了一些短暫的損失值"峰刺"——可以把它想像成一個學生在大量學習過程中偶爾因為遇到特別陌生的內容而短暫困惑,但很快就恢復了正常學習節奏。研究團隊對出現峰刺前後的檢查點進行了驗證集測試,確認這些短暫波動並沒有對模型整體學習造成實質性損害。
預訓練完成後,研究團隊還進行了指令微調,讓模型學會按照人類指令完成具體任務。微調數據涵蓋80個具體任務,分屬6大類別,總計約2485萬條訓練樣本。為了防止模型對固定指令格式產生依賴,每個子任務都設計了多個語義等價但措辭不同的指令模板,訓練時隨機抽取,就像老師換著方式問同一道題,確保學生真的理解了概念而不只是死記硬背了一種表述。
七、80項考試的成績單:分子領域的表現
評估BioMatrix能力的方式是讓它參加80項來自已發表文獻的標準測試,與專門為各任務設計的專精模型正面競爭。
在分子序列相關任務中,BioMatrix展現出了相當紮實的綜合能力。以無條件分子生成(即讓模型從零開始生成有效分子)為例,在MOSES和GuacaMol兩個標準測試集上,BioMatrix-4B的SELFIES變體生成的10000個分子中,有效率高達99.8%,獨特性為100%,新穎性98.6%,同時在分子內部多樣性上也超過了大多數專精生成模型。更重要的是,它在有效性、新穎性、多樣性三個維度上達到了一個相當平衡的狀態,而以往的模型往往在一個維度上出色但在其他維度上有所欠缺。
在分子命名轉換(將IUPAC系統命名與分子式、SMILES等互相轉換)任務上,BioMatrix-4B的SMILES變體在IUPAC轉序列的精確匹配率上達到92.83%,超過了參數量約是其兩倍的SciReasoner-8B(該模型的得分為84.40%)。
在分子性質預測(從分子結構預測物理化學或生物活性性質)方面,BioMatrix在六個標準數據集中的五個上達到了大語言模型方法中的最佳或第二佳成績,在HIV活性分類任務上甚至超越了專門為此任務訓練的專精模型。
分子描述生成(給定分子,用自然語言描述其功能和特徵)和基於文本的分子生成(給定文字描述,生成對應分子)這兩個雙向翻譯任務,是最能體現多模態理解優勢的測試場景。在SMolInstruct測試集上,BioMatrix-4B在分子描述生成的METEOR評分上達到61.5分,在基於文本的分子生成任務中,精確匹配率從之前最好的SciReasoner-8B的48%提升到了65.07%,Tanimoto指紋相似度從BioMedGPT-Mol-8B的77.50%提升到了85.47%——這些數字的背後是模型對分子結構與自然語言描述之間對應關係的更深入理解。
在正合成(預測給定反應物會生成什麼產物)和逆合成(給定目標產物,推斷可能的反應物和路徑)任務上,BioMatrix-4B的SMILES變體分別達到了77.94%和45.16%的精確匹配率,在所有大語言模型方法中名列前茅。
分子編輯任務(按照自然語言指令對分子進行局部結構修改)是一個更精細的測試。研究發現BioMatrix在成分添加和成分刪除兩類操作上大幅超越了所有對比基準,但在成分替換(同時做刪除和插入)這個最複雜的操作上仍落後於一些閉源商業模型,這符合研究者的預期——替換操作需要同時定位目標位置、理解上下文約束、執行兩步操作,難度本質上更高。
在分子優化任務上,BioMatrix在logP(脂溶性)和MR(摩爾折射率)兩個性質的單性質優化上,以及在全部八個MolOpt-Instructions測試子任務上,全面超越了DrugAssist等專精優化模型。一個有趣的觀察是:在這裡SELFIES變體表現明顯優於SMILES變體——而在之前的定製化分子生成任務中,SELFIES變體卻幾乎完全失效。研究團隊對此做了深入分析:SELFIES的語法保證讓模型生成的任何輸出都是合法分子,這在"優化一個現有分子使某種性質變好"這類任務中非常有價值;但在"生成滿足特定原子數量/鍵數量/官能團約束"這類需要把結構約束錨定到具體詞條的任務中,SELFIES那種把原子類型和鍵型資訊融合進單個詞條的編碼方式,反而讓模型無法簡單地通過"數詞條數量"來滿足計數約束,導致表現糟糕。這個發現提示:兩種表示法不是相互競爭的,而是互補的,不同任務應該選擇不同的表示法。
在分子問答(MoleculeQA)任務上,BioMatrix-4B的總體準確率達到73.78%,顯著超過此前最佳的MolCA-1.3B的64.79%,在結構類知識子類上的提升尤為突出(83.36%對比71.12%)。
八、三維分子結構的生成:與擴散模型的正面交鋒
在三維分子結構生成這個歷來是擴散模型主場的領域,BioMatrix交出了一份值得關注的成績單。
在無條件三維分子結構生成任務中(生成合法分子的同時生成其三維構象),BioMatrix在二維圖形層面的指標上表現出色:FCD距離(衡量生成分子與真實分子分布差異的指標,越小越好)達到0.064,與擴散模型NExT-Mol(0.070)持平,並且在原子穩定性、分子穩定性、有效性這些二維質量指標上達到滿分或接近滿分。
然而在原子級別的幾何精度上,原始輸出的鍵長誤差比NExT-Mol大得多,原子穩定性也低一些。研究團隊對此給出了直接的解釋:基於離散碼本的自回歸重建方式,本質上會引入量化誤差,而且原子坐標是逐步累積重建的,誤差會沿著遍歷路徑累積,這與擴散模型同時對所有原子坐標進行去噪的做法有本質區別。不過,只需在生成結果上跑一步MMFF分子力場優化(這是一個非常輕量的後處理步驟),FCD從1.04大幅降到0.23,原子穩定性從0.897恢復到0.985,說明這個幾何精度的缺口並非無法彌補,而是可以通過廉價的後處理來恢復的。
在性質條件控制的三維分子生成任務中,BioMatrix的優勢則相當驚人。這個任務要求模型生成的分子在量子化學性質(如HOMO能量、LUMO能量、偶極矩等)上與給定目標值匹配。BioMatrix-4B在六個量子化學性質上全面超越此前最強的NExT-Mol,誤差縮小幅度在2到4倍之間——其中HOMO能量誤差從205 meV降到57 meV,LUMO能量誤差從235 meV降到54 meV,HOMO-LUMO能隙誤差從297 meV降到81 meV。研究團隊認為,這種巨大的提升來自於統一詞空間的優勢:當目標性質值和分子結構代碼都在同一個詞表示空間裡,模型能夠直接從性質描述"預測"結構序列,這種以文本序列形式進行的條件控制,比擴散模型通過梯度引導或條件注入來實現控制更為直接有效。
九、蛋白質任務:從序列理解到摺疊預測的全面考核
BioMatrix在蛋白質相關任務上的表現同樣全面。
在蛋白質序列理解方面,包括EC編號預測(判斷一個蛋白質是哪類酶)、摺疊類型分類(判斷蛋白質屬於哪個結構家族)以及亞細胞定位預測(判斷蛋白質在細胞中位於哪個區室),BioMatrix的兩個規模變體都達到了與或超越SciReasoner-8B(參數量是BioMatrix-4B兩倍)的水準,而GPT-O3、DeepSeek-R1等通用大語言模型在這些任務上幾乎完全失效,證明這類任務確實需要專業的生物學領域訓練。
在蛋白質功能注釋預測方面(預測蛋白質的基因本體論術語、UniProt關鍵詞、功能文字描述等),BioMatrix-4B在關鍵詞F1得分上達到91.26%,基因本體論F1達到86.33%,並在Mol-Instructions測試集的所有子任務上建立了新的最佳成績。值得一提的是,即使是當時最先進的GPT-O3模型,在這些需要精確生物資料庫知識的任務上得分接近於零,而BioMatrix則展現出了真正掌握了生物資料庫內在知識體系的跡象。
在蛋白質知識挖掘任務(從基因符號預測相關組織或癌症類型)上,BioMatrix-4B在基因符號到癌症類型的關聯預測上達到F1=79.53%,與參數量兩倍的SciReasoner-8B(F1=81%)非常接近。
在蛋白質結構理解(給定蛋白質序列和三維結構,回答關於其功能的問題)上,BioMatrix-4B在PFUD測試集的全部四個指標上都超越了此前最佳的ProtTeX-Llama3模型(該模型基於Llama3-8B,參數量是BioMatrix-4B的兩倍),BLEU-2得分從41.54提升到46.07。
在結構預測(摺疊)任務上,BioMatrix-1.7B和BioMatrix-4B都達到了TM-score=0.84的水平,超越了DPLM-2-150M和DPLM-2-650M,與DPLM-2-3B(TM=0.86)非常接近,當然仍與專精摺疊工具ESMFold(TM=0.93)存在差距——後者的整個架構和訓練目標都是為摺疊這一單一任務而設計的,這種差距是預期中的、合理的代價。
在逆摺疊任務(給定蛋白質三維結構,預測可以摺疊成該結構的胺基酸序列)上,BioMatrix取得了令人意外的突出成績:胺基酸恢復率(生成序列與天然序列逐殘基匹配的比例)達到75.50%,遠超DPLM-2-3B的61.67%,超出幅度相當顯著。研究團隊認為這得益於殘基對齊詞表的設計:每個胺基酸詞條和對應的結構詞條嚴格一一對應,逆摺疊就自然變成了一個直接的詞條到詞條映射問題,不需要任何額外的機制來實現這種對應。
在序列-結構協同生成(同時從零生成互相一致的胺基酸序列和骨架結構)任務上,BioMatrix在序列→結構方向達到scTM=0.965,在結構→序列方向達到scTM=0.979,全面超越DPLM-2-650M,並在結構→序列方向上的scTM和scRMSD聯合指標上甚至超過了天然PDB蛋白質作為參照物的水平。在無條件蛋白質骨架生成(從零生成可設計的蛋白質骨架)任務上,BioMatrix-4B的scTM達到0.963,超過了RFDiffusion(0.914)、FrameDiff(0.818)和FoldFlow(0.540)這些專為蛋白質結構生成設計的擴散模型,接近天然PDB結構的0.969上限。在文本引導的蛋白質設計(根據功能文字描述生成胺基酸序列)上,BioMatrix在可摺疊性、序列多樣性等指標上達到了具有競爭力的水平。
十、分子與蛋白質的相互作用:跨實體推理的終極考驗
分子-蛋白質相互作用預測(即預測一種藥物分子和一種蛋白質靶點的結合親和力)是驗證BioMatrix跨實體理解能力的核心場景。
在僅使用序列資訊的結合親和力預測任務中,BioMatrix-4B在BindingDB數據集上的均方根誤差降低到1.030,明顯超越了此前文獻中報告的最優結果(1.340),在PDBBindv2019/CASF-2016數據集上達到1.268,同樣超越了各類蛋白質專用編碼器基準。
在需要同時使用分子三維結構和蛋白質三維結構的結合親和力預測任務(PDBBindv2020數據集)上,BioMatrix-4B在四個評估指標中的三個上取得最佳成績,超越了TANKBind——後者是一個專門為此任務設計的、使用三角幾何感知的交叉注意力機制來聯合處理配體和口袋幾何資訊的專精模型。BioMatrix實現這個結果的方式相當簡潔:把配體的SELFIES對齊結構代碼和蛋白質的逐殘基結構代碼直接拼接在同一個詞序列里,讓統一的語言模型進行推理,沒有任何專門的口袋編碼模組、幾何交叉注意力或融合網路。這個結果直接證明了一件事:把兩種異質生物分子放進同一個離散詞空間,讓下游推理在統一的詞序列上進行,確實足以支撐跨實體的結構感知預測,不一定非要設計針對特定任務的專門架構。
在蛋白質-蛋白質相互作用任務上,BioMatrix在二分類(預測兩種蛋白質是否相互作用)和回歸(預測相互作用的親和力)任務上都達到了與專精蛋白質編碼器持平的水準。
十一、幾個貫穿全文的規律性發現
通過80個任務的系統測試,研究團隊歸納出了幾個值得關注的規律。
關於參數規模擴展的效益:在分子序列任務上,從1.7B擴展到4B帶來平均7.2%的相對提升,且在文本引導的分子生成、名稱轉換、定製化生成等知識密集型任務上收益最為顯著;在蛋白質序列任務上,4B對1.7B的優勢平均約1.9%,主要體現在知識挖掘這類需要大量記憶生物資料庫知識的任務上;而在蛋白質三維結構任務上,兩個規模之間的差異微乎其微(平均僅0.2%),說明這類任務在當前規模下已接近飽和,主要瓶頸不在模型容量而在其他地方。少數任務在4B上的性能反而略低於1.7B,主要集中在小數據集上的回歸任務,研究團隊認為這屬於小數據場景下優化噪聲,並非真實的性能退化。
關於單一模態任務與跨模態任務的差異:在只涉及單一實體、單一模態的任務上,BioMatrix通常和專精模型旗鼓相當,並不展現出顯著優勢;而在需要跨越模態(如文字→結構、結構→文字)或跨越實體(如分子-蛋白質聯合預測)的任務上,BioMatrix相對於專精模型的優勢才明顯擴大。這個模式說明統一詞空間的價值不主要體現在單任務性能的微小提升上,而是體現在讓以前需要多個獨立系統協作的跨模態任務變成單個模型可以直接處理的問題。
關於分詞的幾何精度瓶頸:在所有需要精細原子級別幾何精度的任務上,BioMatrix與專精方法的差距都主要集中在從結構代碼重建三維坐標的步驟上,而非在建模或預測步驟上。這指明了一個清晰的改進方向:更好的結構分詞器(更大的碼本、分層編碼、非自回歸坐標重建等)將直接轉化為這類任務上的性能提升,而無需改動語言模型本身。
十二、不足之處:研究團隊的坦誠自我評估
BioMatrix的研究團隊沒有迴避這個系統的局限性。
分子和蛋白質的三維結構目前存在於兩個獨立的碼本空間中,兩者沒有共享的幾何參考框架,這意味著BioMatrix目前無法原生表示或生成分子-蛋白質複合體的三維結構,也就無法直接支持基於結構的分子對接或口袋條件的配體設計這類任務。這是下一步最重要的技術改進方向。
預訓練語料庫和微調/評估數據之間沒有進行專門的實體級別去重,這意味著評估中用到的一些分子和蛋白質,可能在預訓練階段就已經被模型見過了。研究團隊認為這是大規模生物學基礎模型的普遍現實——各大資料庫和基準測試之間的實體大量重疊,完全做到"零數據泄漏"既不現實也未必必要,但他們提醒讀者注意這一點並據此評估結果。
持續預訓練在大量專業數據上進行,儘管引入了FineWeb-Edu和MegaScience來減輕遺忘,模型在通用語言理解和推理能力上仍可能有所退化,研究團隊坦承沒有系統評估這部分。
最後,BioMatrix目前不涵蓋核酸(DNA、RNA)、多糖、脂質等其他生物學重要實體,擴展到這些實體類型在概念上與現有框架是兼容的,是自然的未來延伸方向。
說到底,BioMatrix做了一件以前沒人完整做成的事:把五種截然不同的生物資訊類型統一放進同一個詞表,用同一套語言模型來處理,而且在80個測試任務中的77個上達到了最好或第二好的水平。這不僅僅是一個技術指標的突破,它更代表了一種思路的驗證:生物資訊的多樣性不必然需要多個獨立AI系統的"聯合國"來處理,一個足夠統一的詞表加上足夠豐富的訓練數據,可以讓單個模型成為真正意義上的"生物語言全科醫生"。
歸根結底,這項研究最令人印象深刻的地方,不是它在任何單一測試上的極致表現,而是它在如此廣泛的任務譜上保持了如此一致的競爭力,同時還揭示了兩個深刻的規律:跨模態任務恰恰是統一設計價值最大的地方,而幾何精度的瓶頸也恰恰不在語言模型本身,而在結構分詞這個下游改進的明確靶點上。這兩個規律將直接指導這個領域未來幾年的技術路線。
感興趣深入了解技術細節的讀者,可以通過論文編號arXiv:2606.22138查閱完整原文,代碼和模型權重也已在GitHub(QizhiPei/biomatrix)和HuggingFace(QizhiPei/biomatrix)上開源。
---
Q&A
Q1:BioMatrix模型支持哪些類型的生物資訊輸入和輸出?
A:BioMatrix支持五種類型的生物資訊:分子的一維序列表示(包括SMILES和SELFIES兩種格式)、分子的三維空間結構、蛋白質的一維胺基酸序列、蛋白質的三維骨架結構,以及自然語言文字描述。這五種資訊類型都被統一轉換成同一套離散代碼詞表,由一個語言模型處理,輸入和輸出都可以是其中任意一種或多種類型的組合。
Q2:BioMatrix的三維分子結構生成和NExT-Mol這類擴散模型相比優勢和劣勢分別是什麼?
A:在二維分子質量指標(有效性、多樣性、分布相似性)上,BioMatrix與NExT-Mol基本持平;在量子化學性質條件控制的三維生成上,BioMatrix誤差遠小於NExT-Mol,約減少3到4倍。但在原始輸出的鍵長幾何精度上,BioMatrix的自回歸重建方式會引入量化誤差,原子級精度弱於擴散模型。不過,在生成結果上加一步輕量MMFF力場優化後,大部分幾何誤差可以被修復。
Q3:SMILES和SELFIES在BioMatrix中各自適合什麼任務?
A:兩種分子表示格式在BioMatrix中各有優勢。SELFIES由於語法上保證生成的字符串必然對應合法分子,在需要生成合法分子的任務(如無條件生成、性質優化)上有效率更高,且在保持化學合法性的同時更好地滿足性質條件;SMILES由於每個原子、鍵、官能團都有固定的表面形式,在需要精確錨定結構約束的任務(如原子數量控制、鍵數量控制、官能團指定、合成路徑預測)上表現更好。研究建議兩者並用,根據任務類型選擇合適的表示格式。






