周四,OpenAI宣布推出一款專門針對生物學常見工作流程訓練的大語言模型,命名為GPT-Rosalind
,以科學家羅莎琳德·富蘭克林的名字命名。與各大科技公司此前推出的科學領域模型相比,GPT-Rosalind走出了一條不同的路線——後者大多採用通用化路徑,兼顧多個學科領域,而GPT-Rosalind則聚焦於生物學這一垂直領域。
在新聞發布會上,OpenAI生命科學產品負責人王云云表示,該系統旨在解決當前生物學研究者面臨的兩大核心瓶頸。其一是數十年基因組測序與蛋白質生化研究所積累的海量數據集,任何一位研究人員都難以獨立消化;其二是生物學擁有眾多高度細分的子領域,每個子領域都有其獨特的技術方法和專業術語。舉例來說,一位遺傳學家若需研究某個在腦細胞中活躍的基因,往往會被浩如煙海的神經生物學文獻所困擾。
王云云介紹,OpenAI以一款大語言模型為基礎,針對50種最常見的生物學工作流程
進行了專項訓練,並教會模型如何訪問主要公共生物資訊資料庫
。經過進一步訓練後,該系統已具備推斷潛在生物通路
、篩選優先級藥物靶點
的能力。她表示:"我們通過已知通路和調控機制將基因型與表現型
關聯起來,推斷蛋白質可能的結構或功能特性,真正發揮機制性理解的優勢。"
針對大語言模型普遍存在的"迎合性"和"過度樂觀"傾向,OpenAI表示已對模型進行了專項調校,使其更具批判性思維,能夠更主動地告知用戶某個藥物靶點存在的問題。發布會上,GPT-Rosalind的"推理能力"和"專家級"表現被反覆提及。OpenAI方面解釋,"推理能力"指的是模型能夠完成複雜的多步驟分析流程,而"專家級"表現則來源於模型在若干基準測試中的成績。
然而,目前尚不清楚OpenAI是否解決了困擾眾多大語言模型的幻覺問題——當系統被要求解釋其推理步驟時,這一問題尤為突出。結合過往經驗來看,未來我們很可能會同時看到兩種截然不同的反饋:一方面是關於AI發現意外關聯的驚喜報告,另一方面則是明顯錯誤建議的案例。
在訪問權限方面,OpenAI目前出於安全考量嚴格限制使用範圍,以防模型被用於優化病毒傳染性等潛在危險用途。目前,僅限美國境內機構申請加入OpenAI的可信訪問部署體系
,公司將對使用資格進行審核把關。與此同時,一款功能相對有限的"生命科學研究插件
"將面向公眾開放。
值得注意的是,目前市場上已有多家公司推出了面向科學領域的智能體大語言模型,但與GPT-Rosalind相比,這些模型的專注度明顯不足,而非專注於生物學這一單一領域。在外界開始對這一新模型的實際效果進行系統評估之前,其高度垂直化的定位究竟能在多大程度上提升實用價值,目前仍有待觀察。
Q&A
Q1:GPT-Rosalind是什麼?它和其他科學領域模型有什麼區別?
A:GPT-Rosalind是OpenAI推出的一款專為生物學研究設計的大語言模型,以科學家羅莎琳德·富蘭克林命名。與其他科技公司推出的通用型科學模型不同,GPT-Rosalind專注於生物學領域,針對50種常見生物學工作流程進行了專項訓練,並具備訪問主要公共生物資訊資料庫的能力,可推斷生物通路、篩選藥物靶點。
Q2:GPT-Rosalind如何解決生物學研究中的數據過載問題?
A:GPT-Rosalind通過系統訓練,能夠整合數十年基因組測序和蛋白質生化研究積累的海量數據,幫助研究人員快速梳理不同子領域的專業文獻與術語。例如,遺傳學家研究神經相關基因時,模型可協助理解神經生物學文獻,並通過已知通路和調控機制將基因型與表現型關聯起來,大幅降低跨領域研究的門檻。
Q3:現在普通研究人員能直接使用GPT-Rosalind嗎?
A:目前不能直接使用。出於安全考慮,OpenAI對GPT-Rosalind的訪問權限進行了嚴格限制,僅允許美國境內的機構申請加入可信訪問部署體系,且需經過資格審核。不過,功能相對有限的"生命科學研究插件"將面向公眾開放,普通研究人員可通過該插件體驗部分相關功能。






