OpenAI推出專為生物學研究定製的大語言模型

周四，OpenAI宣布推出一款專門針對生物學常見工作流程訓練的大語言模型，命名為GPT-Rosalind OpenAI推出專為生物學研究定製的大語言模型，以科學家羅莎琳德·富蘭克林的名字命名。與各大科技公司此前推出的科學領域模型相比，GPT-Rosalind走出了一條不同的路線——後者大多採用通用化路徑，兼顧多個學科領域，而GPT-Rosalind則聚焦於生物學這一垂直領域。

贊助商廣告

在新聞發布會上，OpenAI生命科學產品負責人王云云表示，該系統旨在解決當前生物學研究者面臨的兩大核心瓶頸。其一是數十年基因組測序與蛋白質生化研究所積累的海量數據集，任何一位研究人員都難以獨立消化；其二是生物學擁有眾多高度細分的子領域，每個子領域都有其獨特的技術方法和專業術語。舉例來說，一位遺傳學家若需研究某個在腦細胞中活躍的基因，往往會被浩如煙海的神經生物學文獻所困擾。

王云云介紹，OpenAI以一款大語言模型為基礎，針對50種最常見的生物學工作流程 OpenAI推出專為生物學研究定製的大語言模型進行了專項訓練，並教會模型如何訪問主要公共生物資訊資料庫。經過進一步訓練後，該系統已具備推斷潛在生物通路、篩選優先級藥物靶點的能力。她表示："我們通過已知通路和調控機制將基因型與表現型 OpenAI推出專為生物學研究定製的大語言模型關聯起來，推斷蛋白質可能的結構或功能特性，真正發揮機制性理解的優勢。"

針對大語言模型普遍存在的"迎合性"和"過度樂觀"傾向，OpenAI表示已對模型進行了專項調校，使其更具批判性思維，能夠更主動地告知用戶某個藥物靶點存在的問題。發布會上，GPT-Rosalind的"推理能力"和"專家級"表現被反覆提及。OpenAI方面解釋，"推理能力"指的是模型能夠完成複雜的多步驟分析流程，而"專家級"表現則來源於模型在若干基準測試中的成績。

然而，目前尚不清楚OpenAI是否解決了困擾眾多大語言模型的幻覺問題——當系統被要求解釋其推理步驟時，這一問題尤為突出。結合過往經驗來看，未來我們很可能會同時看到兩種截然不同的反饋：一方面是關於AI發現意外關聯的驚喜報告，另一方面則是明顯錯誤建議的案例。

贊助商廣告

在訪問權限方面，OpenAI目前出於安全考量嚴格限制使用範圍，以防模型被用於優化病毒傳染性等潛在危險用途。目前，僅限美國境內機構申請加入OpenAI的可信訪問部署體系 OpenAI推出專為生物學研究定製的大語言模型，公司將對使用資格進行審核把關。與此同時，一款功能相對有限的"生命科學研究插件"將面向公眾開放。

值得注意的是，目前市場上已有多家公司推出了面向科學領域的智能體大語言模型，但與GPT-Rosalind相比，這些模型的專注度明顯不足，而非專注於生物學這一單一領域。在外界開始對這一新模型的實際效果進行系統評估之前，其高度垂直化的定位究竟能在多大程度上提升實用價值，目前仍有待觀察。

Q&A

Q1：GPT-Rosalind是什麼？它和其他科學領域模型有什麼區別？

A：GPT-Rosalind是OpenAI推出的一款專為生物學研究設計的大語言模型，以科學家羅莎琳德·富蘭克林命名。與其他科技公司推出的通用型科學模型不同，GPT-Rosalind專注於生物學領域，針對50種常見生物學工作流程進行了專項訓練，並具備訪問主要公共生物資訊資料庫的能力，可推斷生物通路、篩選藥物靶點。

Q2：GPT-Rosalind如何解決生物學研究中的數據過載問題？

A：GPT-Rosalind通過系統訓練，能夠整合數十年基因組測序和蛋白質生化研究積累的海量數據，幫助研究人員快速梳理不同子領域的專業文獻與術語。例如，遺傳學家研究神經相關基因時，模型可協助理解神經生物學文獻，並通過已知通路和調控機制將基因型與表現型關聯起來，大幅降低跨領域研究的門檻。

Q3：現在普通研究人員能直接使用GPT-Rosalind嗎？

A：目前不能直接使用。出於安全考慮，OpenAI對GPT-Rosalind的訪問權限進行了嚴格限制，僅允許美國境內的機構申請加入可信訪問部署體系，且需經過資格審核。不過，功能相對有限的"生命科學研究插件"將面向公眾開放，普通研究人員可通過該插件體驗部分相關功能。

贊助商廣告