為了讓科學家更好地訪問美國國家航空航天局(NASA)所收集的大量科學數據,NASA開發了一個科學發現引擎,利用生成式AI來提供上下文結果。
當你生成和收集的數據和NASA一樣多的時候,為研究項目找到恰當的數據集就可能變成了一個問題。
NASA擁有7個運營中心、9個研究設施和18000多名員工,不斷生成大量的數據並保存在30多個科學數據存儲庫中,涵蓋了5個主題領域——天體物理學、太陽物理學、生物科學、物理科學、地球科學和行星科學。總體而言,NASA擁有128個數據源的88000多個數據集和715000份文檔。到2025年,NASA的地球科學數據預計將達到250 PB。在如此複雜的情況下,科學家需要的不僅僅是領域專業知識才能駕馭這一切。
美國阿拉巴馬州亨茨維爾馬歇爾太空飛行中心的NASA數據科學家Kaylin Bugbee表示:「這就要求研究人員知道要訪問哪個存儲庫以及這個存儲庫包含哪些內容,你必須具備科學素養和數據素養。」
2019年,NASA科學任務理事會(SMD)發布了一份基於對科學家一系列採訪的報告,報告明確指出,這些科學家需要集中式的搜索能力來幫助他們找到所需的數據。SMD的使命是與美國科學界進行合作,為科學研究提供贊助,利用飛機、氣球和航天項目對地球軌道、太陽系及其他地區進行調查。SMD認識到,讓科學家和研究人員能夠訪問這些數據是至關重要的,因此根據該報告制定了開源科學計劃(Open Source Science Initiative,OSSI),致力於讓這份公共資助的科學研究是透明、包容、可訪問和可重複的。OSSI的使命是:致力於在科學過程中儘早開放共享軟體、數據和知識(包括算法、論文、文檔和輔助資訊)。
Bugbee說:「它確實是來自科學家和科學界的,也符合我們更廣泛的SMD優先事項,即實現跨學科的科學,從中產生新的發現。」
為了促進這一使命,NASA現在正在轉向使用神經網路和生成式AI,讓海量數據對於科學家們來說都是觸手可及的。
恢復秩序
OSSI的一個關鍵要素是科學發現引擎(Science Discovery Engine,SDE),這是NASA所有開放科學數據和資訊的集中搜索和發現功能,由Sinequa的企業搜索平台提供支持。
Bugbee說:「在SDE創建之前,你無法在其他任何地方搜索到我們的開放數據和文檔,現在它成為我們開放科學數據的一項搜索功能。」
總部位於紐約的Sinequa公司成立於二十多年前,以語義搜尋引擎起家,專注於利用AI和大型語言模型來提供上下文搜索資訊。Sinequa將微軟的Azure OpenAI服務與自己的神經搜索功能進行集成,為該平台提供動力。
具體來說,Sinequa的神經搜索功能結合使用關鍵字和向量搜索來發現資訊,而GPT將收集到的資訊總結為可快速消化和可重用的格式,它還允許科學家使用自然語言提出更深層次的問題並完善搜索或響應。SDE可以理解近9000個不同的科學術語,隨著AI的學習這個數字預計還會進一步增加。
Bugbee和她的跨學科團隊中,有具備數據管理和資訊學專業知識的科學家、開發人員、AI和機器學習專家,他們和利益相關者密切合作以了解他們的需求,並與NASA的CIO辦公室以及Sinequa打造了PoC。
她解釋說:「他們幫助我們構建了我們需要的環境,我們必須擁有開放的能力,因此我們有一些特殊的架構需求。」
Bugbee表示,她的團隊在啟動和運行過程中遇到的最大挑戰之一,就是內容在NASA生態系統中的分散程度。她的團隊花了大約一年的時間試圖了解資訊格局、數據和元數據模式。
「所有真正為數據帶來豐富性的上下文資訊——比如代碼和GitHub,或者描述數據如何開發的算法文檔——這類內容分布在許多網頁上,我們一直在努力找出並確定所有這些東西所在的位置,」她說。
為起飛做好準備
Bugbee對數據管理和數據管理並不陌生。她在致力於提高Data.gov和歐巴馬總統的氣候數據倡議的元數據質量的領域中嶄露頭角。但在SDE的工作確實讓人們認識到良好管理工作流程的重要性:有原則和受控的數據創建、維護和管理的流程。
「如果我能回到過去,我就會從一開始就內置一個更強大的工作流程。我們一開始就使用了開箱即用的方法,並且在一段時間內發揮了作用,但為了真正獲得我們想要的結果,我們需要對工作流程進行規劃。」
雖然SDE仍處於測試階段,但Bugbee表示,她的團隊迄今為止已經收到科學家的大量積極反饋,計劃在今年晚些時候提供一個更全面的作業系統。現在她的團隊已經打造了一個新的用戶界面,允許用戶在開始搜索之前按主題進行過濾。