浙江大學造了一座"海洋圖書館"，AI終於能讀懂大海了

這項由浙江大學電腦科學與技術學院、軟體技術學院、海洋學院及浙江大學舟山海洋研究中心聯合主導，依託海洋感知國家重點實驗室完成的研究，以預印本論文形式發布於2026年4月25日的arXiv平台，論文編號為arXiv:2605.00877。有興趣深入查閱的讀者可通過該編號在arXiv上找到完整內容。

贊助商廣告

地球表面超過70%被海水覆蓋，海洋既是氣候的調節器，也是無數生物賴以生存的家園，更藏著人類尚未完全揭開的秘密。然而，儘管人工智慧技術在最近幾年取得了驚人的進展——可以寫文章、畫圖、聊天、做題——真正能"讀懂"海洋的AI系統卻幾乎是一片空白。這背後的原因，並不是研究人員不夠努力，而是卡在了一個根本性的難題上：數據。

關於海洋的數據，散落在世界各個角落。有來自船載聲吶儀器掃描海底地形的聲學圖像，有科考船和潛水器拍攝的水下生物照片，有海洋學家發表在期刊上的研究論文，還有各類教科書和科普網站上的文字資料。這些數據之間互不相連，格式各異，質量參差不齊，就像一座城市裡的書籍全部被隨意堆放在不同街道的角落，沒有任何編目，沒有任何統一語言。對於需要"餵大量數據才能學聰明"的AI來說，這種狀態幾乎是致命的。

正是為了打破這個僵局，浙江大學的研究團隊花費大量精力，系統性地構建了一座專門服務於海洋人工智慧的"大型圖書館"，並將其命名為OCEANPILE。這個項目的目標，是把原本七零八落的海洋數據，整理成AI可以高效學習的統一格式，並配套提供訓練指南和考試卷，從而讓AI真正具備處理海洋科學問題的能力。

一、海洋數據的困境：一座沒有目錄的圖書館

要理解這個研究為何重要，不妨先想像這樣一個場景：你要備考一場涉及海洋知識的考試，但考試資料被分散藏在全城數千個不同的地方，有些是手寫的草稿，有些是外文原版、沒有翻譯，有些已經破損模糊，有些內容雖然相關但語言和格式完全不同。在這種情況下，即使是最勤奮的學生，也很難系統複習。

贊助商廣告

這正是現有海洋AI面臨的處境。現有的海洋數據集大多只覆蓋某一個子領域——有些只有聲吶圖像，有些只有水下拍攝的魚類圖片，有些只有文本形式的研究報告。更嚴重的是，這些數據集大多是為特定的傳統檢測任務設計的，根本沒有考慮到大型語言模型的訓練需求。以OceanGPT為代表的早期嘗試雖然走出了重要一步，但它只能處理文本，看不懂圖片；而MarineGPT等多模態系統雖然引入了圖像，卻主要聚焦在水下場景理解這一個方向，忽略了物理海洋學、化學海洋學、生物海洋學等其他大量領域的知識。

研究團隊把這種困境總結為"模態鴻溝"和"語義錯位"。通俗說來，聲吶圖像里的資訊、水下照片裡的資訊、科學論文裡的資訊，三者講的雖然都是"大海"，但就像三個人分別用手語、英語和中文描述同一件事，彼此之間根本無法直接溝通。要讓AI真正理解海洋，就必須架設一座翻譯橋樑，讓這三種"語言"能夠對話。

二、三件套：語料庫、訓練題集、考試卷

OCEANPILE的設計思路，可以類比為建立一套完整的教育體系：先給學生提供教材（語料庫），然後給他們做練習題（訓練指令數據集），最後用標準化考試來檢驗學習效果（評測基準）。三個部分缺一不可。

第一部分叫做OCEANCORPUS，是整個體系的基礎教材庫。它將海洋領域的多種類型數據統一整合在一起，共包含五大類內容。第一類是海洋學教科書和學術論文，覆蓋化學海洋學、生物海洋學、地質海洋學和物理海洋學等多個分支，這些是最權威的知識來源，相當於精心編撰的教科書。第二類是海洋相關的網頁內容，包括科學新聞、教育門戶和專業論壇，這些提供了更貼近實際應用場景的背景知識。第三類是聲吶探測數據集，來自側掃聲吶和多波束測深儀等設備，記錄的是聲波在水下傳播後"聽"到的圖像，是一種人眼看不到的水下感知方式。第四類是水下圖像數據集，包含大量有標註的海洋生物高清照片，覆蓋不同種類和不同棲息地的水下生物。第五類是最獨特的部分——團隊自己實地採集的數據。研究人員在中國舟山海域部署了搭載聲吶系統和高清光學攝影機的自主水下潛航器（AUV），同步採集真實海洋環境中的聲吶圖像和光學圖像，這種數據包含了自然光線變化、複雜海底背景等真實條件，遠比實驗室環境中採集的數據更有代表性。整個OCEANCORPUS最終處理後形成了超過50億個詞元（可以理解為文字或圖像片段）的規模，同時保存了超過30萬份原始PDF文檔。

贊助商廣告

第二部分叫做OCEANINSTRUCTION，是配套的練習題集，共包含約14萬條高質量的問答訓練對。這些數據分為純文本版本和多模態版本兩大類：純文本版本包含69,192條問答對，專門用於強化模型的海洋科學文字理解能力；多模態版本則包含71,932條問答對，每一條都配有一張相關的海洋圖像，覆蓋聲吶分析、海洋生物物種識別和海洋科學圖表解讀等不同任務類型。

第三部分叫做OCEANBENCHMARK，是檢驗AI學習成果的標準化考試卷。它由人工精心整理而成，共包含1,469道題目，分為文本題和多模態題兩大類別。文本題部分叫做"海洋科學問答"，共102道，專門測試模型對海洋領域事實知識的掌握和推理能力。多模態題則進一步細分為三個專項："海洋科學視覺問答"有99道，考查模型對海洋主題圖表和圖像的理解；"聲吶視覺問答"有796道，測試模型解讀聲吶圖像的能力；"海洋生物視覺問答"有472道，專門考察模型對海洋物種的精細識別能力。

三、建圖書館的工程：如何把零散資料變成有用知識

收集數據只是第一步，更關鍵的是如何把這些來自不同渠道、格式各異的原始資料，轉化成AI能夠高效學習的標準化內容。研究團隊為此設計了一套專門的數據預處理流程。

對於教科書和學術論文，處理方式是這樣的：如果文檔有LaTeX或Markdown等結構化原始格式，就直接轉換成乾淨文本，同時保留原有的章節層次；如果只有PDF格式，則使用專門的PDF轉Markdown工具提取文字、圖表、標題等資訊，確保數學公式、科學符號和專業術語都能準確保留。之後還要進行多輪清洗，刪除頁眉、頁腳、頁碼、出版元數據等無關內容，並藉助大語言模型對冗餘或高度重複的內容進行語義層面的去重，最終保留真正有價值的科學知識。

對於網頁內容，處理過程同樣分多個階段。首先用改良的HTML解析器提取核心文本和圖片，同時剔除導航菜單、廣告、嵌入腳本等干擾資訊。然後對文本質量進行過濾，去掉過短、過長或明顯是占位符的段落。對於網頁上附帶的圖片，則使用多模態大語言模型評估其視覺相關性和質量是否達標。最後，所有文檔還要經過基於文本相似度的去重處理。

贊助商廣告

對於聲吶圖像和水下目標檢測數據，處理起來更為複雜。不同數據集的標註格式五花八門，研究團隊首先將所有邊界框統一轉換為標準的坐標格式，並對不同數據集中語義相近但表達不同的類別標籤進行合併，比如"立方體"和"方形箱"被統一為同一類別。在此基礎上，還採用了兩種策略為聲吶數據生成更豐富的文字描述：對於有精確邊界框標註的數據，用視覺語言模型生成描述特定目標位置和類別的文字；對於只有圖像級標籤的數據，則生成描述大類特徵和整體場景的文字。這樣處理的結果，是把原本只有簡單標籤的視覺數據，擴展成了包含豐富語義描述的多模態數據集。

四、練習題是怎麼出的：知識圖譜引導的指令合成

OCEANPILE最具創新性的部分之一，是其生成訓練問答數據的方式。通常，給AI準備訓練數據的方法是讓大模型隨機生成問答，但這種方法在專業領域有明顯缺陷——生成的問題可能浮於表面，缺乏對核心概念的深度覆蓋，也容易遺漏該領域最重要的知識節點。

研究團隊為此專門構建了一個叫做"海洋概念知識圖譜"的結構化知識框架。這個知識圖譜的建設過程可以用編制一本精密的課程大綱來理解。首先，團隊請領域專家從教材分類體系和學科共識出發，確定海洋科學的幾個主要一級學科，例如海洋生物學、物理海洋學、海洋化學等。然後，針對每個一級學科，使用GPT-4o對大量教材和專家整理的文獻進行分析，自動提取候選的二級子類別，比如在海洋生物學下提取"藻類爆發"、"硅藻"、"赤潮"、"海洋生態區"等具體概念節點。接下來，再次使用GPT-4o對這些候選子類別進行合併和篩選，去掉含義重複的節點，並剔除在文獻中出現頻率過低的概念，最終形成一個層次清晰、覆蓋全面的知識結構網路。

有了這個知識圖譜之後，問答數據的生成就有了明確的方向。對於每一段輸入數據——無論是一段教材文本、一張科學圖表還是一張有標註的水下圖像——系統都會先將其映射到知識圖譜中最相關的學科節點和具體概念，再從權威文獻中檢索相關背景知識，然後由GPT-4o綜合所有這些資訊，生成一個問題和對應的標準答案。這個過程確保了生成的訓練數據不是泛泛而談，而是緊扣海洋科學的真實知識體系。對於文本數據，生成的問題側重考察關鍵概念和基礎知識；對於圖像數據，問題側重視覺解讀和科學描述；對於檢測標註數據，則生成針對物種識別或目標分析等具體應用任務的指令。

贊助商廣告

五、質量把關：AI審核加上專家人工覆核

數據質量的把控是整個流程中最不能馬虎的環節。研究團隊為此設計了一套兩階段的質量控制機制，就像一份報告既要經過機器審核，又要經過人工評審一樣。

第一階段是AI自動審核。每一條生成的問答對，都會被多個不同的大語言模型作為獨立評審員，從事實準確性、與問題的相關性、表述清晰度三個維度各自評分，分值區間為0到10分。最終取所有評審員評分的平均值作為該條數據的綜合質量分，低於預設閾值的數據直接被過濾掉。

第二階段是人工專家審核。研究團隊專門開發了一個審核平台，讓經過培訓的海洋科學領域專家隨機抽取過濾後的數據樣本，逐條檢查是否存在事實錯誤、表述模糊或不適合海洋科學教學的內容，並進行相應的修正。為了衡量專家之間判斷的一致程度，團隊計算了"注釋者間一致性"指標，最終得分為0.86分（滿分為1），這個數字在學術界被認為代表了很強的可靠性，意味著不同專家對同一條數據的判斷高度吻合。

OCEANBENCHMARK的構建同樣經過嚴格把關。每道題目由專業海洋科學人士基於精選的權威文獻和多模態樣本獨立設計。每道題再由多位標註員獨立評審，只有獲得過半數評審員認可的題目才能最終入選。這種"少數服從多數"的篩選機制，最大限度地保證了考試題目本身的正確性和科學性。

六、成績單：訓練後的AI學到了多少

所有這些工作最終都要用實驗結果來說話。研究團隊選擇了兩個開源基礎模型進行微調測試：文本模型Qwen3-30B-A3B-Instruct和多模態模型Qwen3-VL-8B-Instruct。同時，他們還拉來了幾個業界頂級的閉源模型作為參照對象，包括Gemini-3-Flash、GPT-4o和GPT-5，讓它們直接在OCEANBENCHMARK上作答，看看這些模型在沒有經過專門海洋訓練的情況下能得多少分。

在文本測試項"海洋科學問答"上，用OCEANPILE數據微調後的Qwen3-30B得分從25.49上升到了26.47，超過了GPT-5的16.67分和GPT-4o的6.86分，並且非常接近Gemini-3-Flash的24.51分。這說明一個本來水平相近的開源模型，在經過針對性的海洋知識訓練後，表現可以達到甚至超越規模大得多的通用頂級模型。

贊助商廣告

多模態測試的結果更加令人印象深刻。用OCEANPILE微調後的Qwen3-VL-8B在"海洋科學視覺問答"上從21.21分提升到29.29分，在"聲吶視覺問答"上從8.04分大幅躍升到19.97分，在"海洋生物視覺問答"上則從9.96分飆升至48.52分，整體多模態綜合得分從13.07分上升到32.59分。這個綜合分數超過了GPT-5的9.67分、GPT-4o的14.35分，甚至略微超過了Gemini-3-Flash的31.21分。一個8B參數規模的小型開源模型，經過OCEANPILE數據的專項訓練，在海洋科學的多模態綜合評測上能夠超越那些規模龐大、訓練資源消耗巨大的閉源通用模型，這個結果本身就說明了高質量領域專屬數據的巨大價值。

案例分析部分進一步生動展示了這種差異。在一道關於海洋化學的文本選擇題上，GPT-5和Qwen3（未微調版）都選錯了，而微調後的版本和Gemini給出了正確答案。在一道需要解讀衛星干涉測量圖的視覺題上，GPT-5、Gemini和未微調的Qwen3都選錯了，只有微調後的版本得出了正確結論。在聲吶圖像識別題上，所有對比模型要麼無法給出有意義的答案，要麼判斷為飛機，只有微調後的版本正確識別出圖中是水下遙控載具（ROV）。在海洋生物物種識別題上，類似的情況再次出現——通用模型紛紛給出錯誤或不確定的答案，而經過專項訓練的版本準確辨認出了珊瑚物種。

歸根結底，OCEANPILE這個項目解決的是一個比技術本身更根本的問題：數據。無論AI模型的架構多麼精巧、參數規模多麼龐大，如果沒有高質量、覆蓋全面、多種模態相互對齊的領域專屬數據，模型就永遠只能在海洋科學的門口徘徊，無法真正走進去。通過把原本七零八落的聲吶數據、水下圖像、科學文獻整合成一個體系嚴密的多模態語料庫，並配套知識圖譜引導的訓練指令和人工精審的評測基準，這項研究為海洋AI的發展鋪設了一條真正可以走通的路。

對於普通人來說，這意味著未來的海洋監測、海洋生物保護、氣候變化研究乃至海洋資源管理，都可能藉助這類技術實現效率上的大幅提升。當AI能夠準確"讀懂"一張聲吶圖像、"認出"一種珊瑚、"理解"一篇海洋學論文，人類探索海洋的能力就不再受限於研究人員的數量和工作時間。

贊助商廣告

這個研究也引發了一個值得繼續思考的問題：在醫學、地質學、氣象學等同樣存在大量專業數據但缺乏統一整理的領域，是否也需要類似的"專業圖書館"工程？高質量的領域專屬數據與模型本身的技術改進，哪個對最終性能的影響更大？OCEANPILE的結果給出了一個頗具說服力的參考答案。有興趣深入了解完整研究方法和數據細節的讀者，可以在arXiv上通過論文編號2605.00877查閱完整論文，數據集和相關代碼也已在Hugging Face平台和GitHub上公開發布。

Q&A

Q1：OCEANPILE包含哪些類型的數據？

A：OCEANPILE包含五類數據：海洋學教科書和學術論文、海洋相關網頁內容、聲吶探測數據（側掃聲吶和多波束測深儀）、有標註的水下生物圖像數據集，以及研究團隊在舟山海域用自主水下潛航器實地採集的同步聲吶和光學圖像數據。整個語料庫經處理後超過50億詞元，並保存了超過30萬份原始PDF文檔。

Q2：海洋概念知識圖譜是怎麼構建的？

A：首先由領域專家確定海洋科學的主要一級學科（如海洋生物學、物理海洋學、海洋化學），再用GPT-4o對教材文獻進行分析，自動提取每個學科下的候選子類別概念節點，然後再次用GPT-4o合併重複節點、篩除低頻概念，最終形成一個層次清晰的知識結構網路。這個知識圖譜隨後被用於引導訓練問答數據的生成，確保覆蓋核心概念。

Q3：用OCEANPILE訓練後的模型比GPT-5、GPT-4o強在哪裡？

A：在OCEANBENCHMARK的多模態綜合評測上，經OCEANPILE微調的Qwen3-VL-8B綜合得分為32.59分，高於GPT-5的9.67分、GPT-4o的14.35分，甚至略超Gemini-3-Flash的31.21分。在聲吶圖像識別和海洋生物物種辨認等專項任務上，通用大模型經常給出錯誤或模糊答案，而專項訓練後的模型能準確識別水下目標和珊瑚物種。