當資料庫開始為Agent重寫，OceanBase如何再造AI資料庫？

過去三年裡，AI行業最熱鬧的敘事幾乎都是圍繞模型和算力展開。

贊助商廣告

模型能力以周為單位疊代，企業預算也在流向大模型、GPU、訓推平台和各種Agent（智能體）應用，然而，當AI越深入生產環境中，一個樸素的問題越是凸顯出來：

模型也買了，算力也堆了，為什麼很多AI項目依然難以真正產生實際價值？

這當然不是因為「模型還不夠強」，問題其實出在了數據上。

OceanBase CEO楊冰指出：「AI落地企業最後的一公里，應該是一道數據難題。」在他看來，模型再聰明，如果無法理解業務、參與決策、跑通流程，就無法為企業創造價值。

通用大模型和一家企業真正需要的AI之間，隔著的是一條「業務上下文」的鴻溝。

那麼，當Agent開始成為企業軟體和數據系統的新使用者後，資料庫應該如何再一次面向AI進化？

這是所有企業面臨的一大難題，也是OceanBase需要回答的問題。

01 AI最後一公里，回到了資料庫

在進入Agent時代後，資料庫的服務對象，正在悄然發生變化。

過去的資料庫，服務的對象是人。

工程師寫SQL，業務人員看報表，系統按照預設流程增刪改查，資料庫記錄的則是交易、訂單、賬戶、庫存、日誌，是一套企業運轉之後留下來的事實系統。

然而，這樣的流程在進入人工智慧時代，尤其是在Agent開始大量進入各個生產環節後，發生了根本性改變。

來自Gartner的預測數據顯示，到2028年，預計33%的企業級軟體將整合自主型AI Agent，且超過15%的日常工作決策將由AI Agent自主完成。

而Agent調用數據的方式與人類又截然不同，它們可以7×24小時運行，可以高頻並發地查詢、推理、執行任務，還可以在執行過程中不斷生成新的記憶、狀態和行動記錄。

這意味著資料庫第一次迎來了一類非人類用戶，也就是Agent。

基於過往深度參與到螞蟻、阿里等大量數據密集型大型客戶的Agent項目落地實踐經驗，楊冰指出，AI正在為資料庫帶來三個挑戰：

贊助商廣告

第一，Agent規模不斷增加。

vibe coding的火爆讓幾乎一句話就可以構建一個Agent，這讓Agent構建成本趨近於0，也使得Agent和應用的數量呈指數級增長。以螞蟻靈光為例，僅僅是在幾個月的時間內，其所承載的應用就超過了3000萬個。

第二，Agent開始執行生產任務。

企業落地Agent必然需要處理核心業務數據，這些業務對於準確性和一致性有著很高的要求，在AI時代，隨著越來越多非結構化數據進入核心系統，混合搜索成為了以搜索為核心交互方式的Agent的剛需，這就需要在資料庫上增加強大的搜尋引擎能力。

第三，Agent長期運行的正確性和自我進化能力需要得到保障。

Agent進化本質上需要大量可以被毫秒級複製、試驗、回滾的評測數據集，傳統資料庫沒有為Agent大量試錯和自我進化進行設計，無法支持生產級Agent的Harness 當資料庫開始為Agent重寫OceanBase如何再造AI資料庫工程，而這是AI資料庫必備的能力。

傳統資料庫應對這三大挑戰的過程，也將是重新構建面向Agent的AI原生資料庫的過程。

更重要的是，Agent需要的數據也不再只是表格，一筆訂單、一段客服錄音、一張發票照片、一份合同文本、一次用戶對話、一條風控規則，它們共同構成了企業業務的上下文。過去被歸檔、備份、沉睡的非結構化數據，在大模型出現之後，第一次變成了可理解、可計算、可調用的資產。

換句話說，AI時代的資料庫不能只回答「數據在哪裡」，還要回答「這些數據是什麼意思」、「能不能實時給Agent使用」，以及「能不能在使用中反哺模型和業務」。

Agent每一次回答，本質上都是上下文+模型調用的體現，模型決定了能力的上限，但數據和上下文決定了業務價值，企業Agent應用之間的差距，越來越不只是「誰的模型更強」，而是「誰能讓AI真正讀懂業務」。

資料庫由此也被再次推到了舞台中央，在Agent不斷湧入企業生產系統的這一年，成為了AI落地的最後一公里。

贊助商廣告

02 只做AI檢索不夠，湖庫一體是AI資料庫的必然

今天談AI資料庫，很容易把它理解成傳統資料庫加一個向量檢索插件，或者把搜尋引擎、向量庫、數據湖、交易庫拼在一起。

不過，這不是OceanBase認為AI資料庫該有的樣子。

OceanBase CTO楊傳輝將AI資料庫稱為「第四代資料庫的基建」，在他看來，湖庫一體是這代資料庫的關鍵特性。

為什麼是湖庫一體？

因為「湖」和「庫」各自解決的問題不同，湖擅長開放、海量、多模態和多樣化計算，庫擅長事務、一致性、實時性和可靠性，AI真正進入企業核心場景之後，兩者缺一不可。

如果結構化數據在交易庫里，文檔圖片在對象儲存里，向量在向量庫里，搜索在搜尋引擎里，離線加工又在另一套大數據系統里，Agent調用數據時就會面對多套系統、多套權限、多份元數據、多條鏈路，結果就是上下文不完整、數據不一致、權限難治理，延遲和運維複雜度也一起上升。

這在輔助問答里可能只是體驗問題，但在風控、安全、金融、醫療等場景里，慢一拍、錯一條，就可能變成業務事故。

所以，在AI時代的資料庫，湖庫一體是OceanBase給出的答案。

楊傳輝則用幾個更具體的技術指標來解釋這樣的改變：

第一，多模表。

過去關係表主要承載整數、字符串、時間等結構化欄位，到了AI時代，一張表里還要能容納文本列、向量列、LOB列、AI列等多模數據，雖然用戶看到的仍是一張表，但表背後可以同時管理結構化和非結構化數據。

第二，AI列。

它把模型能力引入資料庫內部，可以對數據做embedding、打標、摘要等處理，並保證這些AI加工和數據本身保持一致性，也就是說，非結構化數據不再只是「存下來的文件」，而是可以被搜索、計算、治理和調用的數據資產。

第三，混合搜索。

今天AI資料庫和原有關係型資料庫最大的區別，是能夠支持混合搜索，在同一張多模表里完成關係過濾、向量搜索、全文搜索、圖搜索和AI計算，這比單純向量檢索更接近真實業務需要。因為Agent的搜索很少是單一模態的，它可能先用結構化條件縮小候選集，再用向量召回語義相近內容，再結合全文、圖關係和重排獲得結果，真正的上下文工程，天然需要混合搜索。

贊助商廣告

這也是OceanBase反覆強調「一體化」的原因，AI資料庫不是把幾個系統粘在一起，而是要把多模態、在線事務、實時分析、開放計算和Agent上下文，放到同一個強一致性底座上。

為此，OceanBase重寫了AI時代的數據底座。

03 OceanBase如何再造AI資料庫？

6月29日，OceanBase正式對外發布面向AI時代的湖庫一體AI資料庫，提出以湖庫一體為核心架構，將數據湖的開放與海量儲存能力、資料庫的事務處理與分析能力，以及多模態數據處理能力統一到一套強一致的數據底座上。

OceanBase AI資料庫以湖庫一體的Lakebase為底層引擎，解決AI時代的數據底座問題。

OceanBase Lakebase面向結構化、非結構化、多模態數據，提供統一管理、加工、檢索和調用能力，既可以獨立部署，服務全新的AI業務場景，也可以作為智能疊加層，與企業已有的數據湖和數據系統並行運行。

在OceanBase Lakebase之上，是OceanBase DataStudio，面向數據生產、治理與服務，覆蓋數據集成、數據加工、數據治理、數據發布、資產管理等環節，DataStudio要解決的是企業如何把分散的數據資產變成可管理、可理解、可調用的數據服務。

在OceanBase DataStudio之上是支撐各類數據應用的快速落地，OceanBase DataPilot是其中之一，OceanBase產品部總經理韓富晟將DataPilot定義為更懂業務的數據智能Agent，用來幫助業務人員通過自然語言完成經營指標查詢、歸因分析、洞察報告生成和監控看板搭建，DataPilot的目標不是讓業務人員多一個報表工具，而是讓數據從「看得見」走向「用得上、能決策」。

贊助商廣告

這套產品組合的邏輯很清楚，Lakebase作為底層引擎，DataStudio負責數據生產和治理，DataPilot負責業務智能入口，再結合PowerMem記憶智能體和PowerRAG企業知識庫，OceanBase試圖把AI應用落地所需的數據鏈路收斂到一套平台里。

據悉，OceanBase AI資料庫可降低整體TCO約30%-50%，目前該能力已在螞蟻阿福、靈光等場景完成驗證，其中靈光累計生成數千萬個「閃應用」，驗證了湖庫一體架構在千萬級Agent場景下的可行性。

十五年前，雙十一這樣的極限業務場景倒逼了OceanBase原生分布式資料庫的誕生，今天，靈光、阿福，以及國內正在湧入各類生產場景的Agent又在倒逼下一代AI資料庫的出現。

作為已服務超400家金融機構，連續兩年位居中國分布式資料庫本地部署市場第一，也是迄今唯一同時登頂TPC-C和TPC-H兩項國際權威測試的資料庫，OceanBase業務已經覆蓋全球多個國家和地區。

當資料庫開始為Agent重寫，AI資料庫也就不再是資料庫行業的一個小分支，而是AI應用能否真正進入企業核心業務的基礎設施問題，楊冰指出：「下一個10年，OceanBase的目標就是再造一個AI時代的資料庫。」

這一次，OceanBase選擇從資料庫核心出發，將長期在金融核心系統中驗證的事務一致性、高可用與彈性能力，延伸至湖與多模態數據體系之上，使其具備統一支撐AI負載的能力，這是從底層出發的重構，而非在舊架構上的疊加修補。