過去三年裡,AI行業最熱鬧的敘事幾乎都是圍繞模型和算力展開。
模型能力以周為單位疊代,企業預算也在流向大模型、GPU、訓推平台和各種Agent(智能體)應用,然而,當AI越深入生產環境中,一個樸素的問題越是凸顯出來:
模型也買了,算力也堆了,為什麼很多AI項目依然難以真正產生實際價值?
這當然不是因為「模型還不夠強」,問題其實出在了數據上。
OceanBase CEO楊冰指出:「AI落地企業最後的一公里,應該是一道數據難題。」在他看來,模型再聰明,如果無法理解業務、參與決策、跑通流程,就無法為企業創造價值。
通用大模型和一家企業真正需要的AI之間,隔著的是一條「業務上下文」的鴻溝。
那麼,當Agent開始成為企業軟體和數據系統的新使用者後,資料庫應該如何再一次面向AI進化?
這是所有企業面臨的一大難題,也是OceanBase需要回答的問題。
01 AI最後一公里,回到了資料庫
在進入Agent時代後,資料庫的服務對象,正在悄然發生變化。
過去的資料庫,服務的對象是人。
工程師寫SQL,業務人員看報表,系統按照預設流程增刪改查,資料庫記錄的則是交易、訂單、賬戶、庫存、日誌,是一套企業運轉之後留下來的事實系統。
然而,這樣的流程在進入人工智慧時代,尤其是在Agent開始大量進入各個生產環節後,發生了根本性改變。
來自Gartner的預測數據顯示,到2028年,預計33%的企業級軟體將整合自主型AI Agent,且超過15%的日常工作決策將由AI Agent自主完成。
而Agent調用數據的方式與人類又截然不同,它們可以7×24小時運行,可以高頻並發地查詢、推理、執行任務,還可以在執行過程中不斷生成新的記憶、狀態和行動記錄。
這意味著資料庫第一次迎來了一類非人類用戶,也就是Agent。

基於過往深度參與到螞蟻、阿里等大量數據密集型大型客戶的Agent項目落地實踐經驗,楊冰指出,AI正在為資料庫帶來三個挑戰:
第一,Agent規模不斷增加。
vibe coding的火爆讓幾乎一句話就可以構建一個Agent,這讓Agent構建成本趨近於0,也使得Agent和應用的數量呈指數級增長。以螞蟻靈光為例,僅僅是在幾個月的時間內,其所承載的應用就超過了3000萬個。
第二,Agent開始執行生產任務。
企業落地Agent必然需要處理核心業務數據,這些業務對於準確性和一致性有著很高的要求,在AI時代,隨著越來越多非結構化數據進入核心系統,混合搜索成為了以搜索為核心交互方式的Agent的剛需,這就需要在資料庫上增加強大的搜尋引擎能力。

第三,Agent長期運行的正確性和自我進化能力需要得到保障。
Agent進化本質上需要大量可以被毫秒級複製、試驗、回滾的評測數據集,傳統資料庫沒有為Agent大量試錯和自我進化進行設計,無法支持生產級Agent的Harness
工程,而這是AI資料庫必備的能力。
傳統資料庫應對這三大挑戰的過程,也將是重新構建面向Agent的AI原生資料庫的過程。
更重要的是,Agent需要的數據也不再只是表格,一筆訂單、一段客服錄音、一張發票照片、一份合同文本、一次用戶對話、一條風控規則,它們共同構成了企業業務的上下文。過去被歸檔、備份、沉睡的非結構化數據,在大模型出現之後,第一次變成了可理解、可計算、可調用的資產。
換句話說,AI時代的資料庫不能只回答「數據在哪裡」,還要回答「這些數據是什麼意思」、「能不能實時給Agent使用」,以及「能不能在使用中反哺模型和業務」。

Agent每一次回答,本質上都是上下文+模型調用的體現,模型決定了能力的上限,但數據和上下文決定了業務價值,企業Agent應用之間的差距,越來越不只是「誰的模型更強」,而是「誰能讓AI真正讀懂業務」。
資料庫由此也被再次推到了舞台中央,在Agent不斷湧入企業生產系統的這一年,成為了AI落地的最後一公里。
02 只做AI檢索不夠,湖庫一體是AI資料庫的必然
今天談AI資料庫,很容易把它理解成傳統資料庫加一個向量檢索插件,或者把搜尋引擎、向量庫、數據湖、交易庫拼在一起。
不過,這不是OceanBase認為AI資料庫該有的樣子。
OceanBase CTO楊傳輝將AI資料庫稱為「第四代資料庫的基建」,在他看來,湖庫一體是這代資料庫的關鍵特性。
為什麼是湖庫一體?

因為「湖」和「庫」各自解決的問題不同,湖擅長開放、海量、多模態和多樣化計算,庫擅長事務、一致性、實時性和可靠性,AI真正進入企業核心場景之後,兩者缺一不可。
如果結構化數據在交易庫里,文檔圖片在對象儲存里,向量在向量庫里,搜索在搜尋引擎里,離線加工又在另一套大數據系統里,Agent調用數據時就會面對多套系統、多套權限、多份元數據、多條鏈路,結果就是上下文不完整、數據不一致、權限難治理,延遲和運維複雜度也一起上升。
這在輔助問答里可能只是體驗問題,但在風控、安全、金融、醫療等場景里,慢一拍、錯一條,就可能變成業務事故。
所以,在AI時代的資料庫,湖庫一體是OceanBase給出的答案。
楊傳輝則用幾個更具體的技術指標來解釋這樣的改變:
第一,多模表。
過去關係表主要承載整數、字符串、時間等結構化欄位,到了AI時代,一張表里還要能容納文本列、向量列、LOB列、AI列等多模數據,雖然用戶看到的仍是一張表,但表背後可以同時管理結構化和非結構化數據。

第二,AI列。
它把模型能力引入資料庫內部,可以對數據做embedding、打標、摘要等處理,並保證這些AI加工和數據本身保持一致性,也就是說,非結構化數據不再只是「存下來的文件」,而是可以被搜索、計算、治理和調用的數據資產。
第三,混合搜索。
今天AI資料庫和原有關係型資料庫最大的區別,是能夠支持混合搜索,在同一張多模表里完成關係過濾、向量搜索、全文搜索、圖搜索和AI計算,這比單純向量檢索更接近真實業務需要。因為Agent的搜索很少是單一模態的,它可能先用結構化條件縮小候選集,再用向量召回語義相近內容,再結合全文、圖關係和重排獲得結果,真正的上下文工程,天然需要混合搜索。

這也是OceanBase反覆強調「一體化」的原因,AI資料庫不是把幾個系統粘在一起,而是要把多模態、在線事務、實時分析、開放計算和Agent上下文,放到同一個強一致性底座上。
為此,OceanBase重寫了AI時代的數據底座。
03 OceanBase如何再造AI資料庫?
6月29日,OceanBase正式對外發布面向AI時代的湖庫一體AI資料庫,提出以湖庫一體為核心架構,將數據湖的開放與海量儲存能力、資料庫的事務處理與分析能力,以及多模態數據處理能力統一到一套強一致的數據底座上。

OceanBase AI資料庫以湖庫一體的Lakebase為底層引擎,解決AI時代的數據底座問題。
OceanBase Lakebase面向結構化、非結構化、多模態數據,提供統一管理、加工、檢索和調用能力,既可以獨立部署,服務全新的AI業務場景,也可以作為智能疊加層,與企業已有的數據湖和數據系統並行運行。
在OceanBase Lakebase之上,是OceanBase DataStudio,面向數據生產、治理與服務,覆蓋數據集成、數據加工、數據治理、數據發布、資產管理等環節,DataStudio要解決的是企業如何把分散的數據資產變成可管理、可理解、可調用的數據服務。
在OceanBase DataStudio之上是支撐各類數據應用的快速落地,OceanBase DataPilot是其中之一,OceanBase產品部總經理韓富晟將DataPilot定義為更懂業務的數據智能Agent,用來幫助業務人員通過自然語言完成經營指標查詢、歸因分析、洞察報告生成和監控看板搭建,DataPilot的目標不是讓業務人員多一個報表工具,而是讓數據從「看得見」走向「用得上、能決策」。

這套產品組合的邏輯很清楚,Lakebase作為底層引擎,DataStudio負責數據生產和治理,DataPilot負責業務智能入口,再結合PowerMem記憶智能體和PowerRAG企業知識庫,OceanBase試圖把AI應用落地所需的數據鏈路收斂到一套平台里。
據悉,OceanBase AI資料庫可降低整體TCO約30%-50%,目前該能力已在螞蟻阿福、靈光等場景完成驗證,其中靈光累計生成數千萬個「閃應用」,驗證了湖庫一體架構在千萬級Agent場景下的可行性。
十五年前,雙十一這樣的極限業務場景倒逼了OceanBase原生分布式資料庫的誕生,今天,靈光、阿福,以及國內正在湧入各類生產場景的Agent又在倒逼下一代AI資料庫的出現。
作為已服務超400家金融機構,連續兩年位居中國分布式資料庫本地部署市場第一,也是迄今唯一同時登頂TPC-C和TPC-H兩項國際權威測試的資料庫,OceanBase業務已經覆蓋全球多個國家和地區。
當資料庫開始為Agent重寫,AI資料庫也就不再是資料庫行業的一個小分支,而是AI應用能否真正進入企業核心業務的基礎設施問題,楊冰指出:「下一個10年,OceanBase的目標就是再造一個AI時代的資料庫。」
這一次,OceanBase選擇從資料庫核心出發,將長期在金融核心系統中驗證的事務一致性、高可用與彈性能力,延伸至湖與多模態數據體系之上,使其具備統一支撐AI負載的能力,這是從底層出發的重構,而非在舊架構上的疊加修補。






