在大多數人眼中,《Minecraft》只是一款自由度極高的沙盒遊戲。
而在香港科技大學(廣州)與騰訊聯合團隊的眼中,它卻是一座可以演練通用人工智慧的「數字練兵場」。
為了用「小數據辦大事」,研究團隊提出VistaWise框架,首次將「跨模態知識圖譜 輕量化視覺微調」系統性引入開放世界智能體。

實驗結果顯示,在「獲取鑽石」完整鏈條上,VistaWise以33%成功率刷新非API類方法紀錄,較前SOTA提升8個百分點,9個連續子任務全部達到73%以上的成功率。

近日,由雙方共同完成的成果被自然語言處理領域頂級會議EMNLP 2025主會正式錄用。
VistaWise:圖譜「外掛」,四兩撥千斤
隨著大模型在遊戲、數字孿生、線上運營等場景的落地,騰訊發現:要讓AI在複雜開放世界中自主決策,傳統做法需要千萬級標註樣本與數百張高端顯卡,訓練成本動輒百萬。
在此背景下,港科大(廣州)團隊提出「視覺專家微調 外掛知識庫」的極簡路線:
1、僅採集471張遊戲畫面,用一張24G顯存的消費級顯卡即可完成視覺專家模型微調,完整框架可直接部署在筆記本電腦上;
2、將文本攻略、百科知識構建成輕量化知識圖譜,實時注入大模型,顯著降低幻覺;
3、設計「檢索式圖池化」機制,讓大模型在毫秒級時間內精準鎖定任務所需資訊。

VistaWise以「低成本 跨模態」為突破口,提出一套「圖-檢-控」三位一體的極簡框架,核心創新可概括為「一圖譜、兩增強、三協同」:

圖譜級知識外掛
首次將開放世界的文本攻略與實時視覺感知融合成「跨模態知識圖譜」。圖譜僅保留實體名稱與關係,剔除冗餘描述,單張1080p畫面即可在20 ms內完成動態更新。
視覺增強的輕量化檢測
僅使用471張截圖微調YOLOv10-L,實現多類遊戲實體的像素級定位;引入「經驗閾值」距離估計,用像素寬高代替深度估計網路,節省算力的同時減少推理延遲。
推理增強的檢索式池化
設計Path-Searching Entity-Matching雙階段池化,先鎖定「玩家→目標」全局路徑,再按任務提示與視覺屬性局部裁剪以去除冗餘資訊,減少30%推理tokens。
控制增強的桌面級技能庫
基於PyAutoGUI封裝多個原子動作函數,支持鍵鼠混合輸入,讓大模型直接生成帶參調用,擺脫MineFlayer等API束縛,實現「零仿真」真機操作。
VistaWise的決策閉環可抽象為「感知-檢索-推理-執行」四步:

感知:YOLO同時檢測環境與物品面板,輸出實體坐標、尺寸及類別;
檢索:將感知結果實時寫入知識圖譜,觸發雙階段池化,得到任務相關的子圖;
推理:GPT-4o基於任務描述、子圖、記憶棧與技能庫,生成「下一步動作 參數」的自然語言指令;
執行:指令映射為PyAutoGUI調用,驅動Minecraft客戶端完成點擊、拖拽、合成等操作,並實時刷新環境與記憶。
整套系統僅依賴單張24 GB GPU完成訓練,推理階段完全在本地配備8 GB顯卡的筆記本電腦上閉環運行。
小數據撬動大模型,性能與成本雙破紀錄
實驗結果表明,VistaWise訓練數據量可縮減5個數量級(471 vs 160M幀),GPU顯存需求下降87.5%(24 GB vs 192 GB)。
不僅如此,與使用多模態大模型 (MLLM) 進行視覺感知相比,VistaWise使用輕量化視覺檢測和檢索式池化可減少冗餘資訊,在實現了更高性能的同時降低了30.7%的tokens使用,而性能並未出現明顯下降。

在「獲取鑽石」完整鏈條上,使用GPT-4o進行推理,最終開銷僅為Voyager的5%($1.28 vs $25)。

作者資訊:
王浩,通訊作者,香港科技大學(廣州),人工智慧學域助理教授、博士生導師。
2023年博士畢業於新加坡南洋理工大學,曾在TikTok、地平線等公司科研工作。主要研究興趣為大模型生成式智能體和三維重建。
發表TPAMI、IJCV、CVPR、NeurIPS等領域頂級會議期刊論文50餘篇。主持國家自然科學基金青年項目,參與國家科技部國家重點研發計劃項目,獲2023年SMP-IDATA晨星青年基金、2024年騰訊犀牛鳥專題項目。
論文鏈接:https://arxiv.org/abs/2508.18722