當機器人在你家住了三天後，它能記住你昨晚幾點回家、把鑰匙放在哪裡嗎？——港科大團隊打造會「記事」的家用機器人評測體系WorldLines

這項由香港科技大學（廣州校區）與香港科技大學、Knowin公司聯合開展的研究，以預印本形式發布於2026年6月17日，論文編號為arXiv:2606.18847，感興趣的讀者可通過該編號在arXiv平台查閱完整原文。

贊助商廣告

一個家用機器人，如果只會在你開口說話的那一刻給出回答，卻完全不記得昨天發生的事，那它其實不比一台高級的語音助手強多少。真正有用的家庭助手，必須像一位長期住在你家的貼心管家，知道你喜歡幾點喝咖啡，記得你上次把健身器材放到了哪個角落，甚至還要意識到"我沒親眼看到這件事，所以我不能完全確定"。這正是這項研究想要解決的核心問題。

一、家裡的機器人為什麼總是"健忘"

以一個具體場景來理解這個問題會更清晰。假設你告訴家裡的機器人："我今天早上七點半去健身房，八點半回來，想在客廳看場電影，還買了些水果放進了冰箱。"這句話里藏著四類資訊：你的日程安排、你的習慣偏好、物品的位置變化，以及需要跨越時間才能完成的任務安排。現有的家用機器人或智能對話助手，處理這類資訊時往往只能應對當下那一刻，等下一次對話開始，之前說過的一切幾乎已經消失在記憶的角落裡。

研究團隊觀察到，現有的兩類評測體系都存在各自的盲區。一類是針對語言對話的長期記憶評測，比如已有的LoCoMo、LongMemEval等研究，這類評測確實關注"記憶"，但它們評測的是機器人在純文字對話中能不能記住用戶說過的話，完全沒有考慮真實家庭中物品被搬來搬去、設備被開了又關的那種動態世界。另一類是針對機器人執行任務的評測，比如PARTNR、MEMENTO等，這些評測關注機器人能不能完成搬東西、開冰箱等具體動作，但它們通常只評測單次短暫的任務，任務結束後世界就被重置了，完全不考慮跨天、跨場景的記憶積累。

換句話說，一方只管記事，不管幹活；另一方只管幹活，不管記事。這兩者之間的巨大空白，正是這項研究想要填補的地方。

贊助商廣告

二、WorldLines：給家用機器人打造一個"連續劇"式的考場

研究團隊創造了一個名為WorldLines的評測基準，其核心思路可以用"連續劇"來理解。

普通的機器人評測像是一集獨立的綜藝節目，每集開始時場景重置，選手從零開始表現。而WorldLines則像一部跨越多天的家庭生活連續劇，劇中的物品、設備狀態和人物習慣在每一集之間都會延續，今天把鍵盤放到了沙發上，明天的劇情就要考慮這個變化。

這個"連續劇"是怎麼拍出來的呢？整個製作流程分成幾個環節，首先是搭建一個真實的家庭場景，包括房間布局、可以被搬動的物品、可以被操控的家電設備，以及一個家庭里有哪些成員、他們各自有什麼生活習慣。接著，系統會為這個家庭設定一些跨越多天的"長期項目"，比如"媽媽正在進行兩周的減脂計劃"，或者"家裡準備重新整理儲物間"，這些項目就像連續劇的主線劇情，為多天的活動提供連貫的動機。

在這個基礎上，系統用一種"閉環模擬"的方式生成每天發生的事情：家庭成員會按照自己的習慣和臨時的狀態（比如今天特別累、明天有客人來）做出各種行為，機器人也會介入並執行動作，每個動作都會被一個執法者檢查——冰箱關著能不能直接往裡放東西？手裡已經拿著東西還能不能再拿另一樣？只有符合現實物理規律的動作才會真正被記錄下來，並改變世界的狀態。每天結束時，系統還會提取"進位記憶"——今天發生的重要變化，會以結構化的方式傳遞給明天，就像劇組在拍第二集之前要先對齊上一集留下的懸念。

這樣生成的多天生活軌跡，接著被轉化成兩類考題。一類是"記憶問答"，專門問機器人有沒有記住過去發生的事情，比如"巴布曾經把咖啡機定時設錯了幾點？"或者"愛麗絲昨晚幾點到家的？"。另一類是"具身任務規劃"，讓機器人根據它掌握的歷史資訊制定一套可以真正執行的動作計劃，比如"請幫我準備客廳，我要打遊戲"——機器人需要記得鍵盤現在在沙發上、飲料在冰箱裡、衣服也堆在沙發上，然後給出一套符合真實場景約束的行動序列。

贊助商廣告

為了讓考題更難作弊，每道題都有一個"截止時間點"，機器人只能看到那個時間點之前發生的歷史，不能藉助任何未來資訊，而正確答案必須能從歷史記錄中找到明確的證據支撐。

三、WorldLines考什麼：四個維度的家庭記憶能力

研究團隊把家庭助手需要掌握的長期記憶能力拆解成四個相互關聯的方面，每一方面都可以用日常生活場景來理解。

第一個維度是時空推理，也就是搞清楚東西現在在哪裡，以及它是怎麼到那裡的。鍵盤上周還在書桌上，前天被巴布搬去了廚房，昨天機器人又把它放回了茶幾，今天巴布翻找零件時順手把它放到了沙發上。一個好的家庭助手不僅要知道鍵盤現在在沙發上，還要能說出這一路變遷的來龍去脈——這正是讓現有AI系統普遍感到棘手的地方。

第二個維度是物體狀態更新。不只是物品的位置，家電設備的狀態也在不斷變化，而且有些變化發生時機器人不在場。愛麗絲深夜回家說了句"明天會議很早"，機器人看到這個資訊後主動把咖啡機定時設成了早上七點，第二天早上七點咖啡就好了。評測的關鍵不只是記住這件事，而是當愛麗絲事後問起時，機器人能把整個邏輯鏈說清楚，並且自動更新一條新的偏好規則：以後凡是深夜晚歸超過十點半，默認第二天早上七點煮咖啡。

第三個維度是具身規劃，也就是把記憶轉化成可執行的行動。用戶說"我想打遊戲，幫我準備一下客廳"，這句話對應著一系列需要機器人自己推斷的步驟：記得衣服在沙發上要先清理，記得鍵盤現在在沙發上所以不用去書桌找，記得飲料在冰箱裡所以要去取，還要記得冰箱關著所以得先開門再取再關門。每一步都需要調用歷史記憶，還要滿足真實的動作前提條件。

第四個維度是主動輔助，也就是在沒有被明確要求的情況下，主動提醒用戶需要關注的事情。比如用戶問"明天早上我應該提醒家人注意什麼"，機器人需要綜合今天孩子把科學展板放在沙發旁邊、明天早上七點四十五分全家出門等多條資訊，主動指出"要在出門前提醒打包科學展板"。

贊助商廣告

四、ObsMem：像偵探一樣管理記憶

研究團隊不只是提出了評測標準，還設計了一套名為ObsMem的新型記憶管理框架，作為應對上述挑戰的參考方案。要理解ObsMem的設計思路，可以把它想像成一位訓練有素的偵探。

這位偵探在處理案件資訊時，有一套嚴格的資訊分類習慣。他區分"我親眼看到的"和"聽別人說的"，也區分"已經確認的事實"和"根據現有證據的合理推斷"，還區分"現在的狀態"和"曾經的歷史"。把這個偵探的工作習慣搬到機器人的記憶系統里，就得到了ObsMem。

ObsMem的第一個關鍵設計是觀測者門控。機器人在處理每一條新資訊時，首先要判斷：這件事是我自己看到的，還是別人告訴我的？如果機器人親眼看到自己把筆記本電腦放在了沙發上，這條資訊會被標記為"直接觀測到的事實"；如果巴布只是順口提了一句"筆記本在書房"，這條資訊則被標記為"他人報告的內容"，可靠程度低一個等級。這種區分在後續推理中至關重要——當兩條資訊發生矛盾時，系統能判斷哪條更可信。

ObsMem的第二個設計是分類記憶軌道。收到一條資訊後，系統會根據它的性質分別存入不同的軌道，就像圖書館把不同類型的書放在不同書架上。"事件軌道"像流水賬一樣按時間順序記錄發生過的每件事，而且是只增不刪——就算某個狀態後來被改變了，當時的那條記錄也會永遠保留，以便未來回答"之前是什麼情況"這類問題。"狀態軌道"則維護一張關於當前世界狀態的快照，比如"鍵盤：沙發上"、"冰箱：關著"，每次狀態改變都會更新快照，同時把舊狀態存入歷史。"信念軌道"記錄的是機器人對自己知識的把握程度——如果一個狀態是機器人親眼確認的，且中間沒有發生過可能改變它的事情，這個信念就是"新鮮的"；如果上次確認後有其他人進入了該區域做了些什麼，這個信念就變成"陳舊的"或"不確定的"；如果出現了明顯矛盾的資訊，則標記為"有爭議的"。"承諾軌道"專門記錄各種約定和待辦事項，比如"用戶說讓我明天早上提醒她"或者"巴布請求機器人順手關上書房的門"。

贊助商廣告

ObsMem還有一個"情節整合"機制，可以理解成把流水賬定期整理成章節摘要。當一段時間的活動告一段落，比如一次家庭集會結束，系統會自動創建一張"情節卡片"，把這段時間裡的關鍵事件、狀態變化和由此產生的承諾整理成一份摘要，同時保留原始事件記錄作為證據備份。摘要讓檢索更高效，原始記錄保證了精確性，兩者並存而不互相替代。

在回答問題時，ObsMem不是對所有記憶進行一次大範圍的模糊搜索，而是先分析這個問題的性質，再決定查哪個軌道。問"鍵盤現在在哪"，查狀態軌道的當前快照，再查信念軌道看這個資訊是否還可靠；問"是誰說鍵盤在書房"，查事件軌道中的"他人報告"類記錄；問"幫我準備客廳打遊戲"，則需要同時查狀態軌道了解當前物品位置、查事件軌道了解用戶歷史偏好、查承諾軌道了解有沒有待處理的事項，再結合這些資訊制定行動計劃。

五、評測結果：舊系統在哪裡失敗，ObsMem在哪裡更好

研究團隊把ObsMem和四個現有的主流記憶系統放在一起比較，這四個系統分別是A-mem、Mem0、GraphMem和MemoryOS，都是目前在AI記憶領域有一定代表性的方法。評測在310道記憶問答題上進行，另外還有21個具身規劃任務。

從總體成績來看，ObsMem的答題得分和"完全正確率"都明顯高於其他系統。但更有意思的是整個比較揭示出的一個規律性現象。

四個對比系統在"大概找到了正確那段歷史"這個指標上其實表現不錯，也就是說，它們通常能知道"答案大概在某天的某段對話里"。然而在"精確找到了改變狀態的那個具體事件"這個更嚴格的指標上，它們的表現就急劇下降，而ObsMem的這個指標要高出最好的對比方法約16個百分點。

這個差距的根源在於，家庭環境裡同一天可能發生很多關於同一個物體的不同事件：早上巴布把鍵盤搬去了廚房，下午機器人又搬回來了，晚上巴布找零件時把它放到了沙發上。如果記憶系統只是把這些事件混在一起存成一段文字，檢索時雖然能找到"當天關於鍵盤的記錄"，卻很難精確定位"最後一次改變鍵盤位置是哪次、結果是什麼"。ObsMem的狀態軌道專門為這種多次狀態覆蓋的場景而設計，每次狀態變化都有獨立的結構化記錄，因此能精確回答這類問題。

贊助商廣告

論文中有一個極具代表性的例子：巴布的日常咖啡習慣是周末早上八點半，工作日早上七點。某天深夜巴布在疲憊狀態下把咖啡機錯誤地設成了凌晨四點，第二天早上機器人檢測到異常後把定時糾正回了工作日習慣的七點。問題是："巴布把咖啡機誤設成了幾點，機器人又糾正成了幾點？"

Mem0給出的答案是"巴布設的是八點半，機器人糾正成了七點"——這個答案混淆了巴布的常規習慣（八點半）和那次誤操作（凌晨四點）。原因是文字型記憶系統在檢索時，"巴布常規設定八點半"這件事出現得更頻繁、更顯眼，反而把那次偶發的異常操作給淹沒了。ObsMem正確地把"常規：八點半"、"異常操作：四點"、"糾正：七點"分別記錄為不同類型的狀態事件，因此能準確作答。

在消融實驗中，研究團隊逐一移除ObsMem的各個組件來測試每個部分的貢獻。證據選擇器是最關鍵的一環，一旦移除，系統的答題質量從0.699驟降至0.435，儘管它依然能找到不少相關資訊，說明問題不在於找不到證據，而在於不知道怎麼把來自不同軌道的證據整合成一個一致的答案。情節整合功能的移除造成了第二大降幅，尤其是跨越多個事件的複雜狀態推理受到明顯影響。信念軌道的價值在常規問題上相對有限，但在專門針對"機器人沒有直接觀測到的狀態變化"這類隱藏狀態問題上，移除信念軌道後的得分直接歸零，充分說明了不確定性建模的必要性。

在具身規劃任務上，ObsMem的優勢體現得更加明顯。規劃任務不只是記住一件事，而是要把多條記憶整合成一套可執行的行動計劃，每個步驟都要符合當前場景的物理約束。對比系統在狀態一致性和前提條件有效性上的得分明顯低於ObsMem，反映出文字型記憶在把資訊轉化為可執行約束時存在系統性的短板。

六、這套系統目前做不到什麼

研究團隊在論文中對這項工作的局限性有充分的說明，這些局限性也是未來改進的方向。

贊助商廣告

整個WorldLines基準建立在模擬的家庭環境中，使用的是Habitat和HSSD等仿真場景，而不是真實的家庭錄像或真實機器人的運行日誌。這種設定的好處是能夠精確標註每一條狀態變化的證據鏈和時間戳，使評測有據可查；但它也意味著現實中存在的感知誤差、執行誤差和複雜的人類行為無法被完整覆蓋。一個人可以在走路時隨手把東西塞到了某個地方，這種隨機的、非正式的行為很難在受控仿真環境中自然產生。

ObsMem本身的運行也依賴於一些在真實場景中並不總是容易獲得的輸入：它需要知道每個物體的標識、每個動作的可見性註解以及標準化的行動描述格式。在真正的家用機器人部署中，這些資訊需要由感知模組、定位模組和語義識別模組提供，這些技術本身都還在持續發展中。此外，ObsMem的分類檢索和信念感知推理比簡單的文字搜索慢，在實時交互中這種延遲會是一個實際問題。

---

說到底，這項研究做的事情，是給家用機器人的記憶能力劃出了一條新的評測基準線，並且證明了當前主流的AI記憶方案在這條線面前還差得相當遠。它揭示的不是一個小的改進空間，而是一整類尚未被認真對待的問題——當機器人需要在一個狀態不斷變化、自己也不總能親眼見證一切的世界裡長期工作，它究竟需要怎樣的記憶能力，才能真正變得有用？

現有的很多智能設備，包括智能喇叭、掃地機器人、智能家居控制中心，都在某種程度上面對這個問題。它們記住的是靜態的用戶設置，而不是動態的家庭歷史。WorldLines和ObsMem的出現，相當於把這個問題從"工程實現細節"提升到了"可量化的科學研究對象"，這是讓這個領域真正向前推進的必要一步。

感興趣的讀者可以通過arXiv平台搜索論文編號2606.18847，查閱完整的實驗細節、提示詞模板和數據構建方法，論文附錄中還有相當豐富的額外實驗分析。

贊助商廣告

Q&A

Q1：WorldLines評測基準和現有機器人評測有什麼不同？

A：WorldLines最大的不同在於它模擬了跨越多天的連續家庭生活，物品位置、設備狀態等世界資訊在任務之間持續變化而不會重置。現有的具身機器人評測通常只測單次短暫任務，現有的對話記憶評測又不涉及物理世界的狀態變化，WorldLines是第一個把兩者結合起來的評測框架，專門考察機器人能否在動態變化的家庭環境中維持長期的世界狀態記憶並據此規划行動。

Q2：ObsMem和普通的AI記憶系統有什麼本質區別？

A：普通的AI記憶系統通常把所有資訊壓縮成一段文字存起來，檢索時用語義相似性搜索。ObsMem的核心區別在於它按照資訊的性質分開儲存和管理：事件記錄只增不刪，狀態資訊單獨維護快照和歷史，信念可信度單獨追蹤，承諾和待辦事項單獨管理。回答問題時，系統先判斷問題類型再決定查哪類記錄，而不是對所有內容做一次模糊搜索。這種設計使它能區分"親眼看到的"和"聽說的"，也能區分"現在的狀態"和"被覆蓋之前的狀態"。

Q3：這項研究對普通家用智能設備有什麼實際意義？

A：這項研究指出了一個目前家用智能設備普遍存在的盲區：它們只記住靜態的用戶設置偏好，無法追蹤家庭里物品和設備狀態隨時間的動態變化，也無法利用歷史資訊制定跨越多個步驟的合理行動計劃。WorldLines和ObsMem為未來更智能的家用助理機器人提供了評測標準和設計思路，推動這類設備真正從"即時響應"向"長期記憶輔助"進化。