讓「現實」消失的不是 Sora，而是明日的「Vision Pro」

OpenAI Sora 模型的誕生，讓不少人大呼「現實已經不存在了」，因為它能讓文字描述快速變成乍一看可以假亂真的影片。

贊助商廣告

然而，真正可以讓現實「崩塌」的，卻可能是以 Vision Pro 等設備開啟的新一代混合現實體驗 —— 我們可能身處同一時空，但卻毫無共同體驗。

最近，斯坦福大學的「虛擬人類交互實驗室（Virtual Human Interaction Lab）」進行了一輪實驗，更多地關注混合現實對心理和認知的改變。

如果說 Vision Pro 讓我們看到「未來已來」，那這個未來看起來好像讓人更孤獨了。

我把你當朋友，你卻把我當 NPC

想像一下，當你頭戴突兀的 Vision Pro 上街，上面還顯示著拙劣地模仿著你眼睛的圖像，然後和遇到的人聊天，別人會怎麼看你？

大家是不是就會因此覺得你更難接近？

結果可能和我們想像的不一樣。

在斯坦福「虛擬人類交互實驗室」的研究中，11 位作者戴著 Meta Quest 3，採用「穿透模式（passthrough）」在生活中與人交流溝通。

研究最終發現，戴著頭顯的人感覺自己和他人連接變得更弱了，社交的負面影響更大。作為對比，那些不戴頭顯，在公共場合和戴頭顯的人交流的人，反倒感受的負面影響卻沒有那麼大。

說到這裡，我們可能要先講一下「穿透模式」。

在這個模式下，用戶可在佩戴頭顯的情況下看到外界環境。需要強調的是，這裡看到的「現實」不是真正的「現實」，而是攝像頭捕捉後然後呈現於內在螢幕的影像。

因此，用戶通過頭顯看到的「現實」，會受到攝像頭拍攝質量，內置螢幕視角廣度，顯示延遲等多種因素影響。

以視角廣度來說，我們肉眼一般橫向可看到 200° 的內容，但 Meta Quest 3 呈現的廣度只有 110°。

也就是說，如果有人並排站在你身旁，用「餘光」我們就能瞄到，但用頭顯的話就會完全看不到這人存在。這也會影響頭設使用者對空間的理解以及降低用戶的「在場感」。

贊助商廣告

▲圖片來自論文

同時，圖像扭曲、延遲和清晰度有限，同樣也會讓使用者有「不真實」感。

譬如，當實驗室的研究員在和他人聊天時，感覺自己身處一個讓人困惑的巨型影片會議中，身邊的人看起來就像是某種虛擬形象。在對話過程中，微妙的表情或其他社交資訊也很容易丟失。

而離使用者比較遠的人，看起來直接就像是背景的一部分。

「虛擬人類交互實驗室」負責人 Jeremy Bailenson 將這種感覺描述為「社交缺席（social absence）」—— 真實的人沒那麼真實了。

Business Insider 記者 Adam Rogers認為，這種情況需引起警惕：

長期使用穿透模式，可能會讓人更容易將其他人視作非人類 —— 遊戲化恐怖谷里的 NPC。

雖然 Vision Pro 比研究人員使用的 Quest 3 頭顯具有更高清晰度，但它畢竟還是比不上人類自己的眼睛。單從色彩來看，Vision Pro 能顯示的顏色也只占人類肉眼可見色彩的 49%。

「影視颶風」Tim 在戴著 Vision Pro 在海邊行走時，也將穿透的體驗形容為「現實會有一點糊，但你不會懷疑它不是現實……有點像是夢裡的感覺」。

當其同伴李四維在嘗試測試 Vision Pro 延遲情況而進行重複動作時，Tim 也脫口說出了一句：「你在 GTA（遊戲《俠盜獵車手》）卡住了大哥。」

▲ GTA 6 中的沙灘場景，圖自 Pixground

我們難以道明具體是什麼因素構成或區分了我們認知中的「真實」，因為我們對人類視覺以及大腦的認識還相對有限。

感官生物學家發現，人類視覺處理細節的能力比絕大部分動物都好。

（我們的社會也是一個以視覺為主導的文明，語言中有很多基於視覺的表述，如「前途一片光明/黑暗」。我們粵語就更誇張了，人可以「靚」，心情可以「靚」，連腸粉也可以「靚」。）

一個通過頭顯攝像頭和螢幕「轉述」的「真實」，丟失的不僅是像素，還有我們暫時未能理解的重要資訊。

真真假假，我們的大腦分不清

贊助商廣告

▲ 圖片來自《紐約時報》

除了透過螢幕去看「現實」，穿透模式另一個重要特點在於我們從此可以在螢幕中的「現實」上疊加虛擬內容。

在體驗過程中，研究人員對 Quest 3 上混合現實遊戲《初次相遇（First Encounters）》印象特別深刻。

在這遊戲中，玩家可以看到自己身邊環境的模擬，然後要自己用槍一下一下地把真實世界中的模式環境擊破，逐漸看到虛擬世界。

從某個角度來看，這也是一種「編輯現實」的能力 —— 將你房間裡的牆壁一點一點地換成虛擬世界。Bailenson 感嘆：

頭設不僅能在現實世界上疊加資訊，還能刪除資訊。

我研究 VR 和 AR 也有一段時間了，我從來沒見過（像《初次相遇》那樣）「刪除」可以做得那麼好。

▲《初次相遇》遊戲截圖，來自 Meta Store

從前像 Google Glass 或 Hololens 2 那種可以讓用戶直接透過半透明鏡片看到現實世界的頭顯，雖然也支持混合現實，可以在「現實」上疊加資訊，但因為這裡的現實是真實世界，因此和虛擬資訊結合時效果沒那麼融合。

現在像 Quest 3 和 Vision Pro 這樣的設備，因為用戶眼前所看全為「模擬」，因此「虛實結合」效果更佳，連「刪除」也變得更逼真。

想像一下，如果未來所有人都跟帶手機一樣隨身使用 Vision Pro 或其他支持穿透模式的頭顯，去到景區，我們也許可以很便捷地「刪除」擁擠的人群，拍下安靜美好的景色。

贊助商廣告

▲Google Pixel 8 的 Magic Editor 功能

一切簡單得可能就跟今天在擁擠的地鐵上打開降噪耳機，馬上就能從聽覺上「編輯現實」一樣。

Adam Rogers 覺得，科幻作家 William Gibson 的一個概念也許能延伸幫我們理解這種未來。

Gibson 在描述「賽博空間」時，稱它為「一致同意的幻覺（consensual hallucination）」。而頭顯中的現實，則是它的完全對立面 ——「無數個分離的，不被共享的幻覺，每一個都如雪花一般獨特」。

在 Bailenson 看來，這是「公共消逝」的開始：

人們將處於同一個物理空間，同時體驗著視覺上截然不同的世界。

我們將失去認知的共同基礎。

你也許會覺得，我們既然可以主導選擇「編輯」什麼，那我們肯定也可以知道什麼是真什麼是假的。

但我們的大腦可能不太同意。

早在 2014 年，研究人機交互的 Frank Steinicke 試著讓參與者在 24 小時裡體驗 VR 世界，每一輪使用 2 小時，每輪之間休息 10 分鐘。即便在當時的技術下，Steinicke 過著過著就已經開始分不清現實和虛擬了。

在實驗過程中，參與者有好幾次開始對於自己是處於虛擬世界還是真實世界開始產生困惑，並且混淆了兩個世界中的特定物件和發生過的事件。

一個 2009 年的研究也發現，小朋友在體驗 VR 後，甚至會產生虛假的回憶，即便當時的 VR 成像質量相當有限。

不用說 VR 和 AR 這類沉浸體驗了，就算看電影都能混淆我們的大腦。

心理學教授 Daniel Schacter 在《追尋記憶》里分享了前美國總統里根的一個「翻車事件」：

在宣傳選舉活動中，里根多次動容地講述一位「二戰」飛行員的感人故事。然而，台下聽的媒體都能意識到，這個故事幾乎跟 1944 年電影《飛行之翼》的內容完全一樣。

「顯然，里根保留了事實，卻忘了它們的出處。」

腦神經學家 Oliver Sacks 也曾指出，幻覺之所以會被「誤認」為是事實，部分原因是因為它們和真正發生過的感知都會涉及同樣的知覺路徑。

贊助商廣告

在我們的大腦里，真假並不是黑白分明（又用上了基於視覺的形容），更高清沉浸的虛構只會讓它更困惑。

你是我最好的朋友

讀到這裡，我們先暫停一下，從這高科技暢想中回到現實生活。

你覺得你身邊，懂你，了解你的人有多少？

如果一下子想不到答案也不要緊，畢竟有調研顯示，超過一半的美國人認為，生活里沒有一個人是真正了解他們的。和 1990 年相比，說自己沒有親密朋友的人翻了四倍。

播客「The Gray Area with Sean Illing」曾分享，一位研究人們如何講述自己個人歷史的心理學家曾「付費」請志願者來分享自己的故事。

在這大約四小時的訪談中，心理學家會通過一些問題去切入了解志願者的人生。訪談結束，心理學家在支付費用時，很多人居然想把錢還給心理學家：

我不想收錢，這是我人生里最棒的一個下午。從來沒有人詢問過我的人生故事。

顯然，愈加繁榮的社交媒體沒有讓人與人之間的關係變得更緊密，反倒讓人們覺得更孤獨，不被了解和看見。

當未來人人都戴著頭顯來與人交流，這個情況似乎很難獲得改善。

尤其當生成式 AI 現在正指向一個更「定製化」的未來。

我們在上一部分討論到，未來我們眼中的現實，很有可能都可以人為「降噪」，做到字面上的「千人千面」。

那至少我們還有文化娛樂能成為共同點？

如今現實再分裂，不少人仍能從對特定書影音文化產物中找到同好，形成聯結或展開討論。

科技文化作者 Ryan Broderick 認為，未來這可能也會消逝。

在 Broderick 看來，在過去 25 年以來，網際網路就是在將過往一切分解成更小的單元：把專輯分成單曲，電台分解成了播客和歌單，電視和電影在各自產生新變體後，最終還是被切成一刷而過的 90 秒短影片。

在「舊世界」被分解後，網際網路本身在已經開始分解。

每一個 app 或者資訊流都是自己獨有的社區、平台、資訊系統、電影院、書報亭，但都又沒有之前這類東西運行得那麼好。

贊助商廣告

然而，就如流媒體大戰後，流媒體正變得越來越像傳統電視一般（接廣告，愛做綜合內容，想俘虜所有人），被分解的網際網路也終將重新被匯集起來。

如果 AI 早就已能「猜你喜歡」，為你篩選新聞、資訊、短影片，那明天生成式 AI 就能幫你直接整合好所有資訊，甚至生成出為你而設計的，最合你心意的短影片故事。

那些精彩的短影片或影視作品，獨一無二，只有你才懂，因為只有你才看過。

它最好的觀看載體？

當然就是明日的「Vision Pro」。

到時候，我們最好的朋友可能真的只能是我們的 AI 伴侶了。

只有它知道在那密閉的頭顯世界裡，我們愛看什麼，看過什麼，未來會看什麼。

所幸在於，那個未來尚未來臨，一切還來得及。

「虛擬人類交互實驗室」的呼籲樸素卻真切：

我們建議遊說將頭顯使用每日化的公司保持謹慎和克制，敦促學者對這一現象進行嚴格和縱向的研究。