在很多非線性的遊戲中,製作組往往會給玩家提供各種不同的劇情分支,並根據遊戲中玩家行為、選擇的不同,來決定最終結局的走向。
這樣的遊戲,既有《巫師3》、《2077》這樣的開放世界大作,也有《奇異人生》、《底特律:變人》這類劇情互動類遊戲。
儘管這樣的機制,是為了讓玩家覺得自己的選擇更有「意義」,更能影響遊戲世界的命運。
然而,玩過此類遊戲的玩家都明白,其實各個不同的分支、結局,是早就已經被編劇寫好了的。
在某些情況下,為了看到特定的結局,部分玩家往往會忍不住去查攻略,看看究竟做出怎樣的選擇,才能觸發特定的劇情。
如果不知道這些選項背後的劇情,選起來可能會很糾結
在這種情況下,遊戲的走向和劇情,歸根結底是可預知、可控制的。
然而,基於此次GPT所帶來的各種AI革命,卻讓人看到了這類「多劇情選擇」類遊戲更自由的可能。
一、沒有劇本的NPC
5月29日,在台北舉辦的2023年台北國際電腦展(Computex)上,老黃向人們展示了一種名為Omniverse Avatar Cloud Engine(以下簡稱ACE)的AI技術。
這個技術,簡而言之,就是讓遊戲中的NPC具有了「即興創作」的能力。換句話說,NPC與玩家的對話,不再是基於已經寫好的台詞,而是會根據玩家的語音,進行實時反應和生成。
在這段演示中,玩家通過與拉麵店的老闆「閒聊」的方式,得知了城東邊一個犯罪頭目的蹤跡,並順帶接下了個支線。
而實時進行的對話,則是由一套被稱為NeMo的系統生成的。
整個NeMo系統,可以分為兩大部分:NeMo Language技術是用於構建、定製和部署語言模型的服務,它可以根據遊戲設定和角色背景生成適合的對話內容。
Dialogue Manager是用於管理對話狀態和策略的系統,它可以根據玩家的語音輸入和NPC的語言模型,決定NPC應該說什麼。
雖然英偉達的技術看似複雜,但早在該技術公布前,民間就早已有人弄了個「低配版」的NeMo。
具體做法是,在《上古卷軸》這樣的遊戲裡,以MOD的形式添加GPT-4到角色的對話系統中,再通過語音識別技術,讓玩家用說話的方式,實現與NPC的實時交流。
這類技術的問世,在讓遊戲變得更生動的同時,也無意中讓一些遊戲製作人夢寐以求的劇情機制,真正地有了現實的土壤。
而這些天馬行空的製作人,就包括了《生化奇兵》的設計師肯·列文,
在前段時間的採訪中,肯·列文表示,他的下一款遊戲《猶大》(Judas)將採用被他稱作是「劇情樂高」的系統。從而更加突出「玩家驅動」的重要性。
實際上,關於「劇情樂高」的玩法,肯·列文在2014年的GDC演講中就進行了探討。
在他的理念中,這個思路是將劇情拆分為最小的、可觸的組件,並將其不斷重新排列,類似一個個樂高玩具那樣,從而探索出廣泛劇情走向的方案。
在肯·列文看來,既然目前的遊戲,已經仿造出了一種基於真實世界的物理系統,那麼對應的,在劇情方面也應該有這樣一個類似敘事的「物理引擎」,能讓一切劇情、角色自然地相互交流、互相碰撞。
在這樣的敘事系統中,敘事元素互動的關鍵點,將完全交給玩家。
然而,由於當時(2014年)的AI技術遠不及今天這樣發達,因此肯·列文的想法實施起來,必定會遇到很多技術上的困難。
一個顯著的技術難點是:如何讓這個龐大的、基於各個因素關聯起來的敘事系統,能夠自然而有邏輯的運轉,並傳達出遊戲所蘊含的情感、基調?
在生成式AI突飛猛進的今天,這一切似乎終於有了答案:
在之前提到的ACE等實時互動技術的加持下,編劇不必再煞費苦心地構思每個NPC的戲份、台詞,它們完全可以用實時生成的對話策略和行為邏輯,自發地與玩家驅動劇情。
二、AI版DND
這種與NPC實時互動的方式,人工編寫的劇情分支,究竟有什麼本質上的不同?
我們可以通過一個假想的場景來進行比較:
假設我們在玩一個以中世紀為背景的冒險遊戲,遊戲中有一個魔法師NPC,我們在遊戲中遇到了他,他向我們提出了一個問題:你知道這個世界上最強大的魔法是什麼嗎?
在以往人工編寫的劇情分支中,玩家往往會面臨幾個固定的選項:
A. 我不知道,你告訴我吧——魔法師會告訴我們是時間,因為它可以改變一切。隨後會邀請我們加入他的研究團隊
B. 我不在乎,你別煩我。—— 魔法師會嘲笑我們是一個無知和愚蠢的傢伙,之後向我們展示一種強大的魔法。
C. 我覺得是恐懼,你呢?—— 魔法師會奸笑地點頭,然後他會向我們透露自己的陰謀。
而如果使用實時交互技術來推進劇情,我們將不會有固定的選項,而是可能會依據玩家個性、行為的不同,出現各種結果:
如果我們回答得很簡單或很模糊,比如說「我不知道」或「可能吧」,魔法師可能會對我們失去興趣,轉身離開。
如果我們回答得很粗暴或很無禮,比如說「你閉嘴」或「你去死吧」,魔法師可能會對我們發怒,並對我們施展一種強大的詛咒魔法。
如果我們回答得很幽默或很奇怪,比如說「我覺得是香蕉」或「我覺得是你媽」,魔法師可能會覺得我們很有趣或很奇特,問我們更多的問題或給我們更多的資訊。
在這樣的機制中,由於每個玩家個性的不同,NPC對應的反饋也會不一樣,而每段由此生成的劇情,也都將是獨特的,別人無法體驗的。
於是,一個真正「千人千面」的遊戲劇情系統,就由此形成了。
不過,這種「恣意妄為」的玩法雖然看起來很胡來,但也並非在遊戲史上沒有先例,一個最類似的例子,就是很多人耳熟能詳的DND跑團機制。
DnD跑團的玩法,簡而言之,就是一種角色扮演 多人互動 一定隨機性的機制。
遊戲開始時,玩家可以創造或選擇各種角色,例如勇猛的戰士,或是狡詐的盜賊。
接著,遊戲的主持人DM,會主持這些玩家的冒險,讓他們經歷某段劇情,對抗某個BOSS。
這個過程里,1/3靠玩家和DM的想像力,1/3是靠遊戲的規則書,1/3是靠骰子來決定各種行為的成功與否。
在這樣的玩法中,玩家的想像力很大程度上決定了遊戲的走向。
如果你願意,你完全可以將香蕉當成武器,去捅某個BOSS的鼻孔。
如果我們將與NPC實時互動的機制,與DND的玩法進行對應,那麼由AI驅動的遊戲角色,實際上就代替了DND中的主持人以及其他玩家。
在此基礎上,依靠著一定的隨機性,遊戲在沒有編劇插手的情況下,就能讓玩家與NPC一直驅動著劇情走下去。
然而,為了避免這樣互動,徹底變成雜亂無章的隨機事件,以至於劇情的走向變得毫無邏輯,或偏離遊戲主題,這個由AI驅動的劇情機制,也需要自己的「規則書」。
三、預知一切的AI
這樣的「規則書」,實際上就是整個遊戲世界運行的邏輯和規律。
在此基礎上,遊戲能根據玩家的具體行為、決策,進行相應的推理預測,從而一步步構建出整個遊戲的劇情走向。
可問題是,無論是之前的各種「多劇情選擇」遊戲,還是DND的跑團機制,實際上都是在用人腦有限的想像,來模擬和預測玩家行為的後果。
而這種方式的局限性就在於,當人們採取了「AI版DND」的玩法,即玩家與NPC實時互動的方式來驅動劇情後,由於每個玩家個性的不同,必然會造成NPC反饋「千人千面」的情況。
在這種情況下,用人工的方式,是幾乎不可能窮盡所有的結果的。
在《底特律:變人》中,想像如此多的分支,已經很不容易了
在這種情況下,人類就需要一種具有「預測」能力的AI,來代替自己進行推理、想像。
而這樣的AI,在現實中也已經出現了。
就在不久前,圖靈獎得主、Meta的首席人工智慧科學家Yann LeCun,就勾勒了一個不同於當前GPT的新型AI模型——世界模型。
而這類世界模型,與當前的AI大模型最大的區別,就在於其可以通過觀察影片的方式,來學習關於真實世界的大量背景知識,並由此推斷出什麼可能,什麼合理,什麼不可能。
Yann LeCun構想的世界模型,由六大部分組成
在Yann LeCun看來,大部分人類所擁有的知識(例如騎自行車、洗碗等),其實和語言無關,所以這部分內容,僅通過文本來訓練的GPT,是捕捉不到的。
而通過「看影片」來學習的AI,與GPT相比,能夠更加準確地把握世界運行的各種「常識」。
例如,某個司機可能以前沒有在雪地上開過車,但他(很可能)知道雪地會很滑,如果開得太猛,車就會打滑。
而正是這種常識性知識,使人和其他動物不僅能夠預測未來的結果,而且能夠填補缺失的資訊。
這也是為什麼,在Yann LeCun看來,現在的GPT「連狗都不如」
於是,在具備了各種常識之後,這樣的AI模型,就能根據現實世界的規律,對各種事件進行分析、預測。
在Yann LeCun的世界模型中,最複雜的是一個名為「世界模型模塊」的部分。
它有兩個作用:(1)評估感知未能提供的關於世界狀態的缺失資訊;(2)合理預測世界的未來狀態。世界模型可以預測世界的自然演變,也可以預測由行為者模塊採取的一系列行動所產生的未來世界狀態。
在從各類事件中抽象出潛在的因果關係後。該大模型就能生成多個可能的未來狀態,並根據成本或目標來評價和選擇它們。
而當這樣具備了「預測能力」的AI,與NPC的實時互動技術相結合後,我們就不難想像,兩者會碰撞出怎樣奇妙的結果。
舉個假想的例子,如果世界模型在遊戲中,想要設計一段「男主和女主在電馭叛客世界中,逃離壟斷企業追殺」的劇情。
它就會用預測器來猜測下一段電影的摘要,比如「男女主角最終逃過了追殺」。
但是它也知道這個預測不一定準確,因為劇情可能有很多不同的走向。比如「因追兵太多,男主為救女主角犧牲了。」,或者「浮空車被擊毀,二人雙雙身亡」。
所以它用一個潛在變量來表示這些不確定性,比如「壟斷企業的實力」或者「男女主角的關係」。
這樣,「世界模型」就可以生成多個可能的劇情,並根據因果關係、世界觀設定來選擇它們。
有了這類AI技術的加持,也許在未來的某一天,真正依靠「玩家驅動」,並且在劇情上有著更多選擇、更自由可能的遊戲機制,就將不再只是某些開發商宣傳時的誇大之詞了。