AI似乎正滲透至現代生活中的每個角落,從音樂到媒體,再到商業/生產力乃至私人約會。要想在這個快速發展的時代跟上節奏,每個人都有必要留點時間認真了解關於人工智慧的一切。
人工智慧,也稱機器學習,是一種開創於幾十年前、基於神經網路的軟體系統。隨著近來新型算力的迅猛發展,AI終於獲得了高效可靠的語音和圖像識別能力,甚至掌握了生成圖像和語音的訣竅。研究人員如今正努力借AI之手,幫助用戶輕鬆總結網頁內容、訂購商品、調整食譜。
那機器會不會就此爆發,迅速脫離人類的掌控?!先別急,後文會認真討論這個問題。相比之下,我們更希望讀過本文,大家都能把握當前AI的發展動向。
AI基礎知識
關於AI最有趣的事實在於:儘管其核心概念早在50多年前就已經誕生,但直到現在也沒有多少技術專家真正熟悉個中原理。因此如果大家感到迷茫,請不必擔心——其他人也差不多。
這裡我們要先強調一點:雖然名叫「人工智慧」,但這個詞本身其實並不準確。智能還沒有統一定義,而且AI系統的行為更接近電腦、而非人類大腦。只是這個電腦的輸入和輸出更加靈活,能在一定程度上模仿智能的表現。
下面來看看AI討論中經常用到的基本術語。
神經網路(Neural network)
人類大腦主要由名為「神經元」的相互連接的細胞組成,它們相互嚙合,形成可執行任務並存儲資訊的複雜網路。自1960年代以來,人們一直希望在軟體當中重建這套驚人的認知系統,但直到最近的15到20年,GPU的發展成熟才讓數字定義的神經網路迎來蓬勃發展,可謂是算力出奇蹟的典型案例。
從本質上講,神經網路就是大量點和線的組合:點代表數據,線則是各數值間的統計關係。
如同人腦一樣,這一基本原理能夠建立起多功能系統:快速接收輸入,再通過網路傳遞並生成輸出。這樣一套系統,被稱為「模型」。
模型(Model)
模型是指能接收輸入並返回輸出的具體代碼的集合。之所以選擇「模型」這個詞,是想體現與統計模型、或者能模擬複雜自然過程的建模系統之間的相似性。在AI領域,模型可以指代ChatGPT這類完整系統,也可以是幾乎一切AI或機器學習結構,目的和功能不限。模型的體量各有不同,其規模代表著占用的存儲空間和運行起來需要消耗何等程度的算力。而實際體量,則由模型的訓練方式所決定。
訓練(Training)
要創建AI模型,先要向構成系統基礎的神經網路「投餵」數據集或語料庫所承載的大量資訊。在此過程中,龐大的網路會創建起該數據的統計表徵。訓練過程也是計算密度最高的環節,往往需要在大規模高性能電腦上運行幾周甚至幾個月時間。這不僅是因為網路本身非常複雜,也是因為數據集規模往往極為龐大:須分析數十億個單詞或圖像,並在巨大的統計模型中得到表徵。但在模型完成訓練之後,研究人員可以想辦法對其「瘦身」,運行時的資源要求也更低——這就是所謂推理過程。
推理(Inference)
推理,就是模型實際發揮作用的過程:領先對現有證據進行推理以得出結論。當然,這跟我們人類的「推理」不同,AI模型是在統計學意義上將攝取到的各個數據點聯繫起來,據此預測出下一個點的位置。例如,假定要求其「補全以下序列:紅色、橙色、黃色……」它就會意識到這些詞跟所攝取的某一列表相匹配,也就是彩虹的顏色分布,再由此推理並補全列表中的其餘部分。推理消耗的計算成本通常比訓練低得多:畢竟查詢目錄也要比整理目錄簡單得多。雖然某些大模型還是得靠超級電腦加GPU才能執行推理,但也有不少小模已經能運行在智慧型手機甚至配置更低的設備之上。
生成式AI(Generative AI)
今時今日,人人都在討論生成式AI。這是個廣義術語,指那些能夠生成原始輸出(如圖像和文本)的AI模型。某些模型能做總結,有些能做整理,有些能做識別——但至少目前最炙手可熱的選手,還是那些能「憑空」生成新內容的AI模型(究竟是不是真的憑空,目前還存在爭議)。但請千萬記住,AI生成的結果可並不一定就是正確的,甚至根本是在胡說八道!一切完全可能是神經網路的胡思亂想,包括那些繪聲繪色的故事或者栩栩如生的畫作。
AI熱門詞彙
講罷基礎知識,我們再來看看2023年比較熱門的AI詞彙。
大語言模型(Large language model, LLM)
大語言模型已經成為當前最具影響力、用途最廣泛的AI形式,幾乎所有構成網路的文本和英語文學素材都被納入訓練範疇。由此訓練出的,就是一套體量巨大的基礎模型。大語言模型能夠以自然語言交談並回答問題,模仿各種風格的類型的書面文件,ChatGPT、Claude和LLaMa等成果都已經證明了其強大能力。儘管這些模型的表現令人印象深刻,但請注意其本質上仍屬於模式識別引擎——在回答問題時,它實際是在補全識別出的模式,卻無法判斷該模式是否與事實相符。LLM在回答問題時經常產生「幻覺」,後文將進一步擴展延伸。
基礎模型(Foundation model)
在巨大的數據集之上從零開始訓練巨型模型,無疑是個昂貴且複雜的過程,當然應該能免則免。基礎模型屬於從零開始訓練出的大模型,需要超級電腦才能承載得起;但我們通常可以減少其中的參數量,以精簡方式使其適應更小的承載。所謂參數,也就是我們前文提到的模型中待處理的「點」的數量,目前常見的大語言模型往往擁有百萬、十億甚至是萬億級參數。
微調(Fine tuning)
GPT-4這類基礎模型非常聰明,但在設計上只能算是「通才」。從文學名著到奇幻故事,它都有所涉獵。可如果想讓它幫助整理一封求職信用的簡歷,其表現甚至還不如普通中學生。好在我們可以使用專門的數據集對模型做點額外訓練,這個過程就是模型微調。比如我們可以從網上搜集幾千份求職申請,在「投餵」之後模型終於理解了簡歷的套路所在,同時又不影響它在原始訓練數據中掌握的其他知識。
另外還有人類反饋強化學習(RLHF),這是一種特殊的微調方法,通過人類與LLM的交互數據來提高模型的溝通技巧。
擴散(Diffusion)
圖像生成可以通過多種方式實現,但迄今為止最成功的辦法還是「擴散」技術。Stable Diffusion、Midjourney等流行的生成式AI核心成果都是據此發展而來。在通過展示圖像來訓練擴散模型時,這些圖像會在添加數字噪聲的過程中逐漸退化,直至原始圖像蕩然無存。通過觀察整個過程,擴散模型能學會如何反向執行整個過程,逐漸向純噪聲中添加細節以構成預定義的任意圖像。其實在圖像生成領域我們已經探索出了更新、更好的實現方法,但擴散技術仍然比較可靠且相對容易理解,所以相信還會有不小的應用空間。
幻覺(Hallucination)
最初的「幻覺」概念,是指模型在輸出中夾雜著與輸入完全無關內容的情況。例如因為訓練素材中包含大量狗的元素,所以模型偶爾會用狗作為紋理貼到建築物上。根據猜測,如今AI所產生的幻覺主要源自訓練集中缺乏足夠數據、或者數據內容間相互衝突,於是它只能編造出一些似是而非的結論。
「幻覺」的存在有好處也有弊端:利用幻覺可以引導AI生成原創或更加多樣的衍生藝術成果。但如果需要就事實獲取明確的答案,幻覺肯定是個大麻煩——模型會一本正經地胡說八道,讓不熟悉實情的用戶誤信為真。目前除了手動檢查之外,還沒有什麼簡單方法來判斷AI輸出是真是假,畢竟模型本身根本就沒有「真假」的概念,只是在努力補全自己識別出的「疑似」模式。
通用人工智慧(Artificial General Intelligence, AGI)
通用人工智慧,又稱強人工智慧(Strong AI),其實並沒有明確的概念定義。用最簡單的話語來解釋,這是一種足夠強大的智能,不僅能夠替人類完成很多工作,甚至能像人類一樣自我學習和改進。有人擔心這種學習、整合思維,然後加快學習和成長速度的循環將恆久持續,最終造就一套無法約束或控制的超級智能系統。甚至有人認為應該叫停相關研究,暫緩或阻止這種可怕的未來。
看過《駭客任務》或者《魔鬼終結者》電影的朋友肯定能理解其中的擔憂,畢竟AI失控並試圖消滅或奴役人類的可能性確實令人不寒而慄。但這些故事純屬編劇想像,跟現實並沒什麼關係。ChatGPT等成果雖然能給人留下深刻印象,但在抽象推理和動態多領域活動方面與「真正的智能」幾乎沒有半毛錢關係。我們尚無法斷言AI未來會如何發展,但暫時不妨將AGI理解成星際旅行——人人都能把握其概念並朝著這個方向努力,可目標本身仍然遙不可及。其間需要巨大的資源投入和基礎科學的飛躍式進步,絕非一夜之間便可成真。
評論人士也在反覆強調,「杞人憂天」式的探討缺乏現實意義。畢竟AI如今表現出的真正威脅,反而源自其局限性和「智障」表現。雖然沒人想讓天網成真,但如果不能在AI初期解決好自動化消滅工作崗位的現實問題,我們哪還有機會被T-1000滿街追殺?
AI主要玩家
OpenAI
要說如今的AI領域最赫赫有名的「門派」,無疑是以OpenAI為首。顧名思義,OpenAI強調把自己的研究成果對外分享。但在有所斬獲之後,OpenAI決意重組為一家更傳統的營利性公司,通過API和應用軟體向用戶開放ChatGPT等高級語言模型的訪問服務。這家公司的掌門人是Sam Altman,儘管靠技術突破賺得盆滿缽滿,但他本人還是對AI可能引發的風險發出了警告。OpenAI是大語言模型領域的領導者,在其他方向上也有探索。
微軟
微軟其實也在AI研究方面做出過不少貢獻,但因為種種原因沒能真正將實驗成果轉化成現實產品。但其最明智的舉動就是早期投資了OpenAI,並與後者建立起長期合作夥伴關係。微軟目前已經在Bing搜尋引擎上引入ChatGPT功能。儘管微軟的AI貢獻相對有限且難以直接使用,但其研發實力仍舊不容小覷。
谷歌
想靠「登月計劃」引領AI技術革命的谷歌,不知何故沒能摘取最後的勝利果實。但必須承認,谷歌研究人員的發明為如今AI的全面爆發奠定了基礎,這就是tarnsformer。如今,谷歌正努力開發自己的大語言模型和其他智能體。在過去十年浪費大量時間和金錢推動AI助手無果之後,谷歌正在迎頭趕上。公司CEO Sundar Pichai多次表示,公司將在搜索和生產力方面牢牢守住以AI為中心的發展理念。
Anthropic
在OpenAI「背叛」開源社區之後,Dario和Daniela Amodei兄妹毅然出走並創立了Anthropic,希望打造一個開放且更具道德責任感的AI研究組織。憑藉充裕的資金,他們發展成為OpenAI的有力競爭對手,只是其Claude模型暫時還無法在人氣和知名度上與GPT匹敵。
Stability
雖有巨大爭議,但Stability仍在AI浪潮中擁有自己的一席之地。他們正收集網際網路上的各種內容,並以開放硬體的方式免費提供其生成式AI模型。這既符合「資訊應免費」的理念,也讓項目本身蒙上了一層道德陰影。很多人認為Stability的成果被用於生成色情圖像,及未經同意使用智慧財產權。
伊隆·馬斯克
長期以來,馬斯克經常直言不諱地表達自己對於AI失控的擔憂。他曾在早期支持過OpenAI,但不滿於該公司朝著自己不支持的方向發展。雖然馬斯克並不算是AI技術專家,但他誇張的表達和評論確實引發了廣泛反響(他本人還在「暫停AI研究」倡議書上簽了字),而且正著手建立自己的AI研究機構。