
編者按:
Perplexity 是在第一波大語言模型應用潮里跑出來的優秀選手。成立不到兩年的時間裡,已經融資超過一億美元,與三家模型大廠合作,是黃仁勛最喜歡的 AI 產品。
同時,它也受到諸多爭議。上個月它被福布斯指控,未經允許盜用媒體的付費專屬內容。WIRED 也跟進調查,發現自家網站上的反爬蟲設置,也沒擋住 Perplexity 對內容的抓取。
同樣是六月,Perplexity 的 CEO Aravind Srinivas 接受知名播客 Lex Fridman 的專訪,他們聊了人工智慧、網際網路以及搜索 —— 在 Aravind Srinivas 心中,Perplexity 是關於知識的獲取、傳播和再生產。
Perplexity 實現了自己的願景嗎?這次專訪可能是一次回顧來路的機會。
以下為訪談節選,內容經過編輯:
Lex Fridman:Perplexity 的願景是徹底改變我們人類在網際網路上獲取問題答案方式的公司。它結合了搜尋引擎和大型語言模型(LLM)讓回答的每個部分,都引用到人類在網際網路上創建的來源。
這顯著減少了 LLM 的幻覺問題,並使人更輕鬆、更可靠地使用它進行研究,以及通常在深夜會出現的、純粹出於好奇心的衝浪。
Aravind 曾是伯克利的博士生,並且在 DeepMind、谷歌擔任 AI 研究員,最後在 OpenAI 擔任研究科學家。
這次對談包含了許多關於機器學習最前沿的迷人技術細節,以及在增強生成(即 RAG)、思維鏈推理、網路索引、UX 設計等方面的創新。
Perplexity 既是搜尋引擎,又是 LLM。它是如何工作的?搜索和 LLM 的各個部分在提供最終結果方面發揮了什麼作用?
Aravind Srinivas:Perplexity 當然可以被描述為一個搜尋引擎。你問它一個問題,你得到一個答案。但不同之處在於,所有的答案都有引用來源作為支持。這就像一個學者寫論文一樣。
引用就是搜尋引擎的工作,結合傳統搜索,提取與用戶問詢的相關結果,然後閱讀這些鏈接,提取相關段落,輸入到一個大型語言模型(LLM)中。
模型接收相關段落,查看問詢,並給出一個格式漂亮的答案,並對其說的每個句子進行適當的腳註,因為它已被指令這樣做 —— 給定一堆鏈接和段落,為用戶編寫一個簡潔的答案,並進行適當的引用。所有這些工作協同在一起的魔法效果,就是我們創建 Perplexity 的原因。
當我寫我的第一篇論文時,和我一起工作的資深同行告訴我這是件嚴肅的事:那就是你論文中寫的每個句子都應該有論據支持,無論是引用來自另一份同行評審的論文,或者你自己論文中的實驗結果。你在論文中說的任何其他內容更像是一個觀點。這是一個非常簡單的方式,但在它深刻地迫使你,只說正確的話。
我們採納了這個原則,並問自己,如何讓聊天機器人更準確,讓它只返送在網際網路上能找到來源的答案,並且要有多個來源。這樣一來,實際上是出於需求而不是「哦,讓我們試試這個想法」。
Lex Fridman:Perplexity 的起源故事是什麼?
Aravind Srinivas:最開始,我們只想用大型語言模型(LLMs)構建一些很酷的產品,當時還不知道價值在哪裡,是在模型中,還是在產品中?
但有一件事很清楚,這些生成模型已經從實驗室里的研究項目,轉而變成走向用戶的應用程序。GitHub Copilot 被很多人使用,我自己也在用,我看到周圍的很多人都在用,Andrej Karpathy 也在用,人們願意為它付費。
這是一個不同於以往任何時候的時刻,以前的 AI 公司只是在收集大量數據,但那只是更大局的一小部分。但這是第一次,AI 本身就是核心。
Lex Fridman: 所以對你來說,Copilot 是一個靈感來源。
Aravind Srinivas: 是的,GitHub Copilot。你可以稱它為一個花哨的自動完成工具,沒毛病。我希望我創辦的公司具有一個屬性,那就是它必須是 AI 閉環的。
這是我從 Larry Page 那裡學到的一點:你要瞄準一個問題,一旦它作為目標被攻克,你就能從 AI 的進步中受益,產品會變得更好。
由於產品變得更好,更多的人會使用它,這樣就幫助你收集更多數據,使 AI 變得更好。AI 變得更好,產品也隨之變得更好。這就創造了一個良性循環。
大多數公司很難擁有這種屬性,這就是為什麼他們都在努力找出他們可以在哪裡使用 AI,在哪裡應該能夠使用 AI。
有兩個產品我覺得真正做到了這一點。一個是谷歌搜索,任何在 AI、語義理解、自然語言處理方面的改進都會提高產品,帶來更多的數據,從而使產品變得更好,等等。
另一個是自動駕駛汽車,更多的人駕駛就會有更多的數據,這使模型變得更好,視覺系統變得更好,行為復刻變得更好。
Lex Fridman: 你說的是特斯拉的自動駕駛方法。
Aravind Srinivas: 無論是 Waymo 還是特斯拉,都沒關係。
Lex Fridman: 所有進行明確數據收集的東西。
Aravind Srinivas: 對。我一直希望我的創業公司也是這種性質的,但它並不是設計為直接進行用戶搜索的。
最初面對我們的第一位投資人 Elad Gil 提出的第一個想法是,「嘿,我們想顛覆谷歌,但我不知道怎麼做。我只是一直在想,如果人們不再在搜索欄中輸入內容,而是通過眼鏡直接問他們看到的東西?」我一直喜歡 Google Glass 的版本,它非常酷。
他只是說,「集中精力,你不能在沒有大量資金和人力的情況下來做這件事。找到一個細分領域,做一些東西,然後你可以朝著更宏偉的願景努力。」這是非常好的建議。
當我們開始創業時,所有人都有很多問題。我們都是新手,以前從未做過產品,從未創立過公司。當然,我們已經完成了很多很酷的工程問題,但從零開始始終是考驗,有很多麻煩。
我們僱傭的第一名員工來問關於健康保險的事。很正常的需求,但我沒在意過,我就想,「為什麼要健康保險?如果這家公司倒閉了,誰還管?」我的其他兩位聯合創始人都結婚了,所以他們有配偶買的保險,但這個傢伙需要的保險,我甚至一無所知。
買哪個公司的?什麼是共同保險,免賠額?這些我都不懂。你去谷歌查,保險是一個廣告支出的大類。即使你問了,谷歌也沒有動機給你清晰的答案,他們希望你點擊所有這些鏈接並自己閱讀,因為所有這些保險公司都在競標以獲得你的注意。
我們集成了一個 Slack 機器人,這個機器人會詢問 GPT 3.5 並回答問題。聽起來這就解決了,但實際上我們並不知道它所說的是否正確,事實上,它說錯了一些資訊。
我們當時想,「好吧,我們該如何解決這個問題?」我們想起了我們的學術背景。我和 Dennis 都是學者,Dennis 是我的聯合創始人。
我們想,「行吧,我們在同行評審的論文時,防止自己說胡話的一個方法是什麼?」
我們總是確保我們寫的每一句話都有引用。那麼,如果我們要求聊天機器人也這樣做呢?然後我們意識到,這實際上就是維基百科的運作方式。
在維基百科中,如果你隨意進行編輯,人們期望你是有一個來源的,而且不僅是隨隨便便一個來源,他們希望你確保來源有可靠的。有許多標準來判斷什麼算是可靠的,什麼不是。所以 Dennis 認為這是一個值得嘗試的方向。
這不僅是一個可以通過更智能模型解決的問題,還有許多其他事情要在搜索層面和來源層面上做,並確保答案的格式和呈現方式對用戶來說是合理的。這就是為什麼這個產品存在的原因。
Lex Fridman:我有些問題要問,但首先,放寬視野。本質上,它是關於搜索的。你說有一個搜索的構件,然後一個通過 LLM 講故事的構件和引用構件,但它首先是關於搜索的。你認為 Perplexity 是一個搜尋引擎嗎?
Aravind Srinivas:我認為 Perplexity 是一個知識發現引擎,不是搜尋引擎。當然,我們稱它為答案引擎,但這裡的一切都很重要。當你得到答案,旅程並沒有結束,在我看來,你得到答案後旅程才開始。
你會看到底部出現的相關問題,為什麼?因為也許答案不夠好,或者答案足夠好,但你可能想要深入挖掘並提出更多問題。
這就是為什麼我們在搜索欄里寫,「知識從這裡開始」,因為知識沒有盡頭,你只能擴展和成長。這就是 David Deutsch 的書《無限開始》的整個概念。你總是在尋求新知識。我將這看作是一種發現過程。
Lex Fridman:如果長遠來看,你認為搜索的未來是什麼樣的?也許我們還可以問一個更大的問題,網際網路的未來是什麼樣的?也許甚至是瀏覽器的未來,我們如何與網際網路互動?
Aravind Srinivas:如果你看得更遠點,甚至在網際網路之前,知識一直在不斷傳播。這是一個比搜索更大的事。
搜索是一種方法。網際網路是快速傳播知識的一種方式,最開始按主題組織,然後有Yahoo 分類,然後是更多的超鏈接。Google 也開始通過知識圖譜等做即時問答。我認為即使在 2010 年,Google 流量的三分之一,當時是每天 30 億次查詢,都是來自 Google 知識圖譜的即時答案,基本上來自 Freebase 和 Wikidata 的東西,都是。
所以很明顯,至少 30 到 40% 的搜索流量只是答案的一部分。其餘的,你也可以說是像我們現在正在服務的,更深度的答案。
但是另一個真實的情況是,隨著更深層次的答案,更深入的研究力量,你能夠問出以前不能問的問題。比如,你能問「AWS 是否在 Netflix 上」這樣的問題嗎?這將讓你問一種新的問題,一種新的知識傳播。所以清楚地解釋搜索和答案引擎之間的區別很難。
我相信我們正朝著的方向既不是搜索也不是答案引擎,而是發現,知識發現的方向發展。這是更大的使命,可以通過聊天機器人,答案機器人,語音等使用形式來滿足,但比這更重要的是指導人們發現事物。我認為這就是我們在 Perplexity 上想要做的,滿足人類的基本好奇心。
Lex Fridman:所以這是人類物種的集體智慧,總是在尋求更多的知識,你正在給它工具以更快的速度達到。
Aravind Srinivas:沒錯。
Lex Fridman:你認為人類物種的知識量會隨著時間的推移而迅速增加嗎?
Aravind Srinivas:我希望如此。更重要的是,如果我們能夠改變每個人,讓他們比以前更追求真理——僅僅因為他們有能力,僅僅因為他們有工具,我認為這將帶來更多的知識。實際上,更多的人會對事實核查和發現事物感興趣,而不是僅僅依賴其他人,和他們道聽途說來的消息,因為那些總是可能被政治化,或有意識形態的影響。
所以我認為這種進展會非常好,我希望這是我們可以一起建設的網際網路。比如通過我們正在進行的 Pages 項目,讓人們不費多少力氣就能寫文章。這個項目的願景在於,你在 Perplexity 上的瀏覽會話和問詢不僅對你自己有用。
黃仁勛在他的演講中說過,「我在別人面前給一個人反饋,不是因為我想壓低或提升任何人,而是因為我們都可以從彼此的經驗中學習」。
為什麼只有你能從你的錯誤中學習?其他人也可以從別人的錯誤中學習,或者另一個人也可以從別人的成功中學習。
所以這就是其中的一部分。為什麼你不能分享自己在 Perplexity 上的一個 Q&A 會話,和你從中學到的東西,然後傳播到世界其他地方?我想要更多這樣的事情發生。