如果Meta AI能搶在ChatGPT發布之前就搶先亮相,那我可能會對Meta打造的這款虛擬助手留下更深刻的印象。又或者,如果還沒有Microsoft Copilot,Meta AI接入開放網際網路並使用實時資訊生成響應的能力倒也算驚艷。或者是Perplexity那對接Reddit資料庫的設計。哪怕是Meta AI最具決定性的差異化因素——Imagine圖像生成器,跟Dall-E 3以及Adobe Firefly相比也沒什麼過人之處。雖然它比「幻覺聚合體」谷歌Gemini表現稍好,但還肯定比不上目前的衛冕冠軍Anthropic Claude,這還是在Claude沒有接入開放網際網路的情況下。
Meta AI的beta版發布於2023年9月,這是一款開發自「大語言模型Meta AI」,也就是Llama的成熟會話型助手。我認為Meta行動稍慢倒也不是大問題,畢竟只要能充分用好這段時間、拿出更出色的成果,後發先至其實是招妙棋。但遺憾的是,Meta AI在我眼中有著種種缺憾,所以並沒能從一眾競爭對手中脫穎而出。
也就是說,我的確相信Meta AI將在用戶的數字生活中占據一席之地,畢竟它已經切實落地、融入應用場景。在Instagram、Facebook、Messenger、WhatsApp 甚至Meta的Ray-Ban 智能眼鏡上,Meta公司已經將聊天機器人廣泛集成至自家產品和平台當中。現如今,Meta希望在此基礎之上更進一步。
這對於你我這樣的普通用戶肯定是個好消息,因為雖然Meta AI不夠完美,但的確便捷易用。下面來看由Llama 3大模型提供支持的最新Meta AI在購物輔助、菜譜設計、研究工具和圖像生成等場景下的實際表現。
我們的AI聊天機器人測試方法
我們選擇以重實踐的方式評測AI聊天機器人,希望確定目標方案相較於競爭對手有多出色,以及最擅長處理哪些任務。為此,我們根據現實世界的用例向AI輸入提示詞,例如查找並修改食譜、研究旅行路線以及撰寫電子郵件。我們按照10分制對聊天機器人進行評分,其中會考慮到準確性、響應結果的創造性、幻覺數量及響應速度等因素。
Meta在其AI服務條款中寫道,該公司可以「保留並使用」用戶提交至其生成式AI聊天機器人的任何資訊,包括提示詞內容。Meta還特別提醒用戶:「不要分享您不希望AI保留和使用的資訊。」條款指出,Meta可以根據第三方搜尋引擎的隱私政策,與「幫助我們為您提供相關度更高、實用性更強的響應」的第三方共享用戶資訊。大家可以通過輸入提示符/reset-ai 從 Meta AI 的歷史記錄中刪除之前的資訊,這樣可以刪除Meta伺服器上的AI對話副本。但用戶仍可在客戶端查看聊天內容。
使用Imagine生成圖像
使用Meta AI的Imagine功能來創建AI生成圖像確實是種酷炫的體驗,但結果仍然不夠穩定和完美。Meta的圖像生成速度很快,普遍在1分鐘以內。而更有趣的是,在開始撰寫第一條提示詞時Meta就會開始生成圖像,並在持續輸入的過程中不斷更新其內容。
這種疊代過程能幫助大家理解Meta的思路,並根據需要進行調整。例如,以下影片也展示了我自己在編寫提示詞時經歷的過程,包括如何引導AI生成特定的畫面。相較於Meta擅長的卡通風格,我更想要比較寫實的圖像,而實時預覽能幫我在輸入過程中直接實現這一點。
在完成提示詞並按下回車鍵後,Imagine功能會給出四張圖像。所有圖像的左下角都有一個小水印,寫著「Imagined with AI」。我生成的很多圖像乍看之下似乎沒什麼問題,但放大後就會發現很多AI圖像生成器的常見瑕疵。比如我生成了幾張狗追飛盤的圖像,其中沒有一隻狗能達到以假亂真的程度,而且問題在寫實風格圖像中更明顯。不過總體而言,Imagine的表現還算讓人滿意。
如果大家不喜歡Meta生成的內容,也可以繼續發送後續資訊來完善畫面內容。另外,只需單擊每批圖像下方的「Animate」動畫按鈕,就能將圖像製作成GIF等格式的動圖。
購物場景
在進行購物決策時(比如選擇新的智慧型手機或者電視),我們往往會因為資訊量過大而感到不知所措。整理官方評論、規格表、各家零售平台價格差異,甚至是好友和TikTok評測影片可能需要花費大量時間。在這方面,AI能夠發揮良好作用,幫助我們快速縮小搜索範圍。
最近我一直在瀏覽新款手機,所以很好奇Meta AI會給出怎樣的推薦。我告訴Meta自己目前在使用一部舊的iPhone 11,對新機的要求是拍攝質量出色、存儲空間充裕,另外價格不要太高。Meta列出了2024年最佳智慧型手機名單,不出所料其中都是些手機大廠的最新型號,包括iPhone 15 Pro Max和三星Galaxy S24 Ultra。
我承認自己可能有點老派、或者是摳門,但我一直不覺得新的就一定更好。所以我又提出了很多問題:拍照質量最好的手機是哪款?哪款iPhone相較於11代實現了重大升級?如果我想從蘋果生態轉向Android,需要注意哪些問題?蘋果會推出摺疊屏iPhone嗎?Meta AI很好地解決了這些問題,不僅引用了比較權威的消息來源,還指出了一些我之前沒考慮到的情況。
總而言之,Meta AI確實是款很棒的購物決策工具,能夠從不同機型之間提取規格,並在交流中準確理解和分析技術術語。它還幫助我比較了手中的iPhone 11與預期購買機型之間的主要區別。我不確定是為什麼,但在測試購物查詢時,發現Meta AI出現的幻覺和瑕疵要比其他測試場景更少。
Meta的表現跟Perplexity和Gemini基本相當。當然,在創意模式下,Claude和Copilot也是很好的AI購物助手。但這裡提醒大家,千萬不要在缺少最新資訊的情況下用聊天機器人輔助購物,比如ChatGPT 3.5,因為這會錯過最新的評測和產品。
設計菜譜
不知道大家是不是跟我一樣,我這人最喜歡在美食博客上學做菜了。對於這類需求,AI食譜同樣會帶來出乎意料的助益。
跟其他聊天機器人一樣,Meta會剔除掉菜譜和美食博客上的一切廢話,僅以易於理解的形式提供配料與說明。我請Meta AI為我最近最喜歡的一餐——Gigi Hadid的爆款超辣伏特加意面整理食譜。Meta成功了,很快調出了我在社交媒體上看到的確切食譜。我還要求Meta生成更通用的食譜,比如提供多種配料選擇的意面沙拉,它同樣順利完成了任務。Meta的表現與Perplexity、Copilot 和 ChatGPT 3.5 等競爭對手類似,但這項測試中的最終贏家是谷歌Gemini,能夠提供更可靠的配料列表和更具體的操作步驟。
順帶一提,我們也可以要求Meta將每種配料的量化數值添加到說明當中,這樣就不用在配料和說明之間來回滾動了。這能節約大量時間,也解決了我在烹飪中最頭痛的問題。
研究和準確性
用過谷歌搜索的朋友們都知道,研究工作中最重要的兩大要素,就是資訊及時性與來源可信度。換句話說,就是要判斷資訊是不是最新的、是不是真實可信的。Meta與Google和Bing的實時集成,以及對確切來源的引用能力,理論上足以造就一款優秀的研究工具。但在實踐測試之後,我發現它的水平還不夠。
我請Meta為我查尋關於美洲原住民社區中性別角色與權力結構間關係的優秀學術期刊論文,特別是經過同行評審的論文以及近期新發表的文章。在回覆中,Meta提供一份包含五個來源的清單,涉及一份小學課程計劃,發表於1989年、2000年和2002年的論文,以及一篇未註明日期的法律期刊文章。在谷歌上簡單搜索後,我得知這篇文章可能發表於2006年。其中只有兩篇出自美洲本土學者之手,這也是判斷文章是否權威的關鍵因素。相比之下,使用同樣的搜索詞直接求助於谷歌反而能獲得更多更新的信源。
而在我要求Meta總結這些信源時,它生成了一份全面且細緻的報告。但考慮到這些信源同樣缺乏針對性,所以我暫時對其內容持保留態度。而後我要求Meta整理一份美洲本土學者名單,它確實提供了一份發表過相關文章和書籍的真實人員名單,但其中部分專業游離於我的要求範圍以外。
Meta AI可能是個不錯的研究起點,我們可以用它提出關鍵搜索術語、查找特定領域學者的姓名,以及初步熟悉某個專業主題。儘管如此,大量幻覺和誤解導致我們仍不能完全信任於它。它類似於一個低質版的AI維基百科——拿來入門可以,但請務必認真檢查其資訊來源。
Calude和Copilot是目前性能最強的研究工具,能通過鏈接的來源生成可用的結果。Perplexity也不會像Meta那樣產生大量幻覺,但在聚合資訊方面似乎力有不逮。ChatGPT 3.5(未聯網)與Gemini(已聯網)則在幻覺方面與Meta處於同一水平。
總結能力
我要求Meta總結一下我今年早些時候撰寫的一篇,解釋「聯邦宇宙」概念的文章。我將文章 URL複製並粘貼到了提示詞內,Meta也順利對內容做出了總結。Meta生成的初步摘要雖然簡單,但質量還算不錯。而在要求它擴展解釋後,我得到了更多關鍵細節,不過Meta AI仍然活力了我在原文中列出的大量重要上下文。
Meta可以分析大量文本,因此我將文章的完整內容複製並粘貼到Meta AI中並要求它進行總結,由此得到的響應質量更高。例如,在之前僅提供URL的總結中,Meta告訴「聯邦宇宙」是由能夠相互交流的社交媒體平台組成的集合,這話沒錯。但在分析完整文章文本之後,它指出這是一套去中心化的社交平台系統,這才把握住了「聯邦宇宙」概念的核心。它還提到我調整Threads賬戶設置以啟用「聯邦宇宙」共享的相關說明,這是此前摘要中缺少的另一個重要組成部分。
Meta的總結跟Gemini一樣,在給出完整文章文本時都能做出很好的總結,而僅通過URL鏈接的總結也說得過去。ChatGPT 3.5這邊則有一些問題,而且由於存在字符數限制,我們很難用它來總結長文檔。Claude和Perplexity則未能給出充分的總結結論。
出行規劃
有些用戶可能喜歡規劃旅行、整理評論、制定出行指南,並通過TikTok及各主要度假目的地的資訊網站設計路線。我本人不是旅行愛好者,所以用AI享受一把虛擬出行就可以了。為了測試Meta AI,我讓它創建幾條行程和計劃,指向的是一處風景宜人但卻不太出名的目的地:加拿大阿爾伯塔省班夫鎮。
由於Meta AI能夠使用來自谷歌和Bing的實時資訊,因此與未接入網際網路的聊天機器人相比,我當然對其抱有更高的期待。然而,Meta推薦的地點已經永久關閉,它還編造了幾家餐飲的名稱並宣稱所有設施都在山體同側、「步行即可到達」。說實話,我對這樣的表現相當失望。哪怕是在真實存在的選項當中,Meta也在整個旅程中多次推薦了相同的地點,這跟我所期待的探索之旅顯然相去甚遠。
可以肯定地說,我絕不會使用Meta為自己的未來出行規划行程。Meta更擅長的是幫我找到特定的餐飲、酒店和遠足路徑。即使如此,其中仍然充斥著問題和幻覺。但我發現,指導Meta收窄每項活動的最佳選項數量,其實有助於避免一些問題。以旅行規劃助理來看,Copilot的表現最好,其次是Claude和ChatGPT 3.5,Gemini則和Meta一樣喜歡信口胡說。
另外值得指出的是,我覺得Meta並沒有充分權衡它所推薦活動及出行方式的安全性。Meta會在計劃末尾添加注釋,提醒我檢查天氣預報和當地交通時間表,並負責任地安排飲酒,但這樣的免責聲明實在有些敷衍。對於一段旅程,安全肯定是首要任務,特別是對我這種獨自出行情況。考慮到Meta離譜的幻覺問題,我絕對不敢輕易採用Meta AI提供的任何旅行計劃。
撰寫電子郵件
Meta的郵件寫作能力一般。而且我對Meta AI撰寫郵件的最大擔憂,就是它的常規證據特別單調——可以說是機械感極強。而且只要不特別要求,它就絕不會模仿人類的證據。當我要求Meta對我已經寫好的電子郵件做點潤色時,它的表現馬上就好起來了。之後我又要求它生成一封基礎郵件,內容是安排一場會面,並要求它調整證據(更專業、更友好等),Meta也做出了相應的改變。
我還給聊天機器人布置了一項更艱巨的任務,就是撰寫一封關於在大學環境中使用AI技術的道德考慮因素的推介性郵件。從結果中涵蓋的不同用途以及潛在道德影響角度來看,Meta的表現相當不錯。雖然看起來有點不完全是原創——感覺Meta就像是在將相關主題安插進固定的模板當中,但這封郵件的內容還是相當全面的。如果要嚴肅使用,我會再做一點潤色並添加自己的文字風格讓它不那麼單調。
作為對話能力最強的聊天機器人,Cluade在這項任務上表現出色。Meta則與谷歌Gemini、ChatGPT 3.5和Perplexity等競爭對手並駕齊驅。微軟Copilot拒絕根據我提供的素材撰寫這類內容,稱主題過于敏感。雖然Meta跟其他聊天機器人的表現相當,但我注意到Grammarly的生成式AI撰寫的電子郵件更加順暢自然。
Meta AI:驀然回首,它在燈火闌珊處
Meta AI最大的亮點之一,就是總在你需要它的地方守候。無論大家如何理解,Meta確實掌握著運營著全球最大的多種社交媒體平台。通過將其AI成果整合進這些平台當中,Meta已經在競爭當中脫穎而出,並創造出最易於訪問的AI產品之一。
但能夠輕鬆訪問Meta AI,並不意味著它就真值得我強烈推薦給大家。Meta一直飽受幻覺、錯誤及各類誤導性響應的困擾——對於一款接入開放網際網路的聊天機器人來說,這確實令人感到失望。Meta在購物輔助和食譜設計方面表現出色,其中的Imagine圖像生成器也堪稱一個亮點。但它的旅行規劃簡直糟糕透頂,在學習和研究方面的表現充其量也只能算是普普通通。
那麼,Meta AI跟ChatGPT 3.5、Copilot、Perplexity、Gemini和Claude幾位對手相比,究竟孰優孰劣?總的來看,它的表現絕對優於Gemini,而且在我的個人排名中,Meta AI也要好於缺乏最新數據加持的ChatGPT 3.5。而Claude、Perplexity和Copilot則可算作Meta AI旗鼓相當的競爭對手,並在某些任務中有著更好的表現。但必須承認,如果我在瀏覽Instagram動態時想要快速解決某些問題,那麼使用Meta AI的優先級已經高於谷歌搜索或者轉去打開其他聊天機器人了。便捷性當然不能說明一切,但在適當的場景下,方便的確很重要。