視覺能力媲美OpenAI，Meta發布Llama 3.2

Meta的大語言模型Llama發布了最新版本。

贊助商廣告

在日前召開的Meta Connect大會上，Meta推出了Llama 3.2，也是它首款能夠理解圖像和文本的旗艦視覺模型。
Llama 3.2包含中型和小型兩個版本（分別擁有11B與90B參數），以及更輕量化的純文本模型（分別擁有1B與3B參數），後兩款主要面向特定移動與邊緣設備。

Meta公司CEO祖克柏在開幕主題演講中表示：「這是我們的首個開源多模態模型，它將支持多種需要視覺理解的應用場景。」

與前代版本一樣，Llama 3.2將支持12.8萬個token的上下文長度，這意味著用戶可以輸入大量文本（相當於數百頁教科書的內容）。更高的參數量，往往也表明模型的準確率更高，能夠處理更為複雜的任務。

Meta還首次分享了官方的Llama技術棧發行版，以便開發人員可以在各種環境下使用這些模型，包括本地、設備端、雲端和單節點場景。

祖克柏表示：「開源將成為最具成本效益、可定製、值得信賴且性能最高的選擇。我們已經迎來了行業轉折點，它開始成為行業標準，堪稱是AI領域的Linux。」

與Claude及GPT4o正面對壘

Meta在兩個月前剛剛發布了Llama 3.1。該公司表示，這套模型截至目前已經實現了10倍發展。

祖克柏強調：「Llama繼續快速改進，正在實現越來越多的新功能。」

如今，兩個最大的Llama 3.2模型（11B與90B）已能支持圖像用例，並且能夠理解圖表與圖形、為圖像添加標題並從自然語言描述當中精確定位對象。例如，用戶可以詢問自己的公司在哪個月的銷售情況最好，模型則根據可用的圖表推理出答案。這兩個大模型還可以從圖像中提取細節以創建標題。

與此同時，兩個輕量級模型則可以幫助開發人員在個人環境中構建個性化智能體應用——例如總結最近的消息，或者發送日曆邀請並組織後續會議。

Meta表示，Llama 3.2在圖像識別和其他視覺理解任務上的表現，已經能夠與Anthropic的Claude 3 Haiku以及OpenAI的GPT 4o-mini相媲美。不止如此，它在指令遵循、總結、工具使用和提示詞重寫等領域的表現還優於Gemma和Phi 3.5 -mini模型。

贊助商廣告

Llama 3.2模型目前已經在llama.com、Hugging Face以及Meta各合作夥伴的平台上開放下載。

栩栩如生的名人語音

Meta還在著手擴展AI商業應用，以便企業能夠在WhatsApp和Messenger上使用點擊消息廣告，通過智能體為常見問題生成答案、討論產品細節並完成購買操作等。

Meta聲稱，超過100萬家廣告商正在使用它的生成式AI工具，上個月由這些工具製作的廣告已經超過1500萬條。Meta報告稱，與未使用生成式AI的廣告宣傳相比，使用Meta生成式AI技術的廣告內容平均點擊率要高出11%，轉化率則高出7.6%。

最後，對於消費者來說，Meta AI現在還擁有了「語音」——而且是多種語音選項。新的Llama 3.2支持Meta AI中的全新多模態功能，而且能夠以名人的音色做出回應，具體包括朱迪·丹奇女爵士、約翰·塞納、基岡·麥可·基、克莉絲汀·貝爾和奧卡菲娜。

祖克柏在主題演講中指出：「我認為語音是一種比文本更自然的AI交互方式，而且效果真的好很多。」

該模型將以名人的音色在WhatsApp、Messenger、Facebook和Instagram上響應語音或者文本命令。Meta AI還能根據聊天中分享的照片生成回復，包括添加、刪除或更改圖像以及添加新背景。Meta方面表示，他們還在Meta AI當中試驗新的翻譯、影片配音與口型同步工具。

祖克柏最後放出豪言，稱Meta AI有望成為世界上使用率最高的助手——「它可能已經做好了準備」。