Meta發布多模態Llama 3.2新模型，Meta AI支持語音對話

Llama 3.2Meta AI

Meta借一年一度的Connect 2024大會發布最新Llama 3.2模型，直接取代上一版Llama 3.1。

贊助商廣告

Meta新推出多模態的Llama 3.2模型，繼續採行開源AI政策，這也是Meta第一款主要的視覺模型，同時理解圖像和文本。為在Llama增加圖像支持，Meta訓練一組權重轉換器（Adapter weights），這些權重可與現有的80億和700億參數的純文本模型集成，創建同時理解圖像的110億和900億參數模型。

Meta還發布輕量的Llama 3.2 10億和30億參數模型，這些版本經過優化，可在手機或智能眼鏡上運行。

多模態的Llama可在多種雲計算平台下載和使用，包括Hugging Face、Microsoft Azure、Google Cloud、AWS；Llama也為Facebook、Instagram、Messenger、WhatsApp上的Meta AI提供支持。

去年發布的Meta AI，至今每月超過4億人使用，且在歐洲、台灣等市場尚未提供服務，這次在Connect 2024大會Meta AI獲得功能升級。

如同傳聞所言，Meta為Meta AI添加語音功能，使用Facebook、Instagram、Messenger、WhatsApp可與Meta AI對話、獲得語音回應。不久後更能聽到奧卡菲娜（Awkwafina）、茱蒂丹契（Judi Dench）、約翰·塞納（John Cena）、基根麥可凱（Keegan-Michael Key）、克莉絲汀貝爾（Kristen Bell）這些好萊塢演員的語音回應，增添使用樂趣。

為了讓人們在Instagram和Facebook影片看到更多母語發音的內容，Meta正在測試影片自動配音和唇形同步功能，與少數Instagram創作者合作測試，初期支持英語和西班牙語。值得關注的是，Meta技術已能做到這個程度，不免令人擔心萬一技術遭到不法濫用，會不會快速衍生出更多詐騙影片和不實資訊在網路上傳播。

最後，Meta也為AI編輯工具增添功能，Meta AI現在不僅能處理視覺資訊，用戶上傳照片後可以提出關於照片的問題。比方說，拍攝當地地標的照片並詢問歷史，或上傳壯麗的山景照片了解可以走的健行路線。不只如此，通過簡單的文本提示就能編輯照片，添加、更改或移除照片中的元素，比以往只能編輯AI生成圖像的功能更高端。

贊助商廣告

通過簡單的文本提示，Meta AI在照片上添加元素。（Source：Meta）

（首圖來源：影片截屏）