iPhone的AI時刻不遠了？蘋果Ferret多模態大模型登場

今年10月，作為蘋果公司與哥倫比亞大學的研究成果，Ferret就已經發布過一次，只是當時僅供研究使用而非商業許可，所以並未引起多大關注。如今情況發生了轉變，隨著各大科技公司你追我趕地公布研發成果，關於本地模型為小型設備提供智能體驗的討論也越來越多。

贊助商廣告

12月以來，蘋果也陸續公布它在AI領域的研發進展。12月初蘋果公布Apple Silicon平台專用AI框架MLX、以及能在設備端執行大語言模型的方法，後者能在邊緣設備上執行DRAM兩倍大的模型，可節省執行大模型所需的運算資源，也更能確保隱私安全。

上周，蘋果再次公布全新成果——Ferret大語言模型以及相關標竿測試工具與數據集。

作為一款多模態模型，Ferret可以接受文字、聲音、影像或數據的輸入。根據蘋果10月公布Ferret的研究論文，Ferret能理解任何形狀或任何圖片顆粒（granularity），並且可以準確定位（ground）開放詞彙的描述。為了把引用（refer）和定位能力整合到模型中，Ferret採用一種混合區域表徵（hybrid region representation）技術，整合個別方位和連續性的特徵，以表示圖片中的某一區域。為提取出區域中的連續特徵，蘋果研究人員提出一種空間感知的視覺採樣器，它能處理不同形狀多種稀疏性。這也使Ferret可以接受多樣化區域輸入，像是點、邊界框、自由形式的形狀。

為提升Ferret的能力，蘋果團隊使用了GRIT數據集（Ground-and-Refer Instruction-Tuning），後者為是一個廣大的refer-and-ground指令微調數據集，包含110萬個樣本，內有豐富的階層化空間知識，以及9.5萬個負樣本，以提升模型的判斷力。

與Kosmos-2、GPT4-ROI、LLaVA、Shikra等多模態大語言模型比較，最後蘋果得到的模型Ferret-13B，在傳統引用及定位任務具有優異效能，此外，在區域為基礎、需要本地化的多模態對話、細節描述，以及複雜推理等任務上，Ferret-13B的表現同樣優於其他模型。在視覺化比較任務，蘋果說它的模型展現優異的空間理解及常識推理能力。此外，蘋果宣稱其物件幻覺也較Shikra、InstructBLIP、MiniGPT4、LLaVA、MM-GPT及 mPLUG-Owl等知名模型少很多。

贊助商廣告

蘋果公布了Ferret7B、130B二模型的代碼、GRIT數據集、標竿測試工具Ferret-Bench，上周也公布了Ferret 70B及130B檢查點（checkpoint）。

有趣的是，在人工智慧社區中，很多人都是到最近才發現蘋果的大模型，Bart de Witte也在X上感嘆自己居然錯過了這個消息，同時也表示：「期待著有一天，本地大型語言模型能作為重新設計的iOS的集成服務，運行在我的iPhone上。」

隨著蘋果大模型的開發有了新的進展，Anthropic和OpenAI據稱也在為其專有大語言模型的開發工作談判新的巨額融資。路透社報道稱，Anthropic正在討論從Menlo Ventures募集7.5億美元，而根據彭博社的報道，OpenAI「正在早期討論以 1000 億美元或以上的估值進行新一輪融資」。