宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

iPhone的AI時刻不遠了?蘋果Ferret多模態大模型登場

2023年12月25日 首頁 » 熱門科技

今年10月,作為蘋果公司與哥倫比亞大學的研究成果,Ferret就已經發布過一次,只是當時僅供研究使用而非商業許可,所以並未引起多大關注。如今情況發生了轉變,隨著各大科技公司你追我趕地公布研發成果,關於本地模型為小型設備提供智能體驗的討論也越來越多。

12月以來,蘋果也陸續公布它在AI領域的研發進展。12月初蘋果公布Apple Silicon平台專用AI框架MLX、以及能在設備端執行大語言模型的方法,後者能在邊緣設備上執行DRAM兩倍大的模型,可節省執行大模型所需的運算資源,也更能確保隱私安全。

iPhone的AI時刻不遠了?蘋果Ferret多模態大模型登場

上周,蘋果再次公布全新成果——Ferret大語言模型以及相關標竿測試工具與數據集。

作為一款多模態模型,Ferret可以接受文字、聲音、影像或數據的輸入。根據蘋果10月公布Ferret的研究論文,Ferret能理解任何形狀或任何圖片顆粒(granularity),並且可以準確定位(ground)開放詞彙的描述。為了把引用(refer)和定位能力整合到模型中,Ferret採用一種混合區域表徵(hybrid region representation)技術,整合個別方位和連續性的特徵,以表示圖片中的某一區域。為提取出區域中的連續特徵,蘋果研究人員提出一種空間感知的視覺採樣器,它能處理不同形狀多種稀疏性。這也使Ferret可以接受多樣化區域輸入,像是點、邊界框、自由形式的形狀。

為提升Ferret的能力,蘋果團隊使用了GRIT數據集(Ground-and-Refer Instruction-Tuning),後者為是一個廣大的refer-and-ground指令微調數據集,包含110萬個樣本,內有豐富的階層化空間知識,以及9.5萬個負樣本,以提升模型的判斷力。

與Kosmos-2、GPT4-ROI、LLaVA、Shikra等多模態大語言模型比較,最後蘋果得到的模型Ferret-13B,在傳統引用及定位任務具有優異效能,此外,在區域為基礎、需要本地化的多模態對話、細節描述,以及複雜推理等任務上,Ferret-13B的表現同樣優於其他模型。在視覺化比較任務,蘋果說它的模型展現優異的空間理解及常識推理能力。此外,蘋果宣稱其物件幻覺也較Shikra、InstructBLIP、MiniGPT4、LLaVA、MM-GPT及 mPLUG-Owl等知名模型少很多。

蘋果公布了Ferret7B、130B二模型的 代碼、GRIT數據集、標竿測試工具Ferret-Bench,上周也公布了Ferret 70B及130B檢查點(checkpoint)。

有趣的是,在人工智慧社區中,很多人都是到最近才發現蘋果的大模型,Bart de Witte也在X上感嘆自己居然錯過了這個消息,同時也表示:「期待著有一天,本地大型語言模型能作為重新設計的iOS的集成服務,運行在我的iPhone上。」

iPhone的AI時刻不遠了?蘋果Ferret多模態大模型登場

隨著蘋果大模型的開發有了新的進展,Anthropic和OpenAI據稱也在為其專有大語言模型的開發工作談判新的巨額融資。路透社報道稱,Anthropic正在討論從Menlo Ventures募集7.5億美元,而根據彭博社的報道,OpenAI「正在早期討論以 1000 億美元或以上的估值進行新一輪融資」。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新