蘋果公司的研究人員開發了一種訓練大型語言模型(LLM)的新方法,可以無縫地整合文本和視覺資訊。
該公司的發現詳細載於一篇題為《MM1:多模式LLM預訓的方法、分析和見解》的研究論文中,展示了一種創建更智能、更靈活的人工智慧系統的新方法。蘋果公司聲稱,通過利用包括圖像-字幕對、交錯的圖像-文本文檔和純文本數據在內的各種數據集,MM1模型為人工智慧高精度執行圖像字幕、視覺問題回答和自然語言推理等任務的能力設定了新的標準。
蘋果的研究重點是不同類型的訓練數據和模型架構的組合,這使人工智慧能夠理解並基於視覺和語言線索生成語言。這種能力對於需要對世界有細微差別的理解的任務至關重要,例如解釋複雜的圖像或回答涉及視覺元素的問題。
文章還強調了MM1模型在上下文中的卓越學習能力,特別是在該模型的最大300億參數配置中。這個版本顯然展示了非凡的能力,可以使用極少的「思維鏈」提示在多個圖像上進行多步推理,這是一種允許人工智慧基於最少的例子執行複雜的開放式問題解決的技術。