Apple先前發布了一篇有關開發「Ferret-UI」AI人工智慧的論文,據悉Ferret-UI是一個生成式人工智慧系統,能夠理解智慧型手機應用程序螢幕顯示的內容。
大家耳熟能詳的AI ChatGPT屬於大型語言模型 (Large Language Models,LLMs),主要訓練素材取材自文本內容,而更先進的多模態大語言模型(Multimodal Large Language Models,MLLMs)旨在擴展AI理解圖片、影片、音頻等非文本資訊的能力,但是現在大部分MLLM還無法有效理解智慧型手機上面的應用程序,主要因為以下原因:
Apple因此構思開發名為Ferret-UI的全新MLLM,以解決上述問題。Apple指,Ferret-UI加入了「任意解析度」,讓這個MLLM得以放大畫面細節,增強視覺能力。Apple又表示從廣泛的基本UI任務里收集了不少訓練樣本,例如圖標誌別、尋找文本、小清單等,以提高精確度。
數據源:9to5Mac、arxiv.org、ithome