Google旗下AI業務群DeepMind本周發布能為短影片服務YouTube Shorts自動產生描述文本的AI模型Flamingo,方便這些影片為用戶搜索。
YouTube Shorts為類似Tiktok的短影片,通常只有幾分鐘,大部分也都未包含描述文本及有用的標題,使這些影片難以被人搜索。因此DeepMind推出視覺語言模型Flamingo以協助產生描述文本。
DeepMind說明,Flamingo分析Shorts影片最初的幀後即可解釋螢幕上的內容為何,例如「一隻狗頭頂著一疊餅乾」。這段文本可存成YouTube的metadata,以便更有效率分類影片,並且讓搜尋引擎找給用戶。
目前新上傳的數十萬則Shorts影片已經都有AI產生的影片描述,YouTube計劃把這項技術漸次推到所有Shorts影片。
Flamingo是DeepMind和YouTube合作的最新一項項目,也是4月間Google宣布DeepMind和Google Brain整合成一個單一AI業務群的最新成果。
最早DeepMind以其AI模型MuZero改善YouTube壓縮發送的VP9 codec。2018年DeepMind又和YouTube合作,教育影片創作者如何藉由為影片搭配符合YouTube政策的廣告以增加營收,因此兩公司發展了標籤品質模型(label quality model,LQM)以更精準標註內容。模型提升了廣告精準度,也強化YouTube上的觀眾、創作者及廣告商的信任度。
而後YouTube影片增加分段篇章,方便觀眾更快找到想要的段落,為此DeepMind又和YouTube搜索部門開發可自動處理影片、影音內容轉錄文本,以及建議篇章切分及標題的AI系統。名為AutoChapters的功能在Google I/O 2022上,由首席執行官Sundar Pichai宣布,不再需要用戶辛苦慢慢尋找,也縮短創作者加篇章的時間。現在AI自動分篇章的影片已經用於800萬則影片,DeepMind計劃明年擴展到8000萬則 。
YouTube Shorts生產機制部門對媒體表示,Flamingo產生的metadata不會顯示給創作者,目的在大幅提升搜索精確性。同時Google也會確保Flamingo所產生的文本符合其責任標準,不會出現文本負面呈現影片內容的情形。
Flamingo AI標示準確性值得觀察。8年前Google Photos曾將2個非裔人士標註為黑猩猩,因此Google Photos這服務迄今不會標註任何東西為「猴子」。