在多家開發AI的企業之中,馬斯克(Elon Musk)的xAI算是比較特別的一個,主力產品Grok擁有社交平台X上的內容作為輔助數據,也加入罕有的「有趣模式」可以開玩笑。最近他們更在開發者文件中表示,即將升級模型到多模態版本,支持圖像輸入。
xAI在上個月已經預告將會推出Grok-1.5V模型,為目前的Grok聊天機器人加入多媒體處理能力,據稱新版本將會可以處理多種形象資訊,包括文件、圖表、螢幕截屏和照片等等。他們更聲稱新版本在多個基準測試中都相當接近甚至超越目前其他競爭對手,例如GPT-4、Claude 3和Gemini Pro 1.5。
(Source:xAI)
而在最新公開的開發者文件中,xAI更提供了Python腳本範例,展示了開發者如何使用xAI的軟體開發工具包(SDK)庫來生成基於文本和圖像的回應。該腳本可以讀取圖像,設置文本提示,並利用xAI SDK產生回應。Grok-1.5V到底在實際應用上能否業界頂級標準仍然有待觀察,不過相信不用等很久就可以知道了。
(首圖來源:xAI)