沒有任何預告,法國 AI 初創 Mistral AI 昨晚突然發布了旗下首個多模態模型。贊助商廣告該模型名為 Pixtral 12B,擁有 120 億個參數,大小約為 24GB,基於 Mistral 的文本模型 Nemo 12B 構建。 它能夠回答與給定 URL 或 base64 編碼圖像相關的任意數量、任意大小的圖片問題。 在 Mistral 的閉門會議上,官方還透露了關於 Pixtral 12B 的更多細節。 從網上流傳的多項基準測試結果來看,Pixtral 12B 的性能幾乎全面碾壓了 Phi-3 vision、Qwen2-VL 7B、Claude 3 Haiku、LLaVA-OV 7B。 但很快,HuggingFace 的技術主管 Philipp Schmid 指出這些數據可能不太對勁。 他在 X 平台發文稱,Pixtral 12B 的實際跑分並不如 Qwen 2 7B VL,而且 Qwen 2 7B VL 的參數規模還小了 40%。 網友還發現,比較的圖表使用的竟然是 Qwen 7B(不具備多模態能力)而非 Qwen2-VL,似乎再次證明了這個世界是個巨大的草台班子。 Mistral 開發者關係主管 Sophia Yang 表示,Pixtral 12B 很快將在 Mistral 的聊天機器人 Le Chat 和 API 服務平台上提供測試。 在閉門會議上,其實 Mistral AI 還展示了 Pixtral 12B 的多模態能力。 例如,依靠 OCR 能力,Pixtral 12B 可以輕鬆識別出圖片中的所有內容,甚至複雜的數學符號也不在話下,即便面對潦草的手寫草稿,它也能拿捏到位。 贊助商廣告此外,Pixtral 12B 看圖說話的能力也很強,給它一張密密麻麻、標註不同地區的投資分布圖,它不僅能摘錄關鍵資訊,還能以圖表的形式分門別類地羅列並生成圖表。 可以看出,它的處理效率甚至遠超了大多數打工人。 針對戶外的照片,Pixtral 12B 能詳細描述照片中的各種動物,甚至會有條不紊地介紹背景中的建築、樹木和藍天,字裡行間也充滿條理性。 並且,無論是識別和總結不同國家 GDP 的照片、分析 DNA 結構,還是從手稿中直接生成代碼、解決數學難題,亦或是將收據資訊提取成 JSON 格式,Pixtral 12B 都遊刃有餘。 贊助商廣告Mistral AI 開發者關係主管 Sophia Yang 強調,Pixtral 12B 的獨特之處在於,它能原生支持任意數量和大小的圖像。 在基礎功能方面,Pixtral 12B 支持 128K 的上下文長度。 HuggingFace 內部員工也分享了更多有關 Pixtral 12B 的技術細節: 先進架構設計:40 層網路、14336 隱藏維度、32 個注意力頭 視覺處理能力:專用視覺編碼器,支持 1024x1024 圖像大小,配備 24 個隱藏層用於高級圖像處理 詞彙量:131072 tokens,支持更細緻語言理解與生成 使用 GeLU (用於視覺適配器) 和 2D RoPE (用於視覺編碼器) Patch 大小:16×16 像素 在 mistral_common 中支持 tokenizer 模型權重:bf16 值得一提的是,英偉達創始人黃仁勛也出席了該會議,並與 Mistral 創始人 Arthur Mensch 進行了交流。 網上流傳的交流片段並不完整。具體來說,老黃表示,英偉達將繼續優化 GPU 的設計與性能,特別是推理技術。 他指出,推理技術目前面臨的挑戰很大,英偉達 90% 的工程師都在專注於推理的改進,並希望通過 NVLink 提升低延遲和高吞吐量的推理性能。 老黃還提到,他期望未來能有數百萬智能體作為數字員工自動運營公司等等等等。 贊助商廣告三個月前,Mistral AI 剛剛完成了一輪由 General Catalyst 領投的 6.45 億美元 B 輪融資,這也使得該公司估值達到 60 億美元。 此前,Mistral AI 的運營策略是發布免費開源模型,並通過提供模型託管服務和為企業客戶提供諮詢來盈利。 不過,在此前被全網下架的影片中,前 Google CEO Eric Schmidt 曾提到: AI 行業的成本太高,開源負擔不起,自己投資的法國大模型 Mistral 將會轉為閉源路線了,不是所有公司都願意且有能力像 Meta 一樣 如此一來,AI 開源領域或將損失一員大將。 原文地址 : https://www.animattoys.com/detail/XkTYWeTJ/歐洲版OpenAI發布首個多模態模型卻遭大佬打假公司估值已達420億