宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

上海AI實驗室聯合多所高校:破解多模態大模型的「原生訓練」難題,讓AI真正學會看圖說話

2025年11月11日 首頁 » 熱門科技

這項由上海AI實驗室聯合香港中文大學、清華大學等多所知名院校的研究團隊完成的研究,發表於2025年的NeurIPS(神經資訊處理系統大會),論文標題為"NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints"。這項研究首次系統性地解決了多模態大語言模型在原生訓練方式下的核心技術難題,為AI真正理解圖像和文字的結合提供了全新思路。

現在的AI能夠看懂圖片、理解文字,甚至還能根據圖片回答問題,這聽起來很神奇對吧?但你知道嗎,大部分現在的AI其實是"拼裝"出來的,就像搭積木一樣——先訓練一個專門看圖的AI,再訓練一個專門理解文字的AI,然後用特殊的"膠水"把它們粘在一起。這種做法雖然有效,但就像兩個不同國家的人通過翻譯交流,總是會有些資訊在翻譯過程中丟失。

上海AI實驗室的研究團隊想要解決的,正是這個根本性問題。他們提出了一種全新的"原生訓練"方法,讓AI從一開始就同時學習看圖和理解文字,就像人類嬰兒同時學會認識物體和學習語言一樣自然。這種方法被稱為NaViL(Native Vision-Language,原生視覺-語言),它代表了多模態AI發展的一個重要轉折點。

要理解這項研究的意義,不妨回到廚房做飯的場景。傳統的"拼裝式"AI訓練就像是先單獨學會切菜,再單獨學會調味,最後才學著把這兩項技能結合起來做菜。而原生訓練則像是從一開始就在真實的廚房環境中學習,同時掌握切菜、調味以及兩者如何配合的技巧。顯然,後者培養出的"廚師"會更加熟練和自然。

但是,原生訓練面臨著一個巨大的挑戰:它需要消耗大量的計算資源和訓練數據。就像培養一個全能型人才比培養單一技能的專家要困難得多,原生訓練的成本往往令人望而卻步。這也是為什麼大部分研究團隊仍然選擇"拼裝"方式的原因。

研究團隊面臨的核心問題是:在有限的數據和計算資源條件下,如何讓原生訓練的多模態AI達到甚至超越現有拼裝式AI的性能?這就像是要在預算有限的情況下,培養出既會畫畫又會寫詩的藝術家,並且要求這個藝術家的水平不輸給專業畫家和專業詩人的組合。

為了解決這個問題,研究團隊進行了大規模的實驗探索。他們就像是在做一場精密的烹飪實驗,系統性地測試了各種"配方"和"烹飪技巧"。在這個過程中,他們發現了三個關鍵的突破點。

一、找到訓練的最佳起點

就像學習任何技能都需要一個好的基礎一樣,AI的訓練也需要一個合適的起點。研究團隊發現,如果讓AI完全從零開始學習看圖和理解文字,就像讓一個從未接觸過任何語言的人同時學習中文和繪畫,效果會很差。

相比之下,如果先讓AI掌握基礎的語言理解能力,再在此基礎上學習圖像識別,效果就會好得多。這就像是先讓學生掌握基本的閱讀能力,再教他們看圖寫作文,學習效率會大大提高。

具體來說,研究團隊使用了預訓練的大語言模型作為起點,這些模型已經具備了強大的文字理解和生成能力。在此基礎上,再訓練AI學習圖像理解,整個過程的效率提升了十倍以上。這個發現看似簡單,但對於原生訓練的成功至關重要。

二、巧妙運用專家系統架構

在現實生活中,一個人往往在不同的情境下會展現出不同的專長。比如同一個人在工作時可能是嚴謹的工程師,在家裡又是溫柔的父親。研究團隊將這種思路引入到AI訓練中,創造了一種叫做"混合專家"(MoE)的架構。

這種架構讓AI在處理圖像資訊時激活"視覺專家"模式,在處理文字資訊時激活"語言專家"模式,而在需要同時處理圖像和文字時,兩個專家可以協同工作。這就像是一個既懂音樂又懂詩歌的藝術家,在創作時可以根據需要調動不同的專業技能。

更重要的是,這種專家系統不會增加AI運行時的計算負擔。就像一個多才多藝的人在任何時候只會專注於當前最需要的技能,AI也只會激活當前最相關的專家模塊。這種設計讓原生訓練的效率得到了顯著提升。

三、發現視覺和語言能力的最佳平衡點

在傳統的拼裝式訓練中,研究人員往往會使用一個固定大小的視覺處理模塊,無論搭配多大的語言模型都是如此。這就像是無論做什麼菜,都使用同樣大小的鍋,顯然不夠合理。

研究團隊通過大量實驗發現,視覺處理能力和語言處理能力之間存在一種微妙的平衡關係。當語言模型變得更大更強時,視覺處理模塊也應該相應地增強,兩者應該協調發展。

具體來說,他們發現最佳的視覺處理模塊大小與語言模型大小之間存在對數線性關係。簡單理解就是,如果語言模型擴大一倍,視覺處理模塊也應該按照特定比例擴大。這個發現顛覆了傳統做法,為構建更均衡、更高效的多模態AI提供了重要指導。

基於這三個關鍵發現,研究團隊構建了NaViL模型。這個模型採用了端到端的訓練方式,讓AI從一開始就在真實的多模態環境中學習。就像是讓孩子在自然的語言環境中同時接觸圖片和文字,而不是分別學習看圖和識字。

NaViL的訓練過程分為兩個階段,就像培養一個藝術家需要先打基礎,再進行專業訓練。第一階段使用大量的圖片-文字配對數據進行基礎訓練,讓AI建立起圖像和語言之間的基本關聯。研究團隊使用了約5億對圖片-文字數據,這些數據來自網路上的公開資源。

在這個階段,AI會學習如何將看到的圖像轉換為文字描述,就像是訓練一個解說員學會描述眼前看到的畫面。為了讓訓練數據更加多樣化,研究團隊還使用現有的高質量AI模型為部分圖片生成了更好的文字描述,這相當於為學習者提供了更多優質的學習材料。

第二階段是精細化訓練,使用約6800萬條高質量的多模態數據。這些數據不僅包括圖片和描述,還包括問答對話、多輪對話等更複雜的交互形式。這就像是讓已經掌握基礎技能的學習者接受更高級的專業訓練,學會在各種複雜場景中運用所學技能。

為了驗證NaViL的效果,研究團隊在14個不同的測試基準上進行了全面評估。這些測試涵蓋了從基礎的圖像理解到複雜的視覺推理等各個方面,就像是對一個學生進行全科目的綜合考試。

測試結果令人驚喜。在多個核心測試中,NaViL-2B(擁有24億個參數的版本)的表現達到了與現有最好的拼裝式模型相當的水平。特別值得注意的是,NaViL在文檔理解、圖表分析等需要精確視覺-語言配合的任務上表現尤為出色,這正體現了原生訓練的優勢。

在一項名為MMVet的綜合能力測試中,NaViL-2B獲得了78.3分的高分,顯著超越了其他同等規模的原生訓練模型。在OCR(光學字符識別)測試中,它也取得了796分的優異成績,證明了其在處理包含文字的圖像方面的強大能力。

更令人印象深刻的是,研究團隊還訓練了一個更大的NaViL-9B版本,這個版本在幾乎所有測試中都達到了與大型拼裝式模型相媲美的性能。這證明了原生訓練方法的可擴展性,也為未來構建更大規模的多模態AI奠定了基礎。

為了深入理解NaViL的工作原理,研究團隊還進行了可視化分析。他們發現,當使用更大的視覺處理模塊時,AI在淺層就能夠關注到圖像的全局資訊,而不是像傳統方法那樣只關注局部細節。這就像是一個經驗豐富的藝術家能夠一眼就把握整幅畫作的構圖和意境,而不需要逐個細節地分析。

同時,更大的視覺模塊還能促進視覺資訊和文字資訊之間更早的交互。這意味著AI在處理過程的早期階段就能夠將看到的內容與語言概念建立聯繫,從而產生更準確、更自然的理解。

這項研究的意義遠不止於技術突破。它為多模態AI的發展指明了新方向,證明了在資源有限的情況下,通過精心設計的方法依然可以訓練出高性能的原生多模態模型。這對於推動AI技術的普及和應用具有重要價值。

從應用角度來看,NaViL這樣的原生訓練模型有望在多個領域發揮重要作用。在教育領域,它可以幫助開發更智能的輔導系統,不僅能夠理解學生的文字問題,還能分析圖表、圖形等視覺材料。在醫療領域,這種模型可以同時分析醫學影像和病歷文字,為醫生提供更全面的診斷支持。

在內容創作方面,原生訓練的多模態AI可以更好地理解創作者的意圖,無論是通過文字描述還是參考圖像,都能生成更符合要求的內容。這種自然的多模態理解能力,將使人機交互變得更加流暢和直觀。

研究團隊還關注到一個有趣的現象:NaViL在處理需要同時理解圖像和文字的複雜任務時,表現明顯優於那些簡單拼裝的模型。這證實了原生訓練的核心價值——真正的多模態理解不是簡單的模塊組合,而需要從根本上統一的學習過程。

當然,這項研究也存在一些局限性。由於計算資源的限制,研究團隊目前只探索了相對較小規模的模型。未來隨著計算能力的提升,有望訓練出更大規模的原生多模態模型,進一步驗證這種方法的潛力。

此外,當前的研究主要集中在視覺和語言兩個模態,未來可以考慮擴展到音頻、影片等更多模態,構建真正全面的多模態AI系統。

說到底,這項研究最大的價值在於它改變了我們對多模態AI訓練的基本認知。它告訴我們,不一定要有無限的資源才能訓練出優秀的原生多模態模型,關鍵在於找到正確的方法和平衡點。就像烹飪一樣,好的廚師不一定需要最昂貴的食材,但一定需要對各種食材特性的深刻理解和巧妙搭配。

研究團隊已經將NaViL的代碼開源,這意味著全世界的研究者和開發者都可以基於這個成果繼續探索和改進。這種開放的做法將加速整個領域的發展,讓更多人能夠受益於這項技術突破。

對於普通人來說,這項研究的成果最終會體現在更智能、更自然的AI應用中。未來的AI助手可能會更好地理解我們同時發送的圖片和文字,提供更準確的幫助。拍照翻譯、智能客服、教育輔導等應用都將因為原生多模態技術而變得更加強大和實用。

這項由上海AI實驗室領導、多所頂尖院校參與的研究,不僅在技術層面取得了突破,更為整個AI發展路徑提供了新的思考方向。它證明了中國在AI基礎研究方面的實力,也為全球AI技術發展貢獻了重要的理論和實踐成果。

Q&A

Q1:NaViL與傳統多模態AI模型有什麼本質區別?

A:傳統模型是先分別訓練看圖的AI和理解文字的AI,再用"膠水"拼裝起來,就像搭積木。而NaViL採用原生訓練方式,讓AI從一開始就同時學習看圖和理解文字,像人類嬰兒自然學習一樣,避免了資訊在"翻譯"過程中的丟失。

Q2:原生訓練方式需要更多計算資源嗎?為什麼值得這樣做?

A:原生訓練確實需要更多資源,但研究團隊通過三個關鍵發現大大降低了成本:用預訓練語言模型作起點、使用混合專家架構、找到視覺和語言能力的最佳平衡點。這樣訓練出的AI在複雜多模態任務上表現更自然,就像全能型人才比專業技能組合更靈活。

Q3:NaViL在實際應用中會帶來哪些改變?

A:NaViL將讓AI更自然地理解圖文結合的內容,在教育輔導、醫療診斷、內容創作等領域發揮重要作用。比如智能輔導系統能同時分析學生的文字問題和圖表材料,醫療AI能綜合分析影像和病歷,這些應用會變得更智能實用。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新