宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

馬里蘭大學等機構聯合研究:AI視覺模型的「火眼金睛」訓練法

2025年06月19日 首頁 » 熱門科技

這項由馬里蘭大學的王習堯、微軟的楊正遠等多位研究者聯合完成的研究於2025年6月11日發表在arXiv預印本平台上(論文編號:arXiv:2506.10128v1),有興趣深入了解的讀者可以通過論文編號在arXiv官網訪問完整論文。這個研究團隊來自馬里蘭大學帕克分校、微軟、密西根大學和卡迪夫大學等知名機構,他們的發現可能會徹底改變AI視覺模型的訓練方式。

想像一下,你正在訓練一個AI助手來看圖說話,就像教一個小孩子描述眼前看到的畫面。傳統的訓練方法就像讓孩子看一幅畫,然後寫一篇200字的作文來描述這幅畫。問題是,這樣的作文很難打分——每個人都可能寫出不同但都正確的描述。這就好比問十個人同一道菜的味道,你可能得到十種不同的答案,但很難說哪個是"標準答案"。

研究團隊發現了一個聰明的解決方案。他們不再讓AI寫完整的作文,而是給AI一篇幾乎完全正確的圖片描述,但故意在其中埋藏一個小錯誤,然後讓AI像偵探一樣找出這個錯誤在哪裡。就像在一本書中故意印錯一個詞,然後請讀者找出來一樣。這樣的話,答案就變得非常明確了——要麼找對了,要麼找錯了,沒有模糊地帶。

這種訓練方法被研究團隊稱為"ViCrit",全稱是"視覺圖像描述幻覺批評家"。聽起來很複雜,但本質就是訓練AI成為一個超級細心的"找茬專家"。研究人員從一個包含384,000張圖片和詳細描述的資料庫開始工作,每張圖片都配有大約200字的人工撰寫描述。然後,他們使用GPT-4這個強大的語言模型來巧妙地修改這些描述,在每一段描述中只改動一個小細節。

這些修改非常狡猾。比如,原本描述中說桌子上有一個"iPad",他們可能會改成"MacBook Pro";或者把"黑色旗幟上寫著'true'和'false'"改成"黑色旗幟上寫著'tree'"。這些變化看起來很小,但要求AI具備非常精確的視覺理解能力才能發現。就像玩"大家來找茬"遊戲一樣,需要極其敏銳的觀察力。

研究團隊選擇這種方法有著深刻的考慮。傳統的AI訓練就像讓學生背誦標準答案,學生可能會死記硬背一些常見的物體組合,比如"廚房裡通常有冰箱、爐子、櫥櫃",然後在看到廚房圖片時就機械地輸出這些詞彙,而不是真正仔細觀察圖片中的具體內容。這種"死記硬背"的問題在AI領域被稱為"表面記憶"。

相比之下,ViCrit訓練法迫使AI必須真正"看懂"圖片的每一個細節。因為錯誤可能出現在任何地方——可能是某個小物件的顏色不對,可能是物體的數量有誤,也可能是空間關係的描述錯誤。這就像訓練一個質檢員,必須對產品的每個部分都仔細檢查,不能放過任何細節。

為了驗證這種訓練方法的效果,研究團隊進行了大規模的實驗。他們使用了兩個不同規模的AI模型進行測試:一個是70億參數的"小型"模型,另一個是720億參數的"大型"模型。這就像比較一個剛入學的小學生和一個大學生的學習能力差異。

實驗結果令人印象深刻。經過ViCrit訓練的AI模型在多個測試中都表現出了顯著的改善。最直觀的改善體現在減少"幻覺"現象上——也就是AI看到圖片中並不存在的東西。在一項名為CHAIR的標準測試中,720億參數的模型經過訓練後,幻覺錯誤率從26.4%降低到了21.0%。這意味著AI現在能更準確地描述它真正看到的內容,而不是胡亂猜測。

更有趣的是,這種訓練方法的好處遠遠超出了研究人員的預期。就像學會了仔細觀察的學生,不僅在"找茬"遊戲中表現更好,在其他需要觀察力的任務中也會有所提升。經過ViCrit訓練的AI模型在數學視覺推理、圖表理解、抽象圖像分析等各種任務中都表現得更好。

具體來說,在MathVision這個數學視覺推理測試中,720億參數的模型準確率從35.2%提升到了40.1%。在VLMsAreBlind這個專門測試AI視覺盲點的基準測試中,準確率從61.3%上升到65.8%。在圖表推理任務Charxiv中,表現從45.5%提升到49.4%。這些提升看似數字不大,但在AI研究領域,每一個百分點的提升都代表著巨大的進步。

這種跨領域的改善特別令人驚喜,因為AI在訓練過程中主要接觸的是自然圖像,但它學到的觀察技能卻能夠遷移到數學圖形、抽象圖像和圖表分析等完全不同的領域。這就像一個人通過練習找茬遊戲,意外地提高了解數學題和閱讀圖表的能力。這說明ViCrit訓練法真正教會了AI如何"看",而不僅僅是如何記憶常見的圖像-文字配對。

為了更好地評估AI的視覺理解能力,研究團隊還創建了一個新的測試基準,叫做"ViCrit-Bench"。這個測試集就像是專門為AI設計的"視覺能力測試",包含了607個精心設計的測試樣本。每個樣本都包含一張圖片和一段故意包含一個錯誤的描述,測試AI能否準確找出錯誤所在。

這個測試基準的設計非常周全。研究人員將圖片分為四大類:自然圖像(比如風景、動物、人物照片)、文檔圖像(比如表格、圖表、截圖)、文字密集圖像(比如路標、海報、漫畫)和抽象圖像(比如幾何圖形、藝術插畫)。同時,他們將可能的錯誤類型細分為八種:物體錯誤、顏色錯誤、材質錯誤、空間關係錯誤、數量錯誤、形狀錯誤、文字錯誤和狀態條件錯誤。

測試結果顯示,即使是目前最先進的AI系統,在這個測試中的表現也相當有限。OpenAI公司最新的o3模型只達到了47.7%的準確率,而谷歌的Gemini-2.5-Pro模型準確率為45.2%。這就像一個視力測試,即使是"視力最好"的AI,也只能看清一半的細節。經過ViCrit訓練的720億參數模型達到了43.0%的準確率,在開源模型中表現最佳。

特別值得注意的是,研究人員發現了一個有趣的規律:在ViCrit-Bench測試中表現越好的AI模型,在其他各種視覺-語言任務中的綜合表現也越好。這種強相關性(相關係數達到0.96)說明ViCrit-Bench確實能夠有效評估AI的核心視覺理解能力,就像視力表能夠反映一個人的整體視覺健康狀況一樣。

研究團隊還提供了一些生動的案例來展示訓練效果的差異。在一個需要數數和識別顏色的數學題中,普通的AI模型可能會遺漏某些物體或者搞錯顏色,導致計算錯誤。而經過ViCrit訓練的模型則會更加仔細地檢查圖片中的每個物體,按順序識別它們的屬性,然後進行準確的計算。這就像一個經過專業訓練的會計師,會仔細核對每一筆賬目,而不是匆忙估算。

在另一個圖形推理的例子中,任務是找出序列中缺失的圖形。普通模型可能只注意到圖形的大致輪廓,而忽略了邊數的變化規律。經過ViCrit訓練的模型則會仔細分析每個圖形的邊數、顏色等細節特徵,從而找出正確的模式和答案。

這種改善不僅體現在準確性上,還體現在AI的"思考過程"上。研究人員發現,經過ViCrit訓練的AI在回答問題時,會展現出更加系統化的分析方法。它們會先仔細觀察圖片的各個部分,識別關鍵資訊,然後進行邏輯推理。這種"慢思考"的模式雖然可能稍微降低回答速度,但大大提高了答案的準確性和可靠性。

從技術實現的角度來看,ViCrit訓練使用了一種叫做"強化學習"的方法。簡單來說,就是給AI設置明確的獎懲機制:找對錯誤就給獎勵,找錯了就不給獎勵。這種即時反饋機制讓AI能夠快速學習如何更好地觀察和分析圖片。與傳統的監督學習不同,這種方法更像是通過大量練習來培養直覺和技能。

整個訓練過程使用了875,000個樣本,每個樣本都包含一張圖片和一段帶有人工植入錯誤的描述。訓練時間根據模型大小從幾天到幾周不等。雖然這聽起來工作量很大,但相比傳統方法需要人工標註大量完美的圖片描述,ViCrit方法其實更加高效,因為它可以利用現有的圖片描述數據,只需要自動化地植入錯誤即可。

研究團隊還將ViCrit訓練法與傳統的監督學習方法進行了對比。結果顯示,雖然傳統方法也能在一定程度上減少AI的幻覺現象,但在提升AI的整體推理能力方面,效果遠不如ViCrit訓練法。這就像比較死記硬背和理解學習的區別——死記硬背可能在特定考試中有用,但理解學習能夠提升整體的思維能力。

這項研究的意義不僅限於技術層面,它還為AI訓練開闢了一個新的思路。以往的AI訓練往往追求讓模型產生"好"的輸出,但很難定義什麼算是"好"。ViCrit方法巧妙地將問題轉換為識別"錯誤",這樣就有了明確的對錯標準。這種思路可能會啟發更多類似的訓練方法。

此外,這項研究還暴露了當前AI視覺理解能力的局限性。即使是最先進的AI系統,在需要精確視覺理解的任務中仍然有很大的改進空間。這提醒我們,儘管AI在很多任務中表現出色,但在需要細緻觀察和精確理解的場景中,仍然需要謹慎使用。

從實際應用的角度來看,這項研究的成果可能會對多個領域產生影響。在醫療影像診斷中,更準確的視覺理解能力可能幫助AI更好地識別病變;在自動駕駛領域,更精確的視覺感知可能提高行車安全性;在教育輔助工具中,能夠準確理解圖表和圖形的AI可能提供更好的學習支持。

研究團隊也坦誠地指出了他們方法的一些局限性。比如,在某些特定類型的錯誤識別中,ViCrit訓練後的模型表現反而有所下降,特別是在空間關係和文字識別方面。研究人員認為這可能是因為訓練數據中這些類型的樣本相對較少,導致了數據不平衡的問題。

此外,對於720億參數的大型模型,ViCrit訓練的改善幅度相對較小。研究人員推測這可能是因為大型模型本身已經具備了相當強的視覺理解能力,需要更具挑戰性的訓練數據才能進一步提升。這就像一個已經很優秀的學生,需要更難的題目才能繼續進步。

展望未來,研究團隊計劃在幾個方向上繼續改進他們的方法。首先是擴大訓練數據的規模和多樣性,特別是增加更多具有挑戰性的樣本。其次是探索更複雜的錯誤類型,比如邏輯推理錯誤和常識錯誤。最後是將這種訓練方法擴展到影片理解和3D場景理解等更複雜的任務中。

這項研究也引發了對AI訓練哲學的思考。傳統的AI訓練往往追求讓模型"知道更多",而ViCrit方法則強調讓模型"看得更准"。這種從"知識積累"到"能力培養"的轉變,可能代表了AI發展的一個重要方向。畢竟,在資訊爆炸的時代,準確理解和分析資訊的能力比單純記憶資訊更加重要。

總的來說,這項由馬里蘭大學領銜的多機構合作研究為AI視覺理解能力的提升提供了一個創新而有效的解決方案。雖然還有改進的空間,但ViCrit訓練法已經展現出了顯著的效果和廣闊的應用前景。這項研究不僅推進了AI技術的發展,也為我們理解和改進AI的學習過程提供了新的視角。對於那些關心AI發展前沿的讀者,可以通過arXiv:2506.10128v1這個論文編號在arXiv網站上查閱完整的研究報告,深入了解這一創新訓練方法的技術細節和實驗結果。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新