今天凌晨, AI 初創公司 Magic 發布了世界上第一個支持 100M 上下文窗口的模型 LTM-2-mini。贊助商廣告這是什麼概念呢,簡單來說,該模型能夠處理並理解相當於約 750 本小說的文本量,亦或者 1000 萬行代碼。 與其他模型相比,LTM-2-mini 在處理這些 tokens 時更加高效。比如,當處理同樣多的 tokens 時,它的算法比 Llama 3.1 模型的注意力機制便宜約 1000 倍。 不僅如此,LTM-2-mini 對內存的需求也小得多。例如,運行 Llama 3.1 需要 638 個高性能 GPU 來存儲這些數據,而它只需要其中的一小部分 GPU 內存就能做到同樣的事情。 在此之前,世界上公開可用的 LLM 中,獨一檔的上下文窗口來自 Gemini 1.5 的 1M tokens,甚至其內部也已經成功實現了高達 10M tokens 的上下文窗口,相當於能一口氣看完 9 個小時的《魔戒》三部曲。 而現在,LTM-2-mini 將這場技術競賽卷到了 100M。 想像一下,當你沉浸在一本小說的某個章節時,為了完全理解這個章節的內容,你可能需要回顧前幾章的內容。這是因為故事的情節、角色的發展和主題都是相互關聯的,只有通過了解前面的內容,你才能更好地理解當前章節的深意。 在 AI 模型中,上下文窗口的作用與之類似。 它能夠讓模型在處理當前的文本資訊時,參考之前的文本內容,從而能夠理解單詞、短語或句子在特定上下文中的含義,而不是孤立地看待它們。 贊助商廣告Magic 官方認為,目前缺乏一種合適的長下文窗口評估方法,即便是傳統的「大海撈針」實驗,即通過在大量文本中隱藏一個特定事實或資訊(針),然後要求模型找到這個特定資訊的方法也並不理想。 在他們看來,這種測試方法存在一些問題。如果測試中的「針」(即需要檢索的事實)非常顯眼,模型可能會通過識別這個「針」的特徵從而輕易找到它,而不是真正地理解和處理整個上下文。 這就好比在一部關於鯨魚的小說中,將「針」設置為「兩個人在一家咖啡店喝咖啡」,這明顯與小說的主題(鯨魚)不相關,因此很容易被識別。 而現實世界的數據通常又不會像測試中的「針」那樣顯眼。 為此,Magic 也特別設計了一種名為「HashHop」的測試方法,目的是讓模型在沒有提示的情況下學會處理隨機資訊。 具體來說,哈希值(Hashe)就是一些隨機生成的代碼片段,模型需要記住並正確地關聯它們。 Magic 研究團隊會給模型一對哈希值,然後要求它去完成另一對哈希值的關聯,有時還會讓它一次性跳過多個步驟直接給出結果。通過使用哈希對和哈希鏈來測試模型的多步推理能力,這反而接近於現實世界中處理複雜資訊的方式。 LTM-2-mini 只是一個開始,Magic 目前正在超級電腦上訓練全新的大模型 LTM-2。 在今年 2 月份的時候,Magic 也宣稱開發了一種具有類似 OpenAI Q * 主動推理能力的 AI 模型,將有助於解決現有大模型在邏輯推理方面的不足。 此外,通過與 Google Cloud 合作,Magic 還構建了由英偉達 GB200 NVL72 GPU 組成的強大集群,以及配備了 H100 Tensor Core GPU 的 Magic-G4 和 Magic-G5 超級電腦。 簡言之,長上下文軍備競賽或許已經沒有意義了, 因為 LTM-2-mini 殺死了比賽。 原文地址 : https://www.animattoys.com/detail/5v91T7c6/index.html