Tensormesh公司找到了一種提高人工智慧推理效率的方法,通過消除冗餘計算來優化AI模型性能。這項技術得到了多家AI基礎設施巨頭的認可,它們共同為Tensormesh提供了2000萬美元的融資支持。
本輪融資的參與方包括Nvidia公司、AMD公司和CoreWeave公司,以及風險投資機構Valley Capital Partners和Laude Ventures。至此,Tensormesh的累計融資總額達到2450萬美元。與此同時,該公司推出了其旗艦軟體即服務產品Tensormesh Inference。
Tensormesh的技術旨在解決圖形處理器最突出的效率問題之一。由於GPU的內存緩存有限,它們不得不反覆處理相同的數據。這一設計挑戰源於大語言模型的工作方式。通常情況下,大語言模型部署會將收到的每個新請求或提示詞視為全新任務。因此,即使AI聊天機器人正在與用戶進行長時間對話,或者分析之前見過的文檔,GPU也需要從頭開始重新處理整個上下文窗口。
這家初創公司通過一種稱為鍵值緩存(KV緩存)的技術來解決這個問題。該技術的作用是儲存大語言模型在處理提示詞時生成的中間數據。
由於幫助模型記住這些計算結果,Tensormesh使得每次新提示詞到達時可以跳過重新處理步驟,從而實現更快的響應速度。對於構建需要通過多個步驟來執行任務或解決問題的智能體模型的開發者來說,這項技術可以將延遲和GPU支出降低10倍。
Tensormesh Inference基於開源的LMCache項目構建,包含一個成本節約儀錶板,允許開發者跟蹤緩存命中率並將其轉換為具體的成本節約數字。此外,它還讓開發者能夠直接控制分配給緩存的儲存空間大小,從而根據大語言模型部署規模和使用率來微調基礎設施以實現效率最大化。據該公司介紹,一些客戶已經實現了超過70%的緩存命中率,這意味著超過三分之二的提示詞是從緩存中檢索而非重新計算的。
部署方式靈活多樣,提供三種選擇。開發者可以使用與OpenAI標準完全兼容的無伺服器應用程式接口,使其能夠無縫集成到現有工作流程中。或者,對於運行更密集工作負載的客戶,該公司提供基於專用GPU資源的按需部署,以及為需要定製服務級別協議的企業提供的預留部署方案。
創始人兼首席執行官Junchen Jiang表示,他對Nvidia、AMD和CoreWeave率先理解其公司技術的意義並不感到意外。"Tensormesh為大語言模型在處理提示詞時生成的中間數據的重要性提供了新的視角,"他說。"KV緩存這個術語背後是AI對所提問題的整體理解概念,這是一個全新的數據類別。"
這正是Tensormesh技術的潛力所在。它正在將"中間AI數據"轉變為一個全新的資產類別,隨著AI智能體變得越來越複雜,這可能會變得極具價值。智能體的能力越強,所需的上下文窗口就越大。通過擴展這些上下文窗口,Tensormesh很可能成為智能體AI技術棧中的關鍵組成部分。
本輪融資所得資金將用於擴展Tensormesh與AMD、Nvidia和CoreWeave基礎設施的硬體集成,並加速產品開發。該公司還將繼續致力於底層開源LMCache項目,該項目將成為其許多計劃中創新成果的主要受益者。
Q&A
Q1:Tensormesh是如何提高AI推理效率的?
A:Tensormesh通過鍵值緩存(KV緩存)技術來提高效率。該技術儲存大語言模型在處理提示詞時生成的中間數據,使模型能夠記住這些計算結果。這樣每次新提示詞到達時就可以跳過重新處理步驟,實現更快的響應速度,可以將延遲和GPU支出降低10倍。
Q2:Tensormesh Inference產品有哪些部署方式?
A:Tensormesh Inference提供三種靈活的部署方式。第一種是與OpenAI標準完全兼容的無伺服器API,可以無縫集成到現有工作流程。第二種是基於專用GPU資源的按需部署,適合運行密集工作負載的客戶。第三種是預留部署方案,專為需要定製服務級別協議的企業設計。
Q3:使用Tensormesh能節省多少成本?
A:根據Tensormesh介紹,一些客戶已經實現了超過70%的緩存命中率,意味著超過三分之二的提示詞是從緩存中檢索而非重新計算。該產品包含成本節約儀錶板,可以跟蹤緩存命中率並轉換為具體的成本節約數字,幫助開發者直觀了解節省的GPU支出。






