生成式AI開發競爭固然激烈,但企業著重的除了性能外,處理速度和成本也是相當重要的部分,因此同一模型如何能夠以更快速度處理就成為另一個競爭目標。有創業公司最近創下每秒處理Llama 3 8B的1,000個Token的新記錄,引來目光矚目。
SambaNova Systems最新的測試中,Llama 3 8B參數指示模型的處理速度達到了每秒1,000個Token。這結果獲得測試公司Artificial Analysis驗證,超過了Groq先前保持的每秒800個Token的記錄。SambaNova使用了自家研發的「可重構數據流組件」(RDU)晶片,類似AI加速器,配合Samba-1 Turbo模型來運行,提升處理速度。
SambaNova總裁Rodrigo Liang解釋,達到每秒1,000個Token的關鍵在於對可重構數據流架構所帶來的疊代改良,使SambaNova能夠針對模型進行平衡資源分配,解決瓶頸,進而顯著提高效率和性能。性能快速之餘,也可以確保優質輸出,最大限度地減少AI幻覺等問題,符合企業要求。這樣不僅能改善AI代理的工作流程,還通過發布運算負載來執行其他任務,可以降低基礎設施的運行成本。
Artificial Analysis聯合創始人George Cameron強調,這成就在快速發展的AI晶片競賽中相當重要。尤其是對於依賴處理速度的應用範圍,例如需要快速回應時間和大量文件解釋能力的AI代理和消費應用等。
(首圖來源:SambaNova)