在年初的CES 2025上,AMD推出了銳龍AI Max系列處理器Strix Halo,它擁有2個Zen 5架構CCD最多16個核心,並擁有最多40組RDNA 3.5架構CU的超大核顯,並配備256位的LPDDR5X內存控制器,當時他們已經演示過用這款處理器使用llama.cpp和LM Studio在本地運行Llama 70B模型,這樣輕薄PC在本地運行較大的LLM模型成為可能。

現在AMD宣布對銳龍AI Max的可變顯存進行重大升級,即將推出的Adrenalin Edition 25.8.1 WHQL驅動程序可以讓配備128GB內存的銳龍AI MAX設備劃分96GB作為顯存使用,這讓它能夠運行128B個參數的大模型。

AMD表示已經成功使用銳龍AI Max 395處理器成功在本地運行Meta的Llama 4 Scout 109B模型,成為首款成功運行該模型的Windows AI處理器,並支持視覺和MCP,Llama Scout採用混合專家模式,所以每次只有17B處於活動狀態,所以可保持較快的輸出,最多可實現15tokens/s的生成速度。

銳龍AI Max處理器支持最小1B的微型模型到最大128B的模型,支持包括GGUF在內的多種量化格式,使其能夠靈活地適用於不同場景。這次升級還增大的對大興
上下文大小的支持,大多數設置的最大令牌數約為4096個,但這次升級後銳龍AI Max平台可以擴展至256000個令牌,這需要開啟Flash Attention功能,啟用KV Cache Q8,這運行在上下文中保存大量令牌,使其支持更高級的任務,例如解析和匯總整個文檔。
當然了這都需要你的銳龍AI Max搭載了128GB內存,通常來說這樣的設備價格都不便宜,而且它使用是LPDDR5X內存,也不支持擴展,而目前擁有這類設備的用戶可以在AMD官網上下載版驅動提前嘗鮮。