宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

NVIDIA、AMD旗艦顯卡挑戰DeepSeek R1模型:誰才是適配LLM PC性能的高手

2025年02月18日 首頁 » 熱門科技

國產大語言模型DeepSeekNVIDIA、AMD旗艦顯卡挑戰DeepSeek R1模型:誰才是適配LLM PC性能的高手現在的熱度可以說是非常高,它還引發了業界對AI大模型應用的更多暢想,今年1月發布了DeepSeek-R1人工智慧大型語言模型,適用於數學、編碼和邏輯等任務,性能對標OpenAI o1,隨後在全球範圍內掀起了一股熱潮,成為了行業的焦點。

 

NVIDIA、AMD旗艦顯卡挑戰DeepSeek R1模型:誰才是適配LLM PC性能的高手

 

目前深度求索(DeepSeek)線上提供服務的模型主要是DeepSeek V3和DeepSeek R1,它們都是開源的,可以在huggingface以及它在國內的鏡像站上下載。這些模型都可以通過各種AI平台,如Ollama、Jan.AI、LM Studio和AnythingLLM等輕鬆地在Windows平台上運行,而這些平台使用的底層核心庫是流行的開源C 庫llama.cpp。

 

NVIDIA、AMD旗艦顯卡挑戰DeepSeek R1模型:誰才是適配LLM PC性能的高手

 

至於DeepSeek V3和DeepSeek R1兩種模型的區別,大家請看以下DeepSeek R1的自己的回答:

1.模型定位

DeepSeek V3:作為通用型智能助手,更注重廣泛場景的適應能力,例如知識問答、多輪對話、文本生成等通用任務。
DeepSeek R1:屬於優化疊代版本,可能在響應效率、特定任務(如代碼生成、數據分析)或垂直領域(如金融、客服)的針對性表現上進行了增強。

2.功能側重

V3 強調平衡性,適合日常交互和多樣化需求。
R1 可能針對實時性、複雜任務處理或行業需求進行了專項優化(具體需參考官方說明)。

3.技術疊代
R1作為後續版本,可能基於V3的反饋數據進行了模型調整,例如優化推理速度、降低資源消耗或提升特定場景的準確性。

 

NVIDIA、AMD旗艦顯卡挑戰DeepSeek R1模型:誰才是適配LLM PC性能的高手

 

DeepSeek的模型都是開源的,所以理論上都可以下載下來自己搭起來跑,但是嘛,DeepSeek V3隻有滿血版的671B可供下載,DeepSeek R1滿血版也是671B,這模型壓根就不是給個人用戶玩的,得用伺服器來跑。

 

NVIDIA、AMD旗艦顯卡挑戰DeepSeek R1模型:誰才是適配LLM PC性能的高手

 

但DeepSeek R1有各種蒸餾小模型可供下載,它們是基於開源模型使用DeepSeek R1進行微調,其中32B和70B模型在多項能力上實現了對標OpenAI o1-mini的效果,自用的話這些模型更加合適。

使用較為常見的int4量化模型的話,8B以下的用最為常見8GB顯存顯卡就能跑了;14B模型的大小是9GB;所以得用10GB顯存的顯卡,32B模型大小是20GB,需要24GB顯存的顯卡;70B模型的大小是43GB,這已經不是單張消費級顯卡能跑的東西了,需要那些48GB顯存的專業卡,用普通顯卡的話至少得上雙卡。

而llama.cpp開源庫裡面包含一個基準測試工具llama-bench,可用來測試各種硬體上的LLM推理性能,接下來我們就要用它來跑跑NVIDIA和AMD兩家的旗艦顯卡運行DeepSeek R1蒸餾模型的速度如何。

 

NVIDIA、AMD旗艦顯卡挑戰DeepSeek R1模型:誰才是適配LLM PC性能的高手

 

本次測試跑了DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B和DeepSeek-R1-Distill-Qwen-32B這三個模型,測試平台使用酷睿i9-14900K搭配微星Z790 CARBON WIFI II主板,考慮到32B模型可能會占用大量內存,所以用了DDR5-6400 32GB*2套裝。

 

NVIDIA、AMD旗艦顯卡挑戰DeepSeek R1模型:誰才是適配LLM PC性能的高手

 

測試使用的顯卡包括RTX 5090、RTX 5090 D、RTX 4090、RTX 4090 D以及AMD的RX 7900 XTX,這些NVIDIA顯卡全部都使用CUDA來運行,而RX 7900 XTX則會測試使用Vulkan和ROCm時的情況。

 

NVIDIA、AMD旗艦顯卡挑戰DeepSeek R1模型:誰才是適配LLM PC性能的高手

 

可能在純CUDA環境下大語言模型推理是吃不滿RTX 5090和RTX 4090的算力的,導致測試出來它們和RTX 5090 D和RTX 4090 D一點差距都沒有,如果能跑TensorRT就可能有區別,當然也有可能是瓶頸是顯存帶寬。RX 7900XTX在跑7B和8B模型時使用Vulkan是比ROCm更快的,但跑32B模型時就是ROCm更快。

在運行小型DeepSeek蒸餾模型的時候,RTX 5090 D的每秒輸出Tokens比上代RTX 4090 D速度快40%以上,如果是較大的DeepSeek-R1-Distill-Qwen-32B模型的話速度會快55%之多。對比RX 7900XTX,RTX 4090 D要比它快40%以上,而最新的RTX 5090 D甚至是它的兩倍之多。

造成這原因,GPU核心算力是一個因素,RTX 5090 D的算力在這三張卡裡面最強這點毋庸置疑,而RTX 4090 D本身算力也要比RX 7900XTX高一大截,但從RTX 5090與RTX 5090 D、RTX 4090與RTX 4090 D性能沒差距來看,使用CUDA去推理其實沒有完全發揮出GPU的AI算力。

另外一個關鍵因素是顯存的帶寬,在這三張顯卡裡面RX 7900XTX的顯存帶寬是最低的,只有960Gbps,而RTX 4090 D的顯存位寬和RX 7900XTX同是384bit,但使用了速度更快的GDDR6X顯存,所以帶寬更高有1053Gbps,而RTX 5090 D更是配備了512bit的GDDR7顯存,帶寬高達1792Gbps,跑LLM推理是非常吃顯存帶寬的,RTX 5090 D能比RTX 4090 D快這麼多的原因很大一部分就是帶寬的關係。

至於是否採用PCIe 5.0接口,這並不是單卡推理負載的瓶頸,在加載模型時確實與接口帶寬有些關係,但此時瓶頸通常是在你的SSD上而不是顯卡這邊。

個人想本地部署DeepSeek R1 671B模型基本是不用想的,這種基本上只能在伺服器上面跑,但在本地跑小型化後的蒸餾模型是沒問題的,DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-8B這兩個體積較小的適合顯存只有8GB的顯卡部署,而且由於比較小的關系所以跑起來速度也很快,然而也是由於較小的關係它們也只是屬於能用的範疇,而使用12GB顯存顯卡的朋友可以跑DeepSeek-R1-Distill-Qwen-14B這個模型,對於LLM來說通常是參數越多給出的答案越精確越全面。

 

NVIDIA、AMD旗艦顯卡挑戰DeepSeek R1模型:誰才是適配LLM PC性能的高手

 

想要真正好用的還得DeepSeek-R1-Distill-Qwen-32B這種有320億參數的模型,當然這就得上比較高級的顯卡了,最好的選擇自然是最新的RTX 5090 D,輸出tokens/s非常的高,而上代旗艦RTX 4090 D的速度其實也不差,表現均優於AMD的RX 7900 XTX,這自然和NVIDIA GPU本身算力更強的有關,RTX 4090 D本身的AI算力就比RX 7900 XTX高得多,而RTX 5090 D的顯存帶寬比它們倆高得多,自然性能也更好。

不同大小的DeepSeek R1蒸餾模型的顯卡推薦表如下:

 

NVIDIA、AMD旗艦顯卡挑戰DeepSeek R1模型:誰才是適配LLM PC性能的高手

 

而且NVIDIA的軟體適配性比AMD的更好,目前支持CUDA的軟體非常多,這次跑的llama.cpp運行的也是CUDA,AMD這些年來也在推自己的ROCm,我們這次也跑了,但用ROCm的表現並不一定比通用API Vulkan更好,這就挺尷尬的,AMD在軟體方面的支持確實沒NVIDIA好,而且NVIDIA對於AI內容有性能更好的TensorRT,日後這些AI軟體能升級支持TensorRT的話定能發揮出更好的性能。

 

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新