一文看懂 DeepSeek 開源項目第三彈,300 行代碼揭示 V3/R1 推理效率背後的關鍵
開源周進行到第三天,DeepSeek
不僅帶來了技術,還傳出 R2 在路上的好消息。 作為用戶,一邊見識著 DeepSeek 拋出來的一個個技術庫,還能看到應用了這些技術的模型,怎麼不算一種見證巨星的誕生。
今天出場的是 DeepGEMM,是一個專為乾淨、高效的 FP8 通用矩陣乘法 (GEMM) 而設計的庫,具有細粒度縮放功能。如 DeepSeek-V3 中所述,它支持普通和混合專家 (MoE) 分組 GEMM。該庫用 CUDA 編寫,在安裝過程中無需編譯,而是使用輕量級即時 (JIT) 模塊在運行時編譯所有核心。沒有說 DeepSeek 不厲害的意思,但這三天的開源都能看出,即便背靠幻方,他們始終不像大廠那樣資源雄厚,必須在壓榨計算資源方面狠下功夫。包括這次的 GeepGEMM 仍然沒有離開這個主旋律,相比於之前的技術,DeepGEMM 的優勢在於:
更高的效率:通過 FP8 和兩級累積降低了計算和內存開銷
靈活的部署:JIT 編譯適應性強,減少預編譯負擔
針對性優化:支持 MoE 並深度適配 Hopper 張量核心
更簡潔的設計:核心代碼少,避免複雜依賴,便於學習和優化這些特性使其在現代 AI 計算中脫穎而出,尤其是在需要高效推理和低功耗的場景下。DeepSeek 開源周,APPSO 將持續帶來最新動態和解讀,往期回顧👇
為現代 AI 計算而造更高的效率和更靈活的部署,是 DeepGEMM 的亮點,核心邏輯僅約 300 行代碼,卻在大多數矩陣尺寸上超越了專家級別調優的核心。Hopper GPUs 上最高可達 1350 FP8 TFLOPS。FP8 是一種壓縮數字的方法,相當於把原本需要 32 位或 16 位存儲的數字,精簡成 8 位存儲。就像你用更小的便利貼記筆記,雖然每張紙能寫的內容少了,但攜帶和傳遞更快。這種壓縮計算的好處是內存占用減少——同樣大小的任務,需要的「便利貼」更少,搬運小紙片比大文件快,因此計算速度也更快。但挑戰是很容易出錯。