在高通 Hexagon 上運行 BitNet：自定義 1.58 位核心實踐

本文最初發表於 ENERZAi 官方網站，已獲授權轉載。

贊助商廣告

今天，我們很高興分享一項團隊長期以來所致力於的重要里程碑。ENERZAi 已成功通過 QNN，在高通 QCS6490 Hexagon NPU 上完成了 BitNet（b1.58）2B 模型的部署！

如果上面這句話讓你感覺縮寫詞太多，不用擔心。讀完這篇文章，你將清楚地理解這件事的意義所在、為何如此之難，以及我們為何認為它預示著邊緣設備 AI 能力的一次重要轉變。

什麼是 BitNet？

在深入探討硬體部分之前，先來統一一下對 BitNet 的理解。

BitNet 是由微軟研究院推出的大語言模型架構，它從根本上重新思考了模型權重的表達方式。BitNet b1.58 將模型中的權重限定為三個可能的值：–1、0 或 +1，即所謂的三值權重（Ternary Weights）。"1.58"這一命名來源於資訊論：log?(3) ≈ 1.58，這是從理論上表示三種不同狀態所需的最少比特數。

這一架構具有極小的內存占用，非常適合邊緣端部署。我們在此前的文章中也對自研的 1.58 位量化工作進行了深入探討，感興趣的讀者可參考相關內容。

核心挑戰：NPU 不原生支持三值運算

BitNet b1.58 是一種以三元值（–1、0、+1）表示的架構，使其異常緊湊，非常適合邊緣部署。

然而，包括高通 QNN 在內的大多數 NPU SDK 僅支持標準量化格式，BitNet 的三值運算並不在其支持之列，這意味著開箱即用的情況下，NPU 上根本不存在可執行的路徑。

我們的突破：自定義 1.58 位核心

ENERZAi 通過為高通 Hexagon 架構開發自定義 1.58 位核心，成功在高通 QCS6490 Hexagon NPU 上以合理的內存占用和吞吐量運行了 BitNet（b1.58）2B 模型。

這是邁向在 NPU 上運行超過 80 億參數級別模型這一目標的早期但意義重大的概念驗證，而我們認為，這一規模正是實現真正邊緣智能所必須達到的。

展望未來

這一成果不僅驗證了 BitNet 在 NPU 上運行的可行性，更為未來邊緣設備承載更大規模大語言模型奠定了基礎。隨著 AI 推理逐步向終端設備遷移，對低比特、高效率架構的探索將變得愈發關鍵。ENERZAi 將持續深耕這一方向，推動邊緣 AI 的邊界不斷向前延伸。

贊助商廣告

Q&A

Q1：BitNet b1.58 架構的"1.58"是什麼意思？

A：BitNet b1.58 中的"1.58"來源於資訊論，具體指 log?(3) ≈ 1.58，即從理論上表示三種不同狀態（–1、0、+1）所需的最少比特數。BitNet b1.58 將模型權重限定為這三個三元值，極大地壓縮了模型體積，使其非常適合在內存資源有限的邊緣設備上部署。

Q2：高通 QNN 為什麼不能直接支持 BitNet 的三值運算？

A：高通 QNN 等主流 NPU SDK 通常只支持標準量化格式（如 INT8、INT4 等），而 BitNet b1.58 使用的三值權重（–1、0、+1）並不在其原生支持範圍之內。因此，開箱即用的情況下，NPU 上根本沒有可直接執行 BitNet 三值運算的路徑，必須通過開發自定義核心來解決這一問題。

Q3：ENERZAi 是如何解決 BitNet 在高通 Hexagon NPU 上無法運行的問題的？

A：ENERZAi 專門為高通 Hexagon 架構開發了自定義 1.58 位核心，從而繞過了 QNN 不支持三值運算的限制。通過這一方式，團隊成功在高通 QCS6490 Hexagon NPU 上以合理的內存占用和吞吐量運行了 BitNet（b1.58）2B 模型，完成了一次具有重要意義的概念驗證。