Groq的LPU將成為繼NVIDIA GPU的又一「新寵」？

幾乎在你按下發送按鈕的瞬間，大模型便以驚人的速度完成了回復的生成。這一次，Groq大模型以每秒500個token，徹底顛覆了GPT-4的40 tok/s的速度紀錄！

贊助商廣告

Groq之所以「出圈」，緣於其驚人的速度，自稱「史上最快大模型」！而讓其冠絕大模型圈子的響應速度，來自驅動模型的新型AI晶片——LPU（Language Processing Units）。

Groq家的LPU「不走尋常路」

LPU旨在克服兩大大語言模型(LLM)的瓶頸——計算密度和記憶體頻寬。與GPU和CPU相比，LPU在處理LLM方面具有更大的計算能力。這減少了每個單詞計算所需的時間，使文本序列能夠被更快地生成。此外，消除外部記憶體瓶頸使得LPU推理引擎能夠在性能上實現數量級的提升。

與專為圖形渲染而設計的GPU不同，LPU採用了一種全新的架構，旨在為AI計算提供確定性的性能。

GPU採用的是SIMD（單指令多數據），而LPU採取了更為直線化的方法，避免了複雜的調度硬體需求。這種設計允許每個時鐘周期都被有效利用，確保了一致的延遲和吞吐量。

簡單來說，如果把GPU比作一支精英運動隊，每個成員都擅長處理多任務，但需要複雜的協調才能發揮最佳效能，那麼LPU就像是一支由單一項目專家組成的隊伍，每個成員都在他們最擅長的領域中以最直接的方式完成任務。

對於開發者而言，這意味著性能可以被精確預測和優化，這在實時AI應用中至關重要。

在能效方面，LPU也展現出其優勢。通過減少管理多線程的開銷並避免核心的低效利用，LPU能夠以更低的能耗完成更多的計算任務。

Groq還允許多個TSP無縫連接，避開了GPU集群中常見的瓶頸問題，實現了極高的可擴展性。這意味著隨著更多LPU的加入，性能可以線性擴展，簡化了大規模AI模型的硬體需求，使開發者能夠更容易地擴展他們的應用，而無需重新架構系統。

舉例來說，如果把GPU集群比作一座由多條橋樑連接的島嶼，儘管可以通過這些橋樑訪問更多的資源，但橋樑的容量限制了性能的提升。而LPU則像是設計了一種新型的交通系統，通過允許多個處理單元無縫連接，避免了傳統瓶頸問題。這意味著隨著更多LPU的加入，性能可以線性擴展，大大簡化了大規模AI模型的硬體需求，使得開發者能夠更容易地擴展他們的應用，而無需重新架構整個系統。

贊助商廣告

快如閃電的Groq到底好不好用？

儘管LPU的創新舉措令人瞠目，但對於通用大模型而言，好不好用才是關鍵。

我們對於chatGPT和Groq 提出了相同的需求，且沒有經過二次對話。

不論內容正確與否，單從語言風格上看，從兩款模型給出的反饋不難發現，Groq 的回覆一板一眼有些生硬，很濃的「AI味」，而chatGPT則相對自然，對於人類語言（中文）習慣的「領悟」更加透徹。

接著我們又問了幾乎同樣的問題，它們的回答這這樣的：

贊助商廣告

GPT的語言風格把「人情世故」吃的透透的，而Groq依舊是「AI味」濃厚。

能不能取代英偉達的GPU?

伴隨著Groq極速狂飆的同時，出現了一票聲音——英偉達的GPU是否已經落後了？

然而，速度並不是AI發展的唯一決定性因素。在討論大型模型推理部署時，7B（70億參數）模型的例子很能說明問題。

目前，部署這樣一個模型大約需要14GB以上的記憶體。以此為基礎，大概需要70個專用晶片，每個晶片對應一張計算卡。如果採用一種常見的配置，即一個4U伺服器裝載8張計算卡，那麼部署一個7B模型就需要9台4U伺服器，幾乎占滿了一個標準的伺服器機櫃。總共需要72個計算晶片，這樣配置下的計算能力在FP16模式下達到了驚人的13.5P（PetaFLOPS），而在INT8模式下更是高達54P。

以英偉達的H100為例，其擁有80GB的高頻寬記憶體，可以同時運行5個7B模型。在FP16模式下，經過稀疏化優化的H100的計算能力接近2P，在INT8模式下則接近4P。

一位國外的博主作了對比，結果顯示：以INT8模式進行推理，使用Groq的方案需要9台伺服器。而9台Groq伺服器的成本遠高於2台H100伺服器。而Groq方案的成本超過160萬美金，而H100伺服器的成本為60萬美金，這還未包括機架相關費用和電費開銷。

對於更大的模型，如70B參數模型，使用INT8模式可能需要至少600張計算卡，接近80台伺服器，成本更是天文數字。

事實上，於Groq的架構來講，或需要建立在小記憶體，大算力上，讓有限的被處理的內容對應著極高的算力，導致其速度非常快。

而對於部署推理能力的大模型，性價比最高的，依舊是英偉達的GPU。