幾乎在你按下發送按鈕的瞬間,大模型便以驚人的速度完成了回復的生成。這一次,Groq大模型以每秒500個token,徹底顛覆了GPT-4的40 tok/s的速度紀錄!
Groq之所以「出圈」,緣於其驚人的速度,自稱「史上最快大模型」!而讓其冠絕大模型圈子的響應速度,來自驅動模型的新型AI晶片——LPU(Language Processing Units)。
Groq家的LPU「不走尋常路」
LPU旨在克服兩大大語言模型(LLM)的瓶頸——計算密度和內存帶寬。與GPU和CPU相比,LPU在處理LLM方面具有更大的計算能力。這減少了每個單詞計算所需的時間,使文本序列能夠被更快地生成。此外,消除外部內存瓶頸使得LPU推理引擎能夠在性能上實現數量級的提升。
與專為圖形渲染而設計的GPU不同,LPU採用了一種全新的架構,旨在為AI計算提供確定性的性能。
GPU採用的是SIMD(單指令多數據),而LPU採取了更為直線化的方法,避免了複雜的調度硬體需求。這種設計允許每個時鐘周期都被有效利用,確保了一致的延遲和吞吐量。
簡單來說,如果把GPU比作一支精英運動隊,每個成員都擅長處理多任務,但需要複雜的協調才能發揮最佳效能,那麼LPU就像是一支由單一項目專家組成的隊伍,每個成員都在他們最擅長的領域中以最直接的方式完成任務。
對於開發者而言,這意味著性能可以被精確預測和優化,這在實時AI應用中至關重要。
在能效方面,LPU也展現出其優勢。通過減少管理多線程的開銷並避免核心的低效利用,LPU能夠以更低的能耗完成更多的計算任務。
Groq還允許多個TSP無縫連接,避開了GPU集群中常見的瓶頸問題,實現了極高的可擴展性。這意味著隨著更多LPU的加入,性能可以線性擴展,簡化了大規模AI模型的硬體需求,使開發者能夠更容易地擴展他們的應用,而無需重新架構系統。
舉例來說,如果把GPU集群比作一座由多條橋樑連接的島嶼,儘管可以通過這些橋樑訪問更多的資源,但橋樑的容量限制了性能的提升。而LPU則像是設計了一種新型的交通系統,通過允許多個處理單元無縫連接,避免了傳統瓶頸問題。這意味著隨著更多LPU的加入,性能可以線性擴展,大大簡化了大規模AI模型的硬體需求,使得開發者能夠更容易地擴展他們的應用,而無需重新架構整個系統。
快如閃電的Groq到底好不好用?
儘管LPU的創新舉措令人瞠目,但對於通用大模型而言,好不好用才是關鍵。
我們對於chatGPT和Groq 提出了相同的需求,且沒有經過二次對話。
不論內容正確與否,單從語言風格上看,從兩款模型給出的反饋不難發現,Groq 的回覆一板一眼有些生硬,很濃的「AI味」,而chatGPT則相對自然,對於人類語言(中文)習慣的「領悟」更加透徹。
接著我們又問了幾乎同樣的問題,它們的回答這這樣的:
GPT的語言風格把「人情世故」吃的透透的,而Groq依舊是「AI味」濃厚。
能不能取代英偉達的GPU?
伴隨著Groq極速狂飆的同時,出現了一票聲音——英偉達的GPU是否已經落後了?
然而,速度並不是AI發展的唯一決定性因素。在討論大型模型推理部署時,7B(70億參數)模型的例子很能說明問題。
目前,部署這樣一個模型大約需要14GB以上的內存。以此為基礎,大概需要70個專用晶片,每個晶片對應一張計算卡。如果採用一種常見的配置,即一個4U伺服器裝載8張計算卡,那麼部署一個7B模型就需要9台4U伺服器,幾乎占滿了一個標準的伺服器機櫃。總共需要72個計算晶片,這樣配置下的計算能力在FP16模式下達到了驚人的13.5P(PetaFLOPS),而在INT8模式下更是高達54P。
以英偉達的H100為例,其擁有80GB的高帶寬內存,可以同時運行5個7B模型。在FP16模式下,經過稀疏化優化的H100的計算能力接近2P,在INT8模式下則接近4P。
一位國外的博主作了對比,結果顯示:以INT8模式進行推理,使用Groq的方案需要9台伺服器。而9台Groq伺服器的成本遠高於2台H100伺服器。而Groq方案的成本超過160萬美金,而H100伺服器的成本為60萬美金,這還未包括機架相關費用和電費開銷。
對於更大的模型,如70B參數模型,使用INT8模式可能需要至少600張計算卡,接近80台伺服器,成本更是天文數字。
事實上,於Groq的架構來講,或需要建立在小內存,大算力上,讓有限的被處理的內容對應著極高的算力,導致其速度非常快。
而對於部署推理能力的大模型,性價比最高的,依舊是英偉達的GPU。