繼Meta開源了LLaMa 2後,智譜AI及清華KEG實驗室也將ChatGLM2-6B模型開源並免費商用。據統計,國內已公開發布了80 個AI大模型,其中半數都將開源。大模型的「百花爭艷」也讓更多的企業加入到算力擴張、模型訓練與創業的熱潮中。
「大模型的出現讓我們看到了一個新生產力的崛起。通過對大模型的研究,讓人類首次發現,可以讓一部分的腦力勞動由機器替代,實現人類生產力的大幅提高。因此也帶來了大模型算力需求的爆發式增長。」北京並行科技股份有限公司董事長陳健博士接受至頂網記者專訪時這樣表示。
但他同時指出:「大模型的訓練需要大量的計算資源,企業的資金投入要幾十億到上百億元,因此在算力投入上要特別謹慎。大模型的訓練是個典型的超算場景,採用超算的方式對企業來說更具性價比。租用算力方式比自建方式能讓企業風險更低、現金流更充裕。」
訓練大模型太燒錢 租用算力更現實
企業要做自己的大模型,首先要解決的就是大模型訓練的基礎設施問題——算力。企業自建算力還是租用算力同樣是抉擇難題。陳健建議:「大模型對算力的需求極大,動輒十幾億,光電費就要幾百萬,企業採用租用算力是風險最小、資金利用最優的方式。」
「據我們觀察,在超算領域有90%是自建的,但大模型出來後自建的比例在明顯降低。一半以上都在租用。」
做大模型訓練不僅是企業計算算力成本的問題,還是企業業務方向和企業資金周轉效率的問題。從企業經營風險上看,陳健認為:「如果企業訓練的模型是面向ToC領域,產品風險相對就比較大。如果是做面向ToB的大模型,一般能拿到用戶端在算力方面的費用。這樣風險會相對小。如給銀行做客服大模型這種應用場景比較確定,風險也就比較小。」
從資金利率上看,對算力的利用效率也就是資金的利用率。陳健表示:「超算領域大家拼的就是算力的利用率。如果企業能大概率地確定自己算力的利用率能達到連續5年超過60%,那自建就沒太大風險。在超算領域,租用的利用率能達到60%。也就是用超算三年的錢就可以買回這些算力。」
從企業經營策略上看。「伺服器的生命周期大概就是5年。如果採用購買伺服器的方式自建。等於將5年的錢投入一次性支付,這種情況對企業尤其是初創企業的現金流是極大的考驗。如果過早地將現金都套在高折舊的資產上,這對公司的經營會帶來較大的影響,不划算;從另一個角度來看,初創企業的融資是一輪一輪進行的,越在早期,同樣數量的融資額所占的股份比例就越大,股權融資成本高。這筆錢如果用來一次性支付5年的計算資源這種做法並不明智。企業應把未來的錢花在今天的經營、業務增長上。」陳健這樣分析。
「以並行科技為例,我們是一家提供超算的服務商,要滿足大模型訓練,在GPU或計算卡上的投入就是幾個億。我們測算了一下,購買1000張H800按市場價,就要投入3億資金。如此大額的投資我們也不能貿然投入。而是採用算力網路模式,和三大運營商合作,由運營商出錢購買算力,我們做總包運營,大家合作分成,來解決重資產這個難題。
「因此,買不如租,大部分企業會選擇租用的模式。企業在算力規劃上還是要根據自身的發展情況,通用大模型發展非常快,算力燒錢的速度也非常快,都是以億元為計。企業如果在沒有融到足夠的資金,還是不要採用自建算力的模式。」
加速落地,超算更適合大模型訓練
市面上可選的算力租用方式無非就三種:雲計算模式,採用公有雲的方式;裸金屬模式,也就是傳統的伺服器託管,以物理機的形式交付;還有就是超算模式,就是用海量的GPU卡,通過業務調度的方式變成一個大的計算池,用戶用的時候從中選擇自己所需要的GPU卡,用完再釋放掉這些卡資源以便別人調用。
「我們認為,採用GPU集群的超算模式更適合大模型的訓練。」陳健解釋道:「大模型的訓練本質上就是一個超大的訓練任務,比如在1000張(或更多)GPU卡上跑兩、三個月,這就是一個典型的超算場景。」
「雲計算或者說雲主機模式就是一個GPU伺服器分給很多用戶共享,是海量的單台、單節點的共享,並且是單節點內部的GPU卡資源的共享。可想而知,這個共享級別不足以支撐大模型訓練需要成百上千張卡跑一兩個月這樣的應用場景。」
「採用GPU集群的超算模式是大模型訓練較具成本優勢的方式。用戶只需對自己真實使用的GPU算力進行付費。而不是租了一年,調試要三個月,這三個月的調試期也要付費。」所以無論從算力對大模型訓練場景的支撐能力,還是實際租用帶來的使用體驗,尤其是成本消耗上,超算都可謂是大模型訓練的上乘之選。
堅持「三不碰」(數據、應用、模型)原則 ,超算中立且安全
「提供超算的企業自己並不做模型,也就是不跟自己的客戶進行競爭。」陳健認為這是對那些依靠訓練大模型創業和提升企業競爭力的企業一種極大的保護。他表示:「像一些算力服務商,他們既提供算力又提供模型,也就會發生和自己的客戶相競爭的局面。」
「並行科技在商業邏輯上嚴格限制自己的行為範圍,我們只做算力或者通過算力網路整合算力,做好平台、做好與應用的適配、做好應用執行時的值守,確保應用的穩定、正常運行,讓整個訓練過程順利完成。」
「此外,我們更重要的是要做好優化,讓程序跑得快。例如,我們有個客戶用500個GPU卡訓練,通過計算優化,我們幫他提升了40% 的性能。」
「我們主要通過技術服務、應用服務以及性能優化,幫助客戶提升訓練效率。我們的優勢主要體現在:一、確保用戶有GPU卡可以用。二、通過技術服務讓客戶感到好用。三、通過算力優化降低用戶用GPU卡的成本並提升效率。」
大模型爆發式增長,在需求強勁和相關產業政策催化的雙輪驅動下,將迎來智能算力基礎設施建設的大擴容時代。企業在看到市場前景的同時也要考慮到產業風險和經營效率,做好頂層規劃與技術積累,才能在機遇到來時既不錯過、也不踏空。