2023年被稱為「大模型」元年。
「你們有幾個AIGC用例了?」已成為CIO/CTO 們見面打招呼的「問候」語了。
以至於在業務中沒有採用ChatGPT或者還沒有開始規劃「大模型」用例的企業都不好意思說自己還在搞數字化轉型。
但其中的問題也是層出不窮。在規劃、開發「大模型」與業務場景的結合時遇到的問題可說是「誰用誰知道」。
大模型:數據治理尚起步,場景落地有難度
儘管企業的CIO們正加大對大模型的研發與投入,但仍要承擔相當大的風險。某能源行業的CIO向至頂網記者表示:「大模型不同於其他的數字化轉型項目,有較為明確的投資、收益評價方式,實施路徑也較為明確。企業在研發大模型用例時,有一些關鍵環節還存在諸多挑戰。」
首先是模型選擇問題,市面上有上百種大模型可以選擇,大家的側重點不一樣,對於國有企業而言,會優先考慮中國大陸開發的大模型,模型安全與數據安全是首要考慮的問題。
其次,訓練數據的質量與行業的知識積累問題。能源行業產業鏈相對較長,數據治理剛剛起步,各個環節的數據收集、整理是一個複雜過程,數據的多樣性、異構性的問題較為嚴重,不同數據設備、傳感器也會產生大量異常數據,以及數據漂移、數據誤差導致的數據一致性問題仍然嚴重。行業知識積累的數據數量尚不充足與完備。
第三、大模型幻覺問題仍是一個嚴重風險。因此現階段開發的用例還只能在小範圍試點,尚不能形成規模效益。
同樣的問題也困擾著其他行業的CIO和實踐者。為此我們採訪到了新華三集團數字中國研究院常務副院長李飛為我們答疑解惑。
新華三集團數字中國研究院常務副院長李飛
大模型:不能只求「大」,更要追求「准」
李飛認為,企業在選擇「大模型」上應重點關注模型大小和複雜度、訓練數據量以及模型精度和穩定性這幾個關鍵指標。
他指出:「模型大小和複雜度是重要的指標。它會直接影響到模型的訓練速度、內存需求以及部署的難度。一般來說,模型越大,複雜度越高,模型的性能可能也會更好,但同時也需要更多的計算資源和時間來進行訓練和部署。」
訓練的數據規模是另一關鍵指標。「因為它會影響到模型的泛化能力和性能。如果模型訓練的數據量足夠大,數據的質量足夠好,那麼模型就可以學習到更多的樣本特徵和規律,從而獲得更好的性能,從而生成的內容也更貼合實際,更準確。」
模型精度和穩定性是企業關注的重要指標。這兩個指標將直接影響到預測效果和實際應用。一般來說,經過充分訓練的大模型可以獲得更高的精度和更穩定的性能,但同時也需要更多的計算資源和時間來進行訓練和驗證。
因此李飛認為企業在選擇和使用大模型時,需要根據具體的應用場景和需求來選擇合適的模型,並進行充分的訓練和驗證。
Token是概率,消除幻覺靠訓練和對齊
企業時常擔心大模型的「幻覺」。大模型幻覺,簡而言之就是大模型「一本正經地胡說八道」。李飛解釋道:「大模型幻覺是模型生成的內容與現實世界事實或用戶期望不一致的現象。其本質原理是大模型並沒有像人一樣理解了問題和答案,而是基於概率的 token by token 的形式產生的回答。」
「此外,還存在隱私保護安全,大模型可能會在未得到用戶許可的情況下收集、使用或泄露個人信息;在價值觀對齊問題上,由於人類社會的價值觀多元化,如何確保AI的行為與設計者的期望一致是一個難題;在技術安全問題上,如模型遭受黑客攻擊、訓練數據受到污染或篡改;內容安全方面:涉及生成的內容(如文本、圖像)是否符合道德、法規以及其被惡意使用的風險。」
「數據質量差是致使它產生幻覺的一大原因。其中也包括數據缺陷、數據中捕獲的事實知識利用率低等問題。除了數據,訓練過程也會使大模型產生幻覺。主要是預訓練階段(大模型學習通用表示並獲取世界知識)、對齊階段(微調大模型使其更好地與人類偏好一致)兩個階段產生問題。」
避免大模型的幻覺應從算力、數據、新技術三個方面來解決。李飛認為:「參數量的增加,會讓大模型的能力提升,但目前大模型的參數量正以三四個月翻番的速度增長。因此,計算能力很快會跟不上模型的發展需求,因此對計算力的需求、高品質網絡的需求與日俱增,需要加快算力、網絡品質的提升,包括調度的提升。」
此外,優質訓練數據的增加,也會讓大模型的能力提升。隨著大模型發展走向深度,要訓練出滿足產業需求、精度極高的垂直行業模型,一定需要更多的行業專業知識,以及企業私域數據。
最後,要解決大模型幻覺問題,就需要發展新的顛覆性技術,來突破結構化信息、陳述性事實、長鏈條推理、深度語義理解等方面遇到的瓶頸。
針對內容安全,可通過內置安全限制提示詞和出入內容過濾攔截功能,可對所有場景下大模型生成內容進行安全性限制,為用戶信息和數據安全保駕護航。從信息安全的角度看,新華三百業靈犀(LinSeer)私域大模型具有行業專注、區域專屬、數據專有、價值專享的特徵,數據專有確保To B、To G數據專有不出域、可用不可見,幫助客戶以私有數據訓練訂製化的人工智慧,建設最「放心」的私域大模型。
為了實現價值對齊,研發人員需要在模型層面讓人工智慧理解、遵從人類的價值、偏好和倫理原則,儘可能地防止模型的有害輸出以及濫用行為,從而打造出兼具實用性與安全性的AI大模型。例如,人類反饋的強化學習(RLHF)要求人類訓練員對模型輸出內容的適當性進行評估,並基於收集的人類反饋為強化學習構建獎勵信號,以實現對模型性能的改進優化。
多維度評價大模型,才能找到適合的大模型
企業要研發、訓練出能用、好用的大模型首先要有一個合理的評價體系。
以新華三的私域大模型百業靈犀(LinSeer)為例。李飛表示:「今年百業靈犀剛通過了中國信通院組織的大規模預訓練模型標準符合性驗證,模型開發模塊被評為4 ,達到中國大陸先進水平。」
「此次評測在數據管理、模型訓練、模型管理、模型部署、開發流程一體化五個功能模塊展開了全方位、多維度測評。」如此看來,性能評測確實是對模型評估的重要方面之一,目的是為了確定模型的效率和資源消耗情況,以便優化模型的性能。這類評測可以從多角度進行,會涉及訓練時間、推理時間、內存占用等諸多方向,但其中以模型大小與複雜度、訓練數據量以及精度穩定性等為關鍵指標。」
具體來說,大模型的大小以及複雜度會直接影響到訓練速度、內存需求以及部署的難度。一般來說,模型越大複雜度越高,模型的性能可能也會更好,但同時也需要更多的計算資源和時間來進行訓練和部署;而訓練數據量則會直接影響到模型的泛化能力和性能,也可以理解為如果模型訓練的數據量足夠大,數據的質量足夠好,模型就可以學習到更多的樣本特徵和規律,從而獲得更好的性能,進而生成的內容也更貼合實際,更準確。大模型的精度和穩定性也是關鍵指標之一,因為直接影響到模型的預測效果和實際應用。一般來說,經過充分訓練的大模型可以獲得更高的精度和更穩定的性能。
因此評價大模型的能力,可以從算法模型能力、場景通用能力、安全能力和平台能力這幾方面入手:算法模型能力是衡量一個模型本質性能的重要標準,直接關係到能否完成預設任務以及完成的效果如何,可以說強大的算法模型能力是模型性能優秀的基石。
而場景通用能力則是指模型對於各類場景問題的處理能力。「如果一個模型只能在特定的任務或者領域內表現優秀,但在其他任務或者領域內則表現很差,我們可以認為這個模型的通用能力較弱。衡量模型通用能力的方式是在多個不同任務或領域內應用模型,觀察模型的表現如何。」李飛這樣表示。
此外,平台能力主要是考察模型的效率、擴展性以及穩定性。對於大模型來說,如何在保證性能的同時提高效率、可擴展性和穩定性,一直是個重要問題,這個方向就可以側重考察大模型處理大數據的能力,模型的訓練和預測速度,以及在高並發情況下的穩定性。對於模型的使用者來說,模型的安全性也是至關重要的,安全性的評估可以看到模型在面對惡意攻擊時的全面表現。
未來,大模型會走向何方?
如今,大模型在實際應用中遇到最多的問題是什麼?無非是不斷增長的參數量、硬體資源需求以及持續激增的能耗壓力所帶來的行業落地困境。在行業應用中,大模型應用往往不是單一的物體檢測、語音識別、文字識別等場景,而是集合了多種場景的綜合體,在實際落地時需要結合具體場景做針對性的算法調整和應用處理,所以合適的落地工具選擇將有效規避大模型與應用場景的割裂,打通模型到業務場景需求的通道,實現應用場景的拓展和衍生,而未來,這一項則是引領大模型發展的重要所在。
對於大模型的未來,李飛認為:「我們其實還要關注模型大小的合理化,畢竟AI大模型的大小需要平衡算力和能耗的開支,應選擇適合行業特點以及業務特點的大模型進行私域部署。」
「而伴隨AIGC的持續火熱,通過區分AIGC業務應用場景勢必可加速推動人工智慧產業的落地應用,大模型發展也將被大大助力。當然,越發被重視的內容安全合規,例如通過建立內容輸入防護、模型本身防護以及內容輸出防護為一體的內容安全體系,以及高效的數據治理能力加強行業數據的沉澱等,也都將成為發展中不可或缺的核心內容。」