一、生成式 AI 應用進入大爆發時代
1)驅動因素:大模型、算力與生態的共振
生成式人工智慧是自個人 PC 出現和網際網路誕生以來最具顛覆性的技術創新,隨著大模型以及 ChatGPT 等一系列「殺手級」應用的誕生,生成式 AI 在文本、圖像、代碼、音頻、影片和3D模型等領域展現出了強大的能力。當前生成式 AI 的發展仍處於起步階段,未來有望為全球經濟創造數萬億美元的價值,並對各行各業的工作方式產生重大影響。在生成式AI 產業突變的背後是人工智慧技術數十年的積累和醞釀,其演進歷程具體可分為四個階段:
1)專家系統:上世紀 50 年代前後,人工智慧開始萌芽,基於規則的專家系統占據主導,這一時期,使用複雜的邏輯規則,能夠處理包括字符匹配、詞頻統計等一些簡單的任務,機器翻譯以及語言對話的初級產品,1966 年 MIT 發布的世界上第一台聊天機器人Eliza可以看作生成式 AI 最早期的產品之一。Eliza 能夠根據接收到的文本,遵循簡單的語法規則來模擬與人類用戶的對話。與此同時,專家系統存在詞彙量有限、缺乏上下文和過度依賴規則等缺點,生成創造性內容的能力非常有限;
2)機器學習與神經網路:1980 年美國的卡內基梅隆大學召開了第一屆機器學習國際研討會,標誌著機器學習在全世界興起,20 世紀 90 年代以後,神經網路作為一種新的生成人工智慧方法出現了。神經網路受到人腦的啟發,能夠以基於規則的系統所不能的方式從數據中學習,帶來了AI 技術的突破,AI 可以開始基於神經網路創建逼真和有創意的內容;
3)深度學習:2012 年後,深度學習在人工智慧領域中的應用將生成式AI 帶入了一個新的高度。深度學習作為一種基於神經網路的機器學習方法,通過大規模的數據特徵學習,對不同場景具備很強的自適應性,同時可以通過增加層數和節點數,實現對更複雜的問題的解決,提升了模型的準確性和真實性,並且基於分布式計算和 GPU 加速等技術,能夠訓練更大規模的數據和更大尺寸的模型。直到現在,生成式 AI 依然建立在深度學習的基石之上;
4)大模型:2017 年,Google 發布著名論文《Attention is All You Need》,提出了基於一種新的神經網路——Attention 注意力機制所構建的模型 Transformer,2018 年OpenAI 和谷歌分別推出了 GPT 模型以及 BERT 模型,均是在 Transformer 的基礎上構建,Transformer 及GPT模型標誌著生成式 AI 在文本領域的重大飛躍。與此同時,伴隨著VAEs、擴散模型、神經輻射場、CLIP 等一系列生成算法和多模態模型的不斷成熟,生成式 AI 的時代正式開啟。
模型、算力、生態推動為 AI 應用進入大爆發時代: 1)算法及模型的快速進步:2017 年 Transformer 模型及2022 年ChatGPT的發布標誌著GenAI 在文本領域的重大飛躍,並在多項能力上超越了人類基準,隨著未來更強大的語言大模型(如 GPT-5),以及多模態大模型和視覺大模型的技術突破,將帶動AI 應用的持續進化。2)算力基礎設施將更快、更便宜:雖然短期內大模型訓練需求的激增導致了算力成本的持續上漲,但是隨著英偉達算力晶片的不斷更新疊代,微軟、亞馬遜、谷歌等在AI 雲服務資本開支的不斷加大,AI 應用的發展將得到更加強有力的支撐。 3)AI 生態的逐漸成熟:AI 組件層(AI Stack)的完善和產業分工細化,為AI 應用在模型訓練、數據整合、應用開發、應用部署等環節提供全生命周期的支撐。
本輪生成式 AI 的技術的最大突破來自於底層大模型,GPT 作為當前全球最強大的語言大模型,從 2018 年 5 月 GPT 初代版本,到 2023 年 3 月的 GPT-4,僅5 年時間模型的性能就產生了質的飛躍。在 GPT 模型快速進化的背後,一方面是對訓練方法的持續疊代,從GPT-1的半監督式學習,到 GPT-2 捨棄了微調階段,再到 GPT-3 的 In-context 學習和海量參數,以及引入了基於人工反饋的強化學習之後的 ChatGPT;另一方面,在模型參數規模擴大背後,是OpenAI對研發和算力的持續高投入,通過「大力出奇蹟」的方式,支撐了模型參數和訓練數據的快速膨脹。GPT-4 相較於之前版本的 GPT 模型,在推理能力、文本生成能力、對話能力等方面有了大幅提升之外,在許多能力上已經超越了人類基準。同時大模型作為能夠在海量、廣泛、非結構化數據集(例如文本和圖像)上進行訓練的大規模深度學習模型,它的強大之處不僅在於文本生成,大模型可以適應各類不同的任務,不僅可以用於聊天機器人,同時也可以用來創建新的蛋白質序列,並且當前已經成為了圖像、代碼、音頻、音樂、影片和3D 模型等各種模態應用的底層框架。
隨著大模型家族的不斷豐富,出現了單向/雙向、開源/閉源等不同的技術路線。
1)單向/雙向:在 Transformer 模型 2017 年誕生之後,2018 年OpenAI 和Google發布的GPT-1 和 BERT 採用了 Transformer 不同的框架,6 月OpenAI 發布的GPT-1僅使用了Transformer 的 Decoder 框架(單向架構),10 月,Google 發布的BERT 模型採用Transformer的 Encoder 框架(雙向架構),作為一個擁有 3 倍 GPT 參數量的更大體量的語言模型,BERT在當時的多項測評以及業內影響力等方面,要領先於 GPT 的初代版本。2020 年,隨著GPT-3的驚艷表現,單向模型在語言生成方面的優勢開始展現(特別在大參數情況下),Decoder路線逐漸占據主導,當前主流大模型大多採用 Decoder 框架或大Decoder 小Encoder 框架。
2)開源/閉源:大模型的開源/閉源,與 iPhone/Android、Windows/Linux 有類似之處。包括 GPT-4,以及谷歌的 Bard、Claude 等大模型均是閉源模型,優勢在於性能強大和易於上手,目前依然是絕大多數海外主流生成式 AI 應用的首選;而 LLaMA2、Stable Diffusion,Eleuther,GLM130B,OPT,BLOOM 引領的開源模型優勢在於靈活性和低成本,特別llama2的發布,宣布支持商業化,讓應用層的公司可以以非常低成本來使用大模型,可以基於開源模型進行私有化部署並實現差異化功能的開發。在過去的一年裡,開源陣營模型的能力和數量有了顯著的提高,開源框架目前也正在成為越來越多應用的選擇。
目前大模型的應用已經不局限於 NLP 領域,包括圖片、語音、影片、代碼等多種模態的應用開始湧現,而大模型、生成算法與多模態等底層技術的突破成為了AIGC的質變的關鍵。一方面,目前大模型可以廣泛適用於各類下游任務,當前已經成為了AIGC 的底層框架。許多跨領域的 AI 應用均是構建於大模型之上,能夠解決多任務、多場景、多功能需求,支撐各種模態的生成;另一方面,包括生成對抗網路(GAN)、變分自編碼器(VAE)、擴散模型(Diffusion Model)、神經輻射場(Nerf)等快速湧現的生成算法,以大模型為基礎,能夠創造出文字、圖片、語音、影片、代碼等各種模態的內容,而基於此之上的多模態應用開始湧現。
1)文本生成:目前技術最成熟的領域,隨著新一代大模型的發布,未來將看到更高質量的輸出、更長形式的內容和更好的垂直特性; 2)圖像生成:過去一年技術進化速度最快的領域,2014 年出現生成對抗網路GAN是圖片生成的主流算法,但一直存在對輸出結果控制力弱,難以生成新圖像等缺點。隨後擴散模型、CLIP 模型等技術的成熟,文生圖的能力大幅增強,包括 DALL-E2、Stable Diffusion等主流文生圖應用均是基於擴散模型所構建; 3)影片生成:目前尚未有非常成熟的影片生成算法,許多應用還是依賴於圖像生成的算法;4)3D 模型生成:3D 模型生成還處於早期,其中這一領域關鍵算法神經輻射場(NeRF)於 2020 年於 ECCV 會議上提出,目前已經成為 3D 模型構建的主流算法,並廣泛應用於遊戲、數字人、虛擬現實、增強現實、電子商務等領域,未來具備廣闊的應用空間;5)代碼生成:GPT-4 等大模型具備很強的代碼能力,未來將會對軟體開發人員生產力產生重大影響,同時能夠使非專業開發人員更容易生成代碼; 6)音頻生成:音頻合成在技術和商業化上已經非常成熟,近年來大模型和優化算法的成熟能夠基於大量音樂數據集訓練和優化算法來創建 AI 虛擬歌手,更加趨近於真人發聲效果,典型應用如:AI 孫燕姿; 7)其他:從生物蛋白質分子模型到其他垂直領域,許多行業都在進行垂類模型的研發。
在語言大模型和多模態多模態大模型快速取得質變的同時,視覺領域的基礎大模型Vision Transformer(VIT)在 2020 年誕生後,近三年語義分割、目標檢測、圖像分類、實例分割等主要視覺任務上的能力均有明顯提升。Vision Transformer(VIT)於2020 年由Google提出,可以看成是 Transformer 的圖形版本,在儘可能少的改造下將標準的Transformer 模型直接遷移至圖像領域變成 Vision Transformer 模型。Vision Transformer 最初用於處於圖像分類任務,2020年很多後續的視覺模型都是基於 VIT 建立。為了將 Transformer 模型適用於圖像,VIT將圖像切分成很多子塊並將這些子塊組成線性嵌入序列,然後將這些線性嵌入序列作為Transformer的輸入以模擬在 NLP 領域中詞組序列輸入。
當前視覺大模型相當於 20 年前後的語言大模型: 1)Transformer 於 2017 年由 Google 提出,Vision Transformer 於2020年提出;2)當前最大的語言模型已經超過萬億參數量級,當前最大的視覺模型剛剛達到百億參數量級; 3)從 GPT-2(2019)開始,語言模型開始具備通用能力,而當前視覺模型基本仍只能處理特定視覺任務。
巨頭持續加碼算力基礎設施,未來 AI 算力將更快、更便宜,並更好的支撐應用層的快速發展。多年來,英偉達 GPU 性能的突破的基本遵循摩爾定律,GPU 的電晶體數量每兩年增加一倍。近年來,隨著晶片架構的進步以及張量核心和 Transfomer 引擎等功能的引入進一步提高了英偉達 GPU 的吞吐量和效率,GPU 進化的速度超越了摩爾定律。同時除了硬體之外,英偉達圍繞CUDA 構建的軟體生態系統,為開發人員提供端到端的解決方案,簡化了人工智慧應用的開發、部署和管理,已經成為了各行業人工智慧的作業系統層。除英偉達外,全球科技巨頭均在加速算力側的布局,其中軟體廠商開始自研晶片,而硬體廠商則在搭建算力平台,包括微軟、亞馬遜、谷歌、甲骨文和 Facebook 等軟體及雲服務巨頭正在加大對AI 算力雲服務的資本開支,並提供更豐富的 AI 雲服務模塊、涉及 NLP、機器學習、電腦視覺等各個領域;另一方面,微軟、亞馬遜、谷歌等均在加大自研 AI 晶片的投入。因此雖然短期來看,大模型訓練的需求的急劇增加推高了算力成本,但隨著未來晶片性能的快速進步以及 AI 算力供需的逐漸平衡,應用層的發展將得到更好的支撐。
AI 組件層(AI Stack)是 AI 生態的重要組成部分,為模型訓練、數據整合、應用開發、應用部署等提供支撐,AI 組件層的完善和產業分工細化,代表AI 生態的逐漸成熟。AI 組件層具體包括了模型訓練、數據整合、應用開發、應用部署等幾個關鍵環節,各環節均已經初步跑出了一系列組件工具,可預見隨著各個頭部工具廠商不斷拓展自身的產品線,AI 組件層的一體化和平台化程度會越來越高。除了新興廠商之外,IBM、埃森哲、德勤等IT 諮詢公司也推出了AI 解決方案,來支撐 AI 應用的開發與部署,具體來看: 1)應用框架:通過提供了一套組件和接口,將開源模型、API 和資料庫等不同的外部組件鏈接在一起,能夠幫助應用開發快速構建基於大模型的 AI 應用,來簡化應用的開發和創建過程,代表廠商包括 LangChain,Dust.tt,Fixie.ai,GPT Index 和Cognosis。2)數據整合:由於基礎模型僅限於對訓練它們所依據的事實進行推理,而應用和垂類模型需要使用時效性強以及垂直領域和私有數據來推出面向專業領域的應用,特別是在金融、醫療等專業性強以及天氣、體育、新聞等實效性強的領域,應用程序開發人員需要模型調用外部數據源,通過外掛等方式來實現數據整合,而非再次訓練底層大模型。涉及工具包括了向量資料庫Pinecore 、 Chroma 、 Redis 等 、 上 下 文 窗 口 LangChain 、LlamaIndex 等、數據加載器 Unstructured.io 、Databricks 等。 3)模型訓練:應用開發對底層模型有多種選擇,可以選擇由OpenAI、Anthropic或Cohere等供應商創建的閉源模型,或者使用開源模型,以及可以選擇訓練自己的模型,而且模型尺寸、模態、輸出質量、上下文窗口大小、成本和延遲各不相同,最佳設計通常需要開發人員在使用多個模型的組合。涉及到的 AI 組件包括:模型庫 Hugging Face、Replicate 等、深度學習框架TensorFlow、PyTorch、DeepSpeed 等、訓練工具 Mosaic、TOgether、Cerebras等,託管服務 OctoML、Vertex AI 等。
4)評估工具:一方面,在模型訓練過程中,開發人員需要使用多種工具來實現模型的快速開發和疊代,基於數據來驅動提示工程、超參數、微調、模型相關的實驗,相關工具包括Statsig、Comet、Mlflow 等;另一方面,在應用部署後,應用廠商需要跟蹤底層大模型的性能、成本、延遲和行為隨時間的變化,了解模型輸出的質量,防止惡意使用以及控制大模型的成本,相關工具包括 WhyLabs、datadog 等。 5)應用部署:將 AI 應用部署到實際應用環境中,可以採用Fixie 、Gradio等框架,或者採取第三方廠商的服務來完成應用的部署實施。
2)產業現狀:一二級視角看 AI 應用的演進
隨著 GPT 以及擴散模型等底層模型和算力能力的突破,生成式AI 應用在近3年來取得了跨越式的發展。當前時點,B 端應用場景逐漸成熟,AI 應用即將進入全面商業化階段。
1)2021:GPT-3 催生出第一批生成式 AI 應用。2021 年第一批生成式AI 應用誕生得益於2020 年 5 月 GPT-3 的發布,相較於 GPT-2 及其他語言模型,GPT-3 在機器翻譯、聊天問答和文本填空上等語言任務上有著非常出色表現,並且開始能夠完成一些比較困難的NLP任務,比如生成新聞報道和撰寫文章。因此從 2021 年開始, 包括 JasperAI 在內第一批基於大模型生成式人工智慧應用誕生,大多是基於 GPT-3 的能力,並以類 SaaS 服務的形式進行收費。JasperAi在成立當年就收穫 7 萬名用戶、營收額達到 4500 萬美元,2022 年翻倍達到8000萬美元,僅用18 個月時間速成為一家估值 15 億美元的 AIGC 獨角獸。
2)2022:AI 作畫的爆發與 ChatGPT 的發布,22 年是生成式人工智慧的元年。22年隨著擴散模型等生成算法的突破,一系列 AI 作畫應用相繼誕生,其中包括了MidJourney、Dall-E2、Imagen 等在線文生圖應用,以及 Stability AI 的開源模型 Stable Diffusion ,AI 圖像生成的效率與精度提升到了前所未有的量級。22 年底,生成式 AI 的「殺手級應用」ChatGPT正式發布,基於對超大規模數據的深度學習,ChatGPT 在文本生成領域的能力得到了空前提高。除此之外,各種影片生成(Make-a-Video、Imagen Video),以及 3D 模型生成(DreamFusion、Magic3D和 Get3D),包括代碼生成工具 GitHub Copilot 開始受到廣泛關注。
3)2023:C 端應用面臨洗牌,B 端應用即將進入全面商業化。23 年生成式AI 在基礎模型實現了持續的突破,GPT-4 發布的大語言模型在多項任務上進一步提升,而開源模型Llama為初創企業和其他企業提供了一個強大的免費選擇,和 OpenAI 的閉源模型陣營形成競爭。在模型能力快速進化的同時,一方面是各類生成式 AI 的項目數量開始激增,另一方面,B端應用在處在商業化的前夜,自 3 月微軟發布了基於 GPT-4 的 AI 辦公助手office Copilot,此後包括企業服務、營銷、低代碼、安全、教育、醫療、金融等領域的 AI 應用開始陸續發布。7月份,Microsoft365 Copilot 公布定價,為每個用戶 30 美元/月,同時全球 CRM 龍頭Salesforce宣布正式向所有用戶開放 AI 產品,並給出了單個產品每用戶每月 50 美元的定價。隨著兩大軟體巨頭AI 功能定價發布,AI 應用將正式進入商業化落地階段。
年初以來,海外科技股在 AI 引領下持續上漲,AI 算力基礎設施層公司率先受益於AI 產業浪潮,其中英偉達是 AI「掘金買鏟」邏輯的核心受益者,其次為微軟、Google、AWS、Oracle等頭部雲服務廠商和大模型廠商。當前生成式 AI 中的很大部分收益流向了基礎設施層,根據海外風險投資機構 Andressen Horowitz 的粗略估算,應用廠商平均需要將20-40%的收入支付給雲服務商或大模型廠商,同時大模型廠商通常也會將近一半收入用於支付雲基礎架構。因此總體上,當前生成式 AI 總收益的 10-20%流向了雲服務商,其中大部分集中三朵雲上:亞馬遜雲(AWS)、谷歌雲(GCP)和 Microsoft Azure。而在更底層的則是英偉達的GPU,其主力AI 晶片A100、H100 承載了絕大多數 AI 模型訓練與開發,占據 AI 伺服器硬體成本的近90%,英偉達憑藉強大的晶片性能以及 CUDA 軟體生態系統,圍繞 AI 算力建立了深厚的護城河,毫無疑問是本輪生成式 AI 的最大受益者。此外包括網路設備(Marvell、Arista、博通),數據存儲(MongoDB、Teradata、Snowflake),伺服器(Smci)等環節的基礎軟硬體廠商也均有不同程度的受益。

目前 AI 應用特別是 B 端的應用還處於早期,應用層從商業化以及兌現時間來看預計要晚基礎設施層 2-3 個季度,今年以來頭部應用廠商股價同樣也有所演繹。今年年初至今漲幅靠前的AI 應用公司有:Palantir(136%)、shopify(92%)、Salesforce(67%)、ServiceNow(52%)、Palo Alto Networks(74%)、Adobe(67%)、Duolingo(109%)、LegalZoom(46%)、TTD(78%)。相較於 AI 基礎設施廠商已經能夠從模型訓練所產生的巨大需求,來驗證到訂單和業績,美股 AI 應用公司業務基本集中在 B 端,大多還處於產品打磨階段或者商業化早期。部分賽道上龍頭公司包括 MS、Salesforce、ServiceNow、Shopify 已經發布了生成式AI 產品,其中MS、Salesforce 公布 AI 產品的定價,預計從今年 Q4 到明年Q1 能夠看到B端應用商業化的初步落地,此外也有部分公司如 Palantir、Palo Alto Networks 的生成式AI 產品已經在實際場景中得到應用且已經帶來了明顯的收入貢獻,但大多數 B 端的 AI 應用廠商還尚未進入到實質性商業化階段,因此總體來看,AI 應用層廠商從兌現節奏來看要明顯晚於基礎設施層。
今年以來 GitHub、Replit 等開發者社區的 AI 項目實現了爆發式的增長。根據斯坦福大學在 22 年底發布的《2023 年人工智慧指數報告》中的數據,全球最活躍的開發者社區GitHub上的 AI 相關項目數量近 10 年以來穩步增加,從 2011 年的 1536 個增加到2022 年的347934個,而在今年以來,GitHub 上 AI 開源項目迎來了大幅度的增長,截止8 月底數量達到了91萬,相較於去年全年的增幅達到 264%。同時,根據另一開發者社區Replit 的數據,2022年第四季度以來,人工智慧項目激增,23 年第二季度末 AI 項目數量達到了30 萬個,其中16萬個項目是在23 年第二季度創建的,相較於 23 年第一季度環比增速達 80%,而相較於去年同期數量增長了34 倍,且現在仍處於加速增長的趨勢。
OpenAI 在大模型上依然具備統治級地位,同時基於開源模型項目數量正在快速增長。根據開發者社區 Replit 的數據,截止 2023 年二季度,95%以上的應用項目均是基於OpenAI 的模型來構建,而包括 Cohere、Cohere 以及 Google 在內的其他模型合計占5%。同時,開源模型的數量正在快速增長,Hugging Face 和 Replicate 作為開源模型的API 和SDK提供商,是開源模型的重要入口。23 年二季度,Replit 平台上開源模型的項目超過5000 個,相較於Q1增長了141%,其中超過 70%的項目使用了 Hugging Face,但 Replicate 的使用量增速更快,Q2相較於Q1達到了約 6 倍的增長。此外,截至 23 年二季度,Replit 上有近25000 個活躍的LangChain項目,其中 2 萬個是在二季度創建的,比一季度增長了近 4 倍。
從投融資情況來看,2023 年是生成式 AI 創紀錄的年份。根據海外知名投融資數據平台CB Insights 的統計數據,截至 2023 年第二季度,生成式 AI 的投融資數量達到86 筆,總金額超過141 億美元,相較於去年全年的 25 億美元,增長了 4.6 倍。其中,今年以來籌資金額最多的五家公司分別是: 1)OpenAI:全球人工智慧研發的領導者,今年 1 月獲得了微軟的100 億美元融資;2)Inflection:於 6 月宣布完成 13 億美元的最新一輪融資,由微軟、英偉達和三位億萬富翁牽頭投資,Inflection 於 5 月推出了首款產品即個人 AI 助理PI,主打陪伴以及為用戶提供情緒價值,成為人工智慧領域融資量僅次於 OpenAI 的第二大初創公司;3)Anthropic:由前 OpenAI 員工創辦,語言模型 Claude 的開發商,是ChatGPT的主要競爭對手,今年以來融資金融達到 8.5 億美元,其中年初谷歌投資了3 億美元,5月完成了4.5億美元 C 輪融資; 4)Adept:發布了自研的大模型 Action Transformer (ACT-1),今年3 月宣布獲得來自包括微軟、英偉達在內的 3.5 億美元 B 輪融資; 5)Cohere:主要業務是給用戶提供應用大語言模型的 API,幫助用戶創建特有使用場景和獨有數據的大模型,今年 6 月獲得了 2.7 億美元的 C 輪融資,投資者包括英偉達、甲骨文和Salesforce。 根據 Turing Post 的數據,截止 23 年 8 月已經 15 家生成式AI 公司達到了10億美元 的估值,主要為大模型的開發商及 AI 工具廠商。其中,這 15 家公司達到獨角獸估值門檻的平均時間僅近 4 年,而平均而言達到獨角獸門檻的需要 7 年左右的時間。
從應用層的融資中,人工智慧助理(AI Assistants)獲取的的資金最多,其次為文本、圖像、代碼及音頻的生成。根據 CB Insights 的數據:1)生成式交互(GenerativeInterfaces)總體上占據了應用層融資的大部分,其中主要包括 AI 助理、通用搜索、生產力和知識管理,自22年第三季度以來共有 23 筆交易,金額達 27 億美元,其中絕大多數資金流向了AI 助理;2)其次為文本類應用,主要包括社交媒體、市場營銷、AI 伴侶、文本總結、郵件工具等領域的生成式 AI 工具,自 22 年第三季度以來共有 24 筆交易,融資金額達6.4 億美元;3)視覺媒體類應用緊隨其後,項目設計圖像影片編輯、合成數據、視覺廣告,產品營銷,產品設計等領域,共有33 筆交易,總金額達 3.9 億美元;4)代碼同樣是生成式 AI 的熱門領域,應用領域包括代碼生成、自動化命令行、代碼檢查、代碼搜索、網站及應用創建等。

3)應用框架:應用的四大賽道與產業邏輯
生成式 AI 應用按應用領域可以分為:通過工具,通用軟體、行業軟體、智能硬體四大類。具體來看: 1)工具型應用:包括聊天機器人、搜尋引擎、文本工具、AI 作畫以及代碼工具等,應用領域主要集中在 C 端,產品的同質化程度較高,對底層模型的能力存在高度依賴,目前C端應用正進入第一輪洗牌階段; 2)通用軟體:主要包括辦公軟體、企業服務、IT 運維、軟體開發、網路安全、數據智能等領域,各個賽道上均已出現標杆產品,大多數是智能助理(Coplilot)的形態,預計將在四季度進入商業化落地的關鍵階段; 3)行業軟體:涉及金融、醫療、教育、工業、遊戲、法律等多個行業,行業間差異化程度較大,2B 場景下產品目前成熟度仍低於通用軟體,金融、醫療等頭部廠商開始打造垂類大模型,未來對行業數據價值的充分挖掘是競爭的關鍵; 4)智能硬體:汽車、機器人、智能終端等,無論智能駕駛還是機器人均具備巨大的市場空間,當前的瓶頸在於感知層與決策層,需要電腦視覺等底層技術的進一步突破。
生成式 AI /大模型擁有三大底層元能力:感知、分析和生成:1)感知:對文字內容的感知、對人類輸入的需求理解能力,未來進化方向是從文字內容的感知到圖像視覺的感知; 2)分析:對資訊和知識的檢索、歸納與整合能力,未來進化方向是推理和決策。3)生成:文本生成能力較為成熟,未來進化方向為圖片、影片、3D等多模態生成能力的進一步提升。 基於三大底層元能力,未來的 AI 應將沿著 AIGC(內容生成)、Copilot(智能助手)、Insight(知識洞察)、Agent(數字代理)四個重要的方向演進: 1)AIGC(內容生成):生成式 AI 的最主要變革是它能夠生成創造新的內容,包括文本、圖像、影片、代碼、3D 模型等,AIGC 應用發展將取決於大模型及多模態技術的進一步的提升;2)Insight(知識洞察):基於大模型實現對數據、資訊、知識的分析與整合,為用戶提供洞察並輔助決策,主要應用於金融、醫療、軍事等領域的分析、研究和決策工具。3)Copilot(智能助手):將 AI 的能力深入嵌入具體應用場景中,作為應用的AI 助手,能夠主動理解使用者的意圖並提供成型的方案,Copilot 是生成式AI 應用最廣泛的產品形態;4)Agent(數字代理):AI 智能體,相較於 Copilot,Agent 能夠自動感知環境,通過自己的獨立決策和行動來改變環境,並通過不斷學習和自適應來提高性能,主要應用包括自動駕駛、機器人等。
工具型應用自去年下半年開始迎來爆發,主要產品包括聊天機器人、搜尋引擎、文本工具、AI 作畫以及代碼工具,電商、營銷、設計是比較常見的應用場景。工具型應用的產品屬性決定了對底層模型存在的高度依賴,競爭的同質化程度較高,主流應用廠商開始尋求差異化的定位並且開始自研底層大模型。目前,聊天機器人、文本生成、代碼生成等領域的工具大多是基於GPT-4,但產品功能上與 GPT-4 重疊度較高,比如文本工具JasperAI 雖然集成了GPT模型的能力,但由於自身的場景化的壁壘不夠,因此也在 GPT-4 的衝擊下,流量開始明顯下滑。而AI作畫應用普遍基於擴散模型,雖然 DALL-E2 的發布早於 MidJourney,但是隨著模型能力和視覺表現上的提升,MidJourney 超越了 DALL-E2 成為了目前最流行的文生圖在線工具。目前的主流工具型應用一方面會更多尋求差異化定位,比如 Character.AI、Infectetion AI 定位於主打陪伴和虛擬角色的聊天機器人,另一方面也在正在打造自己的大模型。工具型應用自去年下半年以來經過爆發式增長期,在 6 月 ChatGPT 訪問流量首次出現下降,在新一代大模型技術疊代前,行業正在進入第一輪的洗牌期。
從工具型應用的幾個應用領域具體來看:
1)聊天機器人:ChatGPT 目前仍是流量最大的 AI 聊天機器人,雖然在今年6-8月流量有小幅下降,但總體來看,依託於底層模型的強大能力,市場地位仍非常穩固。另一類是主打陪伴,能夠創建虛擬角色的聊天機器人,代表有 Character AI 以及Infectetion AI 的聊天機器人PI,這類機器人更注重人格屬性,與 ChatGPT 形成差異化競爭,用戶可以完全自己創作角色來滿足社交、情感、陪伴等需求,目前這類應用的流量還在穩步增長。這一領域的頭部廠商大多在開發自己的大模型,其中 Inflection AI 表示計劃打造一個包含大約 2.2 萬塊英偉達H100晶片的計算集群,總計算量估計是用於訓練 GPT4 全部計算量的 3 倍。未來聊天機器人更具前景的應用是集成於文檔、網頁、知識庫等具體的應用環境中,以 AI 助手(Copilot)的方式與用戶進行交互,包括回答問題、提供建議、執行任務等,這也是這類產品未來演進的主要方向。
2)搜尋引擎:生成式 AI 與搜尋引擎的結合具體體現在,傳統搜尋引擎主要基於關鍵詞匹配,而基於大模型的搜索的核心在於意圖理解和內容生成,具備了整合、提煉、串聯資訊的能力,能更好地應對開放式問題。今年 2 月微軟將生成式 AI 整合到了自家搜尋引擎中,並命名為「New Bing」。在接入了之後 GPT,Bing 訪問量雖然有一定程度的增長,但目前來看還遠未能撬動谷歌在搜尋引擎市場的絕對領先地位,同時谷歌也推出了Google Bard 來應對New Bing的衝擊,除了微軟和谷歌等巨頭之外,目前矽谷還有不少 AI 初創企業投入到了搜尋引擎這一賽道。
3)寫作工具:文本寫作類 AI 工具大多是基於 GPT 模型,在模型進行一些定製性的優化,或者通過預先設置 Prompt,來滿足一些文案生成的需求,整體上看對GPT 等底層大模型有較大的依賴,競爭力在於場景化定製的模板和功能。目前頭部的應用有Notion AI、JasperAI、CopyAI 等,其中 Notion AI 側重通用寫作,主打全面的文本生成和內容編輯功能,而JasperAI、CopyAI 更側重於營銷工具,內置了廣告文案、郵件、博客文章、推文等數十種模板和文案功能。目前來看這一領域的產品同質化程度較高,在 GPT-4 的衝擊下,頭部的寫作類應用包括JasperAI近三個月流量開始快速下滑。
4)AI 作畫:主流三大文生圖工具為 DALL-E2、Stable Diffusion、Midjourney,其中DALL-E2與 MidJourney 是閉源模型,可以實現在線訪問,使用門檻低,用戶輸入一定提示詞後即能實現文生圖。雖然 DALL-E2 的發布早於 MidJourney,但是隨著MidJourney 在視覺表現上超越了DALL-E2,成為了目前最流行的文生圖在線工具。Stable Diffusion 主要走開源路線,可以在用戶本地部署與運行。目前開源和閉源工具在商業模式上也存在較大差異,MidJourney能夠通過向用戶直接提供訂閱服務來收費,而 Stable Diffusion 的基礎模型免費,主要通過為企業提供定製模型來實現商業化。
5)編程工具:GPT-4 自身的在編程能力上相較於之前版本有了很大程度的提升,除了代碼生成能力之外,在容錯空間更大的重構代碼、代碼測試以及修改bug 等環節得到了更頻繁的應用,能夠帶來研發過程中顯著的效率提升。同時包括 Github、Hugging Face、Replit 等開發者社區今年以來的項目和流量大幅增長,今年 3 月 Github 發布了接入GPT-4 的新版本編程輔助工具Github Copilot X,在之前的代碼生成等基礎功能上增加了語音擴展、智能文檔、自動告警、自動擴寫等功能,是市場上最先進的 AI 輔助編程工具。
目前生成式 AI 在遊戲、法律、教育、電商等 C 端場景有較多的結合,而在醫療、金融、工業等 B 端場景下生成式 AI 產品的成熟度仍然偏低。在行業類應用場景中是AI 助手(Copilot)同樣得到了廣泛應用,而未來在金融、醫療、工業等領域,最具前景的應用來自於數據挖掘和知識洞察(Insight)類工具。同時,相較於通用大模型,垂直行業大模型在金融、醫療等領域有著更加深度的應用,一是由於安全及隱私保護等要求,行業數據大多存儲在本地,通用大模型在缺乏必要的訓練數據,二是垂直行業的數據量級大,涉及系統又比較複雜,通用大模型在解決專業問題的能力上不如垂類大模型。包括彭博社推出的金融大模型Bloomberg,以及Meta公司推出的蛋白質大模型 ESMFold 均證明了垂類大模型的專業性能要超過通用大模型,目前各行業頭部廠商也在開始自建垂類大模型。

1)金融:生成式 AI 技術在金融領域的主要應用為數據分析工具,通過對金融大數據的挖掘來實現知識洞察,典型應用包括證券領域的智能投顧,銀行領域的智能風控等。其中,證券側重於智能投研,功能包括研報生成、財務數據查詢、盈利預測、投資組合建議等代表性產品有金融數據分析工具 FinChat 等;銀行則側重智能風控,通過對客戶的信用歷史、行為特徵等數據進行分析,挖掘風險因素,實現信貸風險、反欺詐、反洗錢等行為預警,目前主要有開源模型FinGPT。同時,今年彭博社推出了專為金融行業從頭打造的 500 億參數大語言模型BloombergGPT,訓練數據來自於彭博社的財務數據,涵蓋了金融領域的一系列主題,生成了7000多億個標籤的大型訓練語料庫。BloombergGPT 在金融領域的任務普遍擁有著超過通用大模型的表現。
2)醫療:化合物合成、靶點發現等醫藥研發是此次生成式AI 變革突破的新場景。其中,醫藥研發目前主要通過 AI 大模型生成新型小分子、核酸序列和蛋白質,以及識別靶點、藥物篩選等,代表性產品包括 AbSci、Integrated Drug Creation、CentaurAI 等;醫院診療主要用於病歷生成、診療建議、分析診療記錄等,以提高診療效率。目前,主要有MyChart、SlicerDicer、DAX Express 等產品。此外,醫療器械,如 CT、MRI 等與圖像相關的一體化器械,在生成式AI 的賦能下將進一步增強醫學圖像等非結構數據的處理能力。
3)教育:生成式 AI 目前主要應用於面向 C 端的語言學習和學習工具場景,目前率先實現商業化。其中,語言學習龍頭廠商 Duolingo 基於 GPT-4 推出的Max 版本新增了ExplainMyAnswer 和 Roleplay 兩項功能,訂閱價格翻了 4 倍,同時帶動了Duolingo 股價的上漲,年初至今漲幅最高超 130%;學習工具 Khanmigo 定價 9 美元/月,Q-Chat 訂閱為7.99美元/月,CheggMate 計劃定價在 15.95 美元-19.95 美元之間。此外,在線教育場景旨在改善其現有功能,仍處於探索階段。
4)工業:當前大模型的應用主要聚焦在研發設計中的創成式設計、草圖生成等輔助類設計的應用,以及運維管理中業務流程資訊化 CRM、ERP 等軟體,生產製造環節由於生產環境的安全性與穩定性要求較高,生成式 AI 技術應用還未完全成熟。目前,工業大模型參與者主要包括工業軟體廠商、網際網路科技廠商、平台廠商等,但由於工業場景的複雜度,很多數據不可讀取,因此工業軟體廠商、平台廠商通常與具備大模型能力的網際網路科技廠商進行合作。
5)遊戲:遊戲創作效率的提高是生成式 AI 賦能遊戲行業最顯著的特點。一方面,生成式AI 技術能夠從現有影片中直接捕獲動畫,無需通過演員穿戴動作捕捉服進行記錄,節省人力成本。目前,Kinetix、DeepMotion、Move Ai 等公司正在探索這一領域;另一方面,生成式AI能夠幫助遊戲開發者大幅減少遊戲設計時間和成本。代表性產品有Unity 的創建遊戲AI 工具UnityMuse和推理引擎工具Unity Sentis和Roblox的遊戲創建工具Code Assist和Material Generator。此外,初創公司正在探索利用生成式 AI 技術創建遊戲中的 NPC 角色,來增加遊戲的自由度和體驗。
6)法律:訴訟文書的製作和「示意證據」的生成是目前AI 法律應用最廣泛的領域。其中,訴訟文書的製作是 AI 最早的應用領域,能夠有效提高法律文書的審查與製作效率與準確性;「示意證據」能夠以生成文本、圖片、影片、音頻、模型的方式展示證據,輔助司法人員直觀地觀察和理解證據。
AI 智能硬體:目前生產式 AI 與智能硬體的結合主要分為兩個方面:一是個人助手,應用場景包括智能座艙、智能音箱、家用機器人等各類智能終端,相較於過去的語音交互模式,大模型和生成式 AI 技術提升了感知和生成能力,進而帶來了用戶體驗的提升,但是總體而言產品門檻相對較低,另一類則為數字代理 AI Agent,主要應用包括自動駕駛、智能機器人等,具備更加廣闊的應用空間。AI agent 能夠感知環境、進行決策和執行動作的智能實體,接收輸入數據(例如傳感器資訊、文本、圖像等),通過分析和處理這些數據,理解環境和任務要求,並做出相應的決策和行動。目前 AI Agent 在感知與決策能力上仍存在瓶頸,未來突破的關鍵在電腦視覺等底層技術的突破。
1)汽車:生成式 AI 目前主要應用於智能座艙內的車載語音助手,以及自動駕駛數據標註、算法疊代、仿真系統等場景。其中,車載語音助手在生成式AI 的賦能下不需要喚醒詞即可實現語音交互功能,縮短響應時間。代表性產品為 Cerence Studio;自動駕駛方面,生成式AI 技術不僅能夠提高數據處理環節自動標註的效率,還能加強自動駕駛感知與規控精度,加速自駕算法疊代,以特斯拉 FSD 算法為代表。
2)機器人:生成式 AI 對於人機交互能力的提升將率先促進人形機器人、服務機器人成為「具身智能」的載體,而工業機器人由於工業領域的環境複雜度較高,以及與人交互需求較低,更依賴於機器視覺、神經網路等技術的突破。其中,人形機器人已經初步實現商業化應用,1Xtechnologies 研發的 EVE 實體機器人已經作為安保機器人投入使用,而下一階段將在醫院、養老院等場所投放;服務機器人面向 C 端,通常應用於清潔、外送、商場等場景,通過生成式AI 實現語音、圖片等多模態方式輸入,預測並理解用戶當下情感,及時作出反應,旨在降本增效。主要有禮賓機器人 Connie,餐飲機器人 Adam、自主安全機器人ASR等。
B 端即將進入全面商業化階段。7 月微軟 Office 365 Copilot,Salesforce EinsteinAI 等海外標杆 AI 應用定價公布,且定價超出預期。其中,面向 Office 365 E3、E5、商業標準版和商業進階版的訂閱商戶,Office 365 Copilot 的定價為每個用戶 30 美元/月。相較於Office主線產品15-30美元/月的定價,此次針對 AI 功能的單獨定價顯著超出預期,最高提升了2 倍以上。同時全球CRM 龍頭 Salesforce 宣布正式向所有用戶開放 AI 產品,服務GPT 和銷售GPT兩個獨立模塊分別單用戶每月付費為 50 美元。此外,Palantir、PALO ALTO NETWORKS的AI 產品已經在實際場景重得到應用且已經帶來相應的收入貢獻,四季度 AI 應用將正式進入商業化落地階段。
二、生成式 AI 應用細分賽道梳理
1)AI 辦公軟體
辦公軟體通常包含了文字、表格、演示文稿(PPT)等工具,是本輪生成式AI 浪潮中產品邏輯變化最大的細分領域之一。目前主流的 AI 辦公應用可以分為兩大類別:一類是辦公套件的AI 助手,主要有微軟 Copilot 和谷歌 Duet AI,目前全面嵌入了Microsoft Office及Googleworkspace 辦公套件,並已經初步實現商業化;另外一類是單點AI 工具,通常包括了文本類的Notion AI、JasperAI、CopyAI、Anyword,表格類的 SheetAI、演示文稿類的TomeAI、SlidesAl等,此外還有許多功能更加細分的產品,比如筆記、思維導圖、簡歷製作,協同辦公等工具,目前常見的 AI 生產力工具已經達到了上百種,這也是 AI 應用中數量最多的一類。具體來看:
1)文本類:在各類單點工具中,目前文本寫作類應用占據了半壁江山,這與語言大模型的成熟較高有直接關係,自 GPT-3 發布之後,大量的文本類 AI 工具開始湧現,這些應用普遍大多是基於 GPT 模型,自己再做一些定製性的優化,也有很多是基於gpt 等模型的api,通過預先設置 prompt,來滿足一些文案生成的需求。目前頭部的應用 Notion AI、JasperAI、CopyAI、Anyword等,主打更加全面的文本生成和內容編輯功能,同時 JasperAI、CopyAI 更側重於營銷工具,生成廣告文案、產品描述、郵件、博客文章、推文,通過內置多達數十種營銷模板和文案生成的功能;
2)電子表格類:這一領域目前尚未出現大量類似 Notion AI 這類文本工具,主要原因在於電子表格的核心在於計算,目前主要的創新點是將電子表格合併到文檔環境中以及強化電子表格的代碼和自動化計算能力。目前 Excel 的領先地位仍難以被撼動,其最大競爭對手是GoogleSheets,功能上基本保持一致,主要區別在於在線分發,可以簡化協作;
3)演示文稿類:生成式 AI 能夠幫助使用者快速構思創作框架並流暢展開內容創作,這一領域中 Powerpoint 和 Slides 是最常用的演示文稿工具,新興工具包括Gamma AI、ChatBA、SlidesAI、TomeAI 等,其中 Gamma AI、SlidesAI 強調模板功能,內置多種主題庫並提供圖文、影片等創作素材,而 Tome 為 AI 原生應用,能夠根據自然語言提示生成整個幻燈片,對各個幻燈片進行修改或添加新幻燈片。
AI 辦公應用的標杆:微軟 365 Copilot 。365 Copilot 在今年3 月發布,集成了GPT-4,將大模型(LLM)與 Microsoft Graph 的業務數據、Micros Office 365 中各類應用相互結合。使用方式包括:1)嵌入調用,即在 Word、Excel、PowerPoint、Outlook、Teams 等應用中直接調用 Copilot 完成各種任務,包括在 Word 中的文本內容生成、文字內容優化包括檢查錯誤、風格轉換、潤色擴寫等;Excel 中根據用戶的問題生成表格或數據模型,並創建可視化圖表等,高級功能包括了數據透視表和生成及趨勢解讀、SWOT 分析等;PowerPoint 中可以將現有的書面文件轉化為帶有演講者筆記和資料來源的演示文稿,或者從一個簡單的提示或大綱開始一個新的演示,並使用自然語言命令來調整布局、重新編排演示文稿;2)獨立使用,Copilot 還提供了一個全新的獨立式交互方式——Business Chat。用戶可以通過自然語言與Copilot 進行對話,像與真人助手一樣完成各種任務。此外 Microsoft Graph 則是微軟提供的一個平台,可以將用戶在Office 365 中使用過的日曆、郵件、聊天、文檔、會議等數據進行整合和分析,並實時反饋到用戶現在工作流程包括會議、郵件等,以提供準確、相關的上下文響應。
AI 生產力應用普遍依賴大模型的能力,功能同質化程度高,辦公套件未來的優勢仍將不斷強化。一方面,AI 生產力應用,特別是文本寫作類需要直面 OpenAI 的競爭,許多工具本質更多是對底層大模型的「套殼」後的簡單應用,本身不具備太高的門檻。在GPT-4出台之後,對文本類應用造成了直接了衝擊,包括這一領域的頭部應用 JasperAI,隨著GPT-4的發布,Jasper網站的訪問流量在短短 3 個月內下降了近 40%,並在今年在7 月開啟裁員;另一方面,微軟Copilot 和谷歌 Duet AI 等辦公套件仍具備龐大的用戶基礎,且隨著功能的不斷豐富,將直接衝擊到單點的 AI 辦公應用,同時考慮辦公套件工具存在較強的網路效應,未來這一賽道微軟仍將占據明顯的優勢。
AI 辦公軟體具備明確的商業化前景,微軟 Copilot 定價的公布預示著辦公是AI 在B端商業化落地最快的領域之一。近期微軟在全球合作夥伴大會上宣布,面向Office 365E3、E5、商業標準版和商業進階版的訂閱商戶,Microsoft 365 Copilot 的定價為每個用戶30美元/月,相較於不同版本每用戶每月 12.50 美元到 57 美元定價,365 Copilot 漲幅達53%至240%,超出了此前市場的預期。在此之前微軟針對數百家大客戶進行了 365 AI 功能的內部測試,這表明核心企業用戶在使用 365 Copilot 的過程實現了生產力的顯著提高。橫向對比其他AI 工具,Notion AI只提供筆記服務收費 19.8 美元一個月,而 JasperAI 則是每用戶49 美元每月,而微軟Office365Copilot 包含了全部辦公套件的 AI 功能,從定價來看相較於同類型產品並未明顯偏高,明確了其他可對標辦公類應用的商業化前景。
2)AI 創意工具
創意工具包括了圖片、影片、音頻、3D 模型等 AIGC 應用領,在藝術、設計、娛樂、媒體、電商等領域有非常廣泛的應用。在多種模態的生成中,現階段最具前景的是圖片和3D模型的生成。創意工具的核心在於內容的生成,用戶會自動選擇最優質的內容,因此應用公司必須在底層模型和算法上具備很強的能力。當前多模態技術還處於早期,市場格局未完全確定,在英偉達、谷歌、Adobe 等巨頭進入同時,包括 Midjourney 等公司同樣擁有一席之地。
1)圖片:目前 AIGC 中最熱門的方向,2020 年後隨著擴散模型、CLIP等技術的突破,在圖像生成技術上取得了質變,因此文生圖也成為了創意工具中數量最多的一個類別,最具代表性的文生圖工具有 DALL-E2、Stable diffusion、Midjourney、Canva Text-to-Image。此外還有圖像編輯工具,主要功能包括去水印、風格遷移、圖像修復、換臉等的應用。
2)影片:影片生成目前在技術上成熟度不高,更多基於圖像生成的算法,除了影片生成之外還包括了影片編輯如畫質修復、影片特效、影片換臉、影片剪輯等應用,代表應用有DeepfakesApp、VideoGPT、GliaStudio、Make-A-Video、Imagen video 等。
3)音頻:音頻合成在技術和商業化已經非常成熟,近年來大模型和優化算法的成熟能夠基於大量音樂數據集訓練和優化算法來創建 AI 虛擬歌手,更加趨近於真人發聲效果(如:AI 孫燕姿),這一領域的相關應用包括 WaveNet、Deep Voice、MusicAutoBot 等。
4)3D 模型:3D 模型生成還處於早期,其中這一領域關鍵算法神經輻射場(NeRF)於2020年於 ECCV 會議上提出,能夠基於 2D 圖像中生成 3D 圖像或場景,目前已經成為3D模型構建的主流算法,並廣泛應用於遊戲、數字人、虛擬現實、增強現實、電子商務等領域,未來具備廣闊應用空間,代表應用包括 Magic3D、Luma AI、DreamFusion。
5)多媒體工具:綜合了到圖片、影片、3D 模型等多模態生成的多媒體套件產品,代表為Adobe Firefly。
創意工具作為 AIGC 的關鍵應用領域,涉及到多種模態的生成和轉換,其發展高度依賴於生成算法、大模型與多模態三大底層技術的進步:1)生成算法:生成對抗網路(GAN)、變分自編碼器(VAE)、擴散模型(Diffusion Model)、NeRF(2020)等算法的湧現,其中關鍵性的突破來自於近年來圖片生成算法和 3D 模型生成算法的進步,2)大模型:大模型可以廣泛適用於各類下游任務,當前已經成為 AIGC 的底層框架:3)多模態技術:多模態相關技術使得語言文字、圖像、音影片等多種類型數據可以互相轉化和生成,比較代表性的包括Openai 公司的CLIP 模型(2021)。
目前由於 AIGC 產業格局尚未完全確定,多模態技術仍處於早期,模型和算法的能力決定了應用的競爭力,而開源和閉源路線的選擇導致了各自商業模式的差異。以主流三大文生圖工具DALL-E2、Stable diffusion、Midjourney 為例,DALL-E2 與MidJourney 是閉源模型,Stable Diffusion 是開源模型。DALL-E2、Midjourney 基於 OpenAI 官網及其他第三方網站可以實現在線訪問,使用門檻低,用戶輸入提示詞後即能實現文生圖功能。雖然DALL-E2的發布早於MidJourney,並迅速達到了百萬以上用戶數,但是隨著 MidJourney 算法的快速進步,MidJourney在視覺表現上超越了 DALL-E2,成為了目前最流行的文生圖在線工具。而Stable Diffusion走的是開源路線,可以在用戶本地部署與運行。同時 Stable diffusion 的使用門檻較高,除了對算力較高的要求之外,用戶需要訓練自己想要的模型,涉及到很多參數調整和素材積累的工作,但優點是在模型訓練完成之後,也能夠更好的滿足自身的個性化需求,目前開源和閉源工具在商業模式上也存在較大差異,MidJourney 能夠通過向用戶直接提供訂閱服務(月訂閱費在10-60美元之間)來收費,目前用戶數達到 1600 萬以上,實現收入超過1 億美元,而Stable Diffusion的基礎模型免費,主要通過為企業提供定製模型來實現商業化。
除了單點工具之外,Adobe 今年推出了生成式 AI 創意工具Firefly,嵌入Adobe現有產品組合中,和主流文生圖工具形成競爭。且考慮到 Adobe 在創意產業的獨特競爭地位,未來Adobe 很可能成為 AIGC 的最大贏家之一。Adobe Firefly 是能夠生成包括圖像、音頻、影片、3D 模型等多種模態,提供包括數碼成像、平面設計、影片製作和3D 建模等多種功能,可以幫助設計師、藝術家和創意工作者快速生成創意,大大提高創意生產的效率。目前Adobe已經將生成式人工智慧 Firefly 引入到了 Adobe 全產品線中,相較於Midjourney 等文生圖工具,Adobe Firefly 的優勢在於與 Adobe 現在有的產品比如 photoshop 能夠實現很好的結合,為用戶提供了大量的選項、素材、模板、工具包,進一步降低了用戶畫圖、修圖的門檻,而不像Midjourney更依賴用戶輸入的提示詞。同時,Adobe 對於訓練數據的管理非常嚴格,主要訓練素材來自於與Adobe Stock,對於必須確保輸出圖像版權的用戶,Adobe Firefly 具備很大優勢,但由於訓練素材來源有限,這也會導致在生成的性能上弱於擁有一些主流文生圖工具。得益於AI 的驅動以及業績的超預期,今年以來 Adobe 股價走勢強勁,年初至今漲幅達到67%,公司管理層也在2023年第二季度財報電話會議中提出未來將啟動 Adobe Firefly 的商業化,作為獨立的增值解決方案想企業用戶提供,相關收入將在未來幾個財季得到體現。
3)AI 企業服務
目前生成式 AI 已經與企業服務領域的主要產品 CRM、ERP、財務、HR、OA實現了不同程度的結合,短期來看 CRM 等營銷側的產品成熟度最高,且已經初步實現商業化。同時目前ERP、財務、HR、OA 已經相對應的 AI 產品推出,主要側重於利用AI 來實現業務洞察和流程優化,相關產品功能還尚待完善,且還未進入商業化階段。從參與廠商來看,這一領域的主要參與者仍是各個賽道上的傳統玩家,包括 CRM 領域的 Salesforce、ERP 領域的Sap、Oracle,HRM 領域的 Workday,新進入者較少,同時微軟 3 月發布了CRM和ERP領域的生成式AI產品 Dynamics 365 Copilot,是 AI 企業服務領域的有力競爭者。
1)CRM:CRM 與生成式 AI 在自動郵件,個性化回復、商機洞察、數據可視化等領域有許多結合點。全球 CRM 龍頭 Salesforce 推出了 CRM AI 工具Einstein GPT,並已經成功實現商業化,生成式 AI 成為驅動 Salesforce 今年 股價上漲的關鍵因素之一。此外這一領域的其他廠商包括 Sprinklr(CCaaS)、COMPASS(地產 CRM)、HubSpot (CRM)也推出了相關AI產品。
2)ERP/財務:ERP 系統長期以來一直都是企業的中樞神經系統,集中數據以從財務、人力資源、採購、資源和供應鏈等核心職能中獲得更好的業務洞察。ERP AI 主要體現在在能夠深入挖掘 ERP 中的龐大數據,包括生產、庫存、財務和供應鏈等,來獲得更好的業務洞察來優化企業流程。目前微軟發布了 Dynamics 365 Copilot,將 AI 引入了ERP 產品組合中,而ERP巨頭包括 Sap、Oracle 也推出了相關 AI 產品。
3)HRM/OA:與 ERP 類似,主要體現在進行數據挖掘,通過對職業軌跡、證書、學位和技能等資訊的挖掘來實現更有效的人才招聘,創建招聘所需的技能模型、經驗模型和候選人檔案,並在招聘之外,優化薪酬管理、績效管理等業務流程等,目前全球HRM龍頭Workday已經將相關 AI 功能嵌入人力資源產品中。
銷售 GPT 主要針對銷售人員,功能包括電子郵件、通話摘要的自動生成,並能夠為銷售提供銷售見解,跟進建議,後續步驟指導等。具體包括:1)電子郵件:每次客戶互動自動生成個性化且包含數據的電子郵件,銷售只需單擊一下,即可從 Sales Cloud 內部、或通過Gmail 和Outlook 自動生成包含 CRM 上下文的個性化電子郵件,精簡銷售過程中耗時但關鍵的步驟;2)自動記錄和總結通話:通過自動轉錄和總結通話以及後續行動來幫助提高銷售人員的工作效率,從而將銷售人員從手動記筆記中解放出來;3)銷售助理:總結銷售周期的每一步,從客戶研究和會議準備到起草合同條款,同時自動保持 CRM 的最新狀態,為銷售提供銷售見解,跟進建議,後續步驟指導等。4)客戶研究:針對新客戶或潛在客戶,協助銷售工作,完善公司簡介,提供公司最近的新聞,根據客戶動態拓展合作機會。
微軟將基於 AI 驅動的功能引入了 ERP 產品組合中,覆蓋財務、採購和供應鏈三大模塊,充分利用 ERP 數據,來優化預算、運營和財務、採購等企業業務流程。主要功能包括:1)財務(Dynamics 365 Finance):AI 自動進行財務整合以實現無縫結算,並通過機器學習和人工智慧支持的高級預測分析獲得高度準確的預測。財務人員可以優化績效、全面了解現金流動態,有效分配資源並為企業帶來更好的財務成果; 2)運營(Dynamics 365 Project Operations):大幅減少花在項目狀態報告、任務規劃和風險評估上的時間,快速為新項目創建新項目計劃,持續識別風險並提出緩解計劃,識別可能導致項目脫軌的常見項目風險,例如嚴重延誤或預算超支; 3)供應鏈(Dynamics 365 Supply Chain Management):主動標記可能影響關鍵供應鏈流程的外部問題,例如天氣、財務和地理。然後預測會影響材料、庫存、承運商、分銷網路等方面的訂單。 AI 能夠高效地處理大規模採購訂單的變更,並評估影響和風險,以幫助優化採購決策。同時收款人員可以快速訪問信用和付款歷史記錄,以便他們可以優先考慮和個性化客戶溝通,幫助提高成功收款率並主動保持客戶的良好信譽;
4)AI 網路安全
生成式 AI 安全的最大機會來自於安全運營的自動化程度的提升,類Security Copilot的AI 「安全大腦」將深度改變現有安全管理平台產品形態。3 月微軟發布了首個基於大模型的AI 安全大腦形態 security copilot,此後 Palo Alto Networks,Crowdstrike,Fortinet 等頭部安全廠商均發布了 AI 「安全大腦」產品,其中 Palo Alto Networks 發布了XSIAM、Crowdstrike發布了 Charlotte AI。AI 「安全大腦」所帶來的的安全運營能力提升主要體現在兩個方面,一是提升威脅檢測,即發現問題的能力,二是提升相應處置,即解決問題的效率。可預見隨著技術的不斷成熟,用戶對於安全運營自動化的需求也在不斷提升,因此相關廠商在整個安全產業中的地位將逐步提升。在 AI 驅動下,今年頭部安全廠商 Palo Alto Networks,Crowdstrike,Fortinet 的股價均有強勁表現,年初至今漲幅分別達到 74%,53%,25%。
大模型/生成式 AI 對於網路安全行業的影響與其他行業有所不同,AI 不僅僅是對於安全產品形態本身帶來改變(防守側),而且能夠通過大幅降低了安全攻擊的門檻,賦能攻擊方(攻擊側),加劇安全威脅,進而帶來用戶安全預算/行業總需求的提升。大模型、GPT、生成式AI技術將大幅降低黑客攻擊的門檻,包括批量釣魚郵件生成、批量漏洞挖掘、批量惡意代碼生成等,將顯著加劇整體威脅態勢,特別是自從 ChatGPT 推出以來,通過電子郵件網路釣魚的數量有顯著增加。同時,監管側對於文字、圖像內容的監管和審查將成為重中之重,內容安全、數據安全、流量可視等監管側需求也隨之提升。
生成式 AI 安全的最大機會來自於安全運營的自動化程度的提升。一方面生成式人工智慧被用來以比以往更快的速度創建和變異惡意軟體,大大增加了企業安全管理人員響應和處置安全問題的難度,另一方面,在一個網路安全系統的各個組成中,防火牆、端點安全等單點的安全產品已經具備了較高的自動化水平,而安全運營本就是最複雜、自動化程度最低的一環。企業安全管理人員每天都會接收到大量的告警,而依然人工處置的必然導致的結果就是:警報疲勞、調查緩慢以及攻擊在網路中隱藏且難以發現。而生成式 AI 與安全的最大機會來自於提升安全運營的自動化程度,具體體現在:1)提升安全人員水平:對於經驗不足的IT 和安全專業人員,AI可以幫助他們更快地做出更好的決策,使執行更高級的安全操作變得更加容易,能夠迅速達到高級安全人員處置安全事件的能力;2)提升安全處置的效率:安全人員水平可自動執行數據收集、提取以及威脅搜索和檢測等重複且繁瑣的任務,縮短對關鍵事件的響應時間,同時通過簡單的自然語言提示實現任何檢測、調查或響應工作流程。

全球網路安全龍頭廠商 Palo Alto Networks 近期也推出了首款完全基於AI 構建的產品XSIAM(擴展安全智能和自動化管理)。XSIAM 是⼀個雲交付的集成SOC平台,統⼀了EDR、XDR、SOAR、 ASM、UEBA、TIP 和 SIEM 等關鍵功能,將多個產品整合到⼀個集成平台中。XSIAM 是在功能上 Security Copilot 主要側重於響應處置,XSIAM 在威脅檢測上更進一步,功能更加全面,同時也能夠與 Palo Alto Networks 現有的產品組合實現更好的綁定。公司管理層表示,自全面推出了 XSIAM 以來,Palo Alto Networks 制定了第一年收入達1 億美元的目標,公司在近連續兩個季度內均獲得了千萬美元大單,其中一家大型零售商簽署了由XSIAM牽頭的4000 萬美元訂單,取代了現有的 SIEM 產品,增加了威脅情報和攻擊面管理功能,此外另一家大型技術服務商簽署了含 XSIAM 功能的 3000 萬美元訂單。一年時間還未結束,XSIAM收入已達 2 億美元,遠遠超出了此前設立的目標,XSIAM 正在成為Palo Alto Networks 在下一代防火牆之外增長最快的產品。
5)AI IT 運維
生成式 AI IT 運維主要結合點在於智能運維(AIops),提升IT 運維的自動化和智能化水平。2016 年 Gartner 首次提出了 AIOps,通過 AI 賦能 IT 運維,能夠基於已有的運維數據(日誌、監控資訊、應用資訊等),協助運維工程師更快速精準地發現故障、定位故障,並排除故障,進而提高運維效率,降低運維成本。而大模型/生成式 AI 能夠進一步提升IT 運維的自動化和智能化水平,體現在其具備更強大的數據分析能力,以及更高效的人機交互模式,目前這一領域的龍頭廠 Servicenow 已經推出生成式 AI IT 運維的相關產品,並發布了未來生成式AI 的產品路線路。目前來看生成式 AI IT 運維的產品成熟度還不夠高,未來還具備很大的提升空間。此外,隨著OpenAI 的生成式 AI 模型的應用範圍不斷擴大,用戶對於了解內部大模型的使用情況以增強大模型的性能,同時監控 API 的使用情況及 Token 的消耗以控制相關成本的需求也在快速提升。目前 Datadog 已經推出了監控各種 OpenAI 模型 API 使用模式、成本和性能的應用功能,這一領域的頭部廠商還包括了 AppDynamics、Datadog、Splunk、Dynatrace。
ServiceNow 目前已經發布了生成式 AI 解決方案 Generative AI Controller 和NowAssistfor Virtual Agent 。ServiceNow 的生成式 AI 的功能集中在兩個關鍵領域:1)意圖理解與語言生成:在生成式 AI 的支持下,ServiceNow 平台可以理解人類語言,並解釋用戶問題、投訴或請求背後的意圖;幫助服務交付人員找到更有效地完成工作,更快地解決客戶問題所需的資訊;2)知識綜合和流程自動化:ServiceNow 能夠總結和綜合資訊,從而更快地為員工或客戶提供支持,例如,如果一名員工投訴一台電腦反覆死機,ServiceNow 的運營管理平台可以將該投訴綜合為事件,為用戶提供技術支持,或促成內部/外部技術人員的協助。Servicenow目前已經發布了生成式 AI 產品路線圖,今年 9 月的新版本將包括 AI 增強的虛擬問答助手、加速配置和擴展工具,2024 年新版本將包括完整的自動化服務、自動化知識創建,以及為管理員提供生成式人工智慧。
Datadog 可監控和跟蹤 GPT 及其他大模型的 token 的消耗,幫助用戶對大模型的使用成本進行實時監控。OpenAI API 的使用主要根據 token 的消耗進行計費,Datadog通過跟蹤總token 消耗、每個請求的平均 token 數量以及每個請求的提示和完成token 的平均數量,幫助用戶了解 OpenAI 使用的主要成本驅動因素,有助於用戶發現OpenAI 成本的峰值,並監控哪些請求、團隊和應用產生的成本最高。
6)AI 軟體開發
生成式 AI 具備很強的代碼生成能力,有望重塑軟體開發產業格局。一方面,各類新興的代碼生成工具出現,包括 GPT-4 自身就具備很強的編程能力,同時包括 Github Copilot X。GPT-4 在編程能力上相較於之前版本有了很大程度的提升,除了代碼生成能力之外,在容錯空間更大的重構代碼、代碼測試以及修改bug 等環節得到了更頻繁的應用,能夠帶來研發過程中顯著的效率提升。同時包括 Github、Hugging Face、Replit 等開發者社區今年以來的項目和流量大幅增長,今年 3 月 Github 發布了接入GPT-4 的新版本編程輔助工具Github Copilot X,在之前的代碼生成等基礎功能上增加了語音擴展、智能文檔、自動告警、自動擴寫等功能,是市場上最先進的 AI 輔助編程工具。
另一方面;低代碼平台(LCAP,Low-CodeApplication Platform)與AI 的結合能夠使開發人員能夠通過少量編程或者無需編程,通過拖放圖形界面或自然語言等可視化方式,來實現快速開發和應用部署。目前低代碼市場的主要參與者,包括微軟、Salesforce、ServiceNow等企業服務巨頭和 OutSystems、Mendix 等第三方低代碼廠商,目前微軟的AI 低代碼工具憑藉自身在 AI 上的技術儲備和產品集成方面的優勢,在行業中處於領先地位。此前微軟低代碼套件Power Apps 就是 GPT-3 首批商業化應用,讓開發人員能夠通過自然語言語句簡單地生成業務查詢和邏輯,同時 Power Platform Copilot 與其他 Microsoft 產品(例如Office365、Dynamics365 和 Azure)以及第三方應用程序和數據源無縫集成,在整體解決方案上也具備明顯優勢,目前微軟已經是企業使用率排名第一的低代碼平台,此外 Salesforce、ServiceNow兩大企業服務領域的巨頭也具備非常有競爭力的低代碼產品,並將 AI 低代碼能力其集成到自身的解決方案之中。此外,OutSystems、Mendix 等頭部第三方低代碼廠商具備各自的優勢,目前均推出了生成式 AI 低代碼產品。
GitHub Copilot X 是作為目前最強大的編程開發工具之一,允許開發人員用自然語言來完成代碼生成、單元測試、代碼分析等一系列工作。早在 2021 年GitHub 和OpenAI 就合作開發了編程開發工具 Copilot,用戶可以在使用 Visual Studio Code、Microsoft Visual Studio、Vim或 JetBrains 集成開發環境,面向 Python、JavaScript、TypeScript、Ruby 和Go等編程語言,可以協助程式設計師完成自動補全代碼塊、消除重複代碼,甚至根據代碼注釋生成可運行代碼,底層模型由 OpenAI 提供支持。而今年 3 月發布的 Copilot X 是對2021 年發布的Copilot進行了升級,接入 GPT-4,更新的一系列功能包括:GitHub Copilot Chat,可實現與AI 對話完成代碼生成、代碼分析、單元測試、修復 Bug 等功能;Copilot Voice:語音擴展功能;CopilotforPull Requests:協助開發者拉取請求;Copilot for Docs:智能文檔編寫工具;Copilot forCLI:將自然語言翻譯成終端命令。目前 GitHub Copilot 提供按月或按年訂閱,個人為每人每月10美元,企業端為每用戶 19 美元。
生成式 AI 與低代碼平台的結合帶來了軟體開發在使用門檻,開發效率、自動化程度上的又一次重大提升。過去低代碼平台能夠帶來:1)應用開發門檻的降低:允許沒有技術背景的用戶創建自定義應用程序,降低軟體開發壁壘;2)速度和敏捷性:憑藉用戶友好的界面和廣泛的預構建組件庫,可以快速實現軟體開發、測試和部署,從而加快應用上線速度;3)成本效益:企業可以利用現有開發資源來開發應用程序,降低了構建和維護自定義應用程序的總體成本。而生成式 AI 對低代碼平台的賦能體現在:1)更強大的交互和生成能力,進一步降低軟體開發門檻並提升效率:生成式 AI 能夠理解自然語言,並能夠自動化生成開發流程,表單、報告等內容,並且能夠基於底層數據源,向開發者提供如何實現開發快速更改流程和改進業務運營的實用見解;2)低代碼平台能夠充分利用生成式 AI 的編程能力,防止單獨使用生成式AI 編寫代碼可能出現的許多問題:雖然生成式 AI 本身具備很強的代碼生成能力,但目前大多只用於針對簡單的應用程序編寫代碼或代碼檢查,這主要是由於生成式 AI 自身存在的幻覺等問題,難以應用於大型軟體開發工作中。低代碼平台中提供了企業級開發工具,具有內置的安全性、性能的兼容性等方面的機制,可防止開發人員在使用 AI 編程時生成存在安全漏洞或不可靠或未知依賴項的代碼。
高性能應用程序開發領域的全球領導者 OutSystems 在2022 年11 月發布了全面的基於人工智慧的開發、安全和質量分析工具,並於 2023 年 6 月發布了生成式AI 的路線圖,代號名稱為 Morpheus。 OutSystems AI Mentor System 包含了五大 AI 模塊,實現了AI 輔助軟體開發:1)代碼:輔助開發,並將其添加到開發人員的代碼中,完全配置並適應業務邏輯和上下文;2)架構:負責審查代碼以確保其符合關鍵架構標準;3)安全:負責審查代碼以識別開發過程中引入的代碼漏洞;4)性能:負責審查代碼以識別可能的性能瓶頸並確保應用始終以最高效率運行;5)可維護性:審查應用程序代碼以根除重複代碼並建議重構應用程序的機會。
7)AI 數據智能
生成式 AI 與大模型進一步強化了數據分析和決策智能在各行業的落地。數據智能本質上還是以半定製化,即產品 解決方案/諮詢服務的方式向用戶提供,這一領域的頭部廠商為全球大數據龍頭廠商 Palantir,今年推出了面向軍隊和民用領域的生成式AI 平台AIP。同時,全球主流的綜合 IT 服務商和 IT 諮詢公司均推出了生成式 AI 相關的產品及解決方案,比如IBM、埃森哲、博思艾倫等都是 Palantir 在這一領域的有力競爭者。其中,今年5 月IBM發布了生成式AI 平台Watsonx,並提供以 watsonx 為中心的完整諮詢服務,幫助客戶構建基礎模型、AIOps、DataOps和 AI 治理機制。同時,埃森哲也在今年推出了基於生成式 AI 的平台AI Navigator for Enterprise,能夠幫助客戶定義業務、做出決策、選擇模型及算法,並預構建了19 個不同行業的模型,來更好的實現 AI 技術的落地。此外,國防外包服務商雷神、BAE 以及電信運營商ATT、NTT等,結合自身的稟賦和資源也都推出了相對應的生成式 AI 產品。不同廠商在產品上有各自的側重點,比如 IBM 側重於提供底層模型能力,而埃森哲側重於諮詢服務和行業解決方案,Palantir 則是二者的結合。總體來看,數據分析和決策智能市場參與的廠商較多,除了頭部廠商之外,包括C3等許多中小型 AI 廠商都有推出相應生成式 AI 產品。未來在底層模型和算法普惠的趨勢下,比拼的重點將是客戶資源以及對垂直行業的深度理解。
美國大數據分析龍頭 Palantir 於 2023 年 4 月 26 日推出了集成大模型能力AI 平台AIP,包含軍事(AIP for Defense)和商業(AIP for Business)兩大模塊。Palantir 此前長期服務於政府部門(含軍隊)和超大型企業客戶,為其解決大規模,多業務流程、龐大數據和高複雜度問題。Palantir 兼具軟體和諮詢能力,即在提供標準化工具同時,需要向客戶派駐工程師,並根據不同客戶需求量身定製解決方案。AIP 作為 Palantir 繼 Gotham、Foundry 和Apollo之後的第四款平台產品,與 Palantir 此前的商業模式保持一致,有標準化的模塊,且需要深入用戶的業務流程進行一定的定製化開發與部署。AIP 能夠將 OpenAI 的 GPT-4 和谷歌的BERT等大模型(LLM)集成到用戶私有網路中,產品端由三大核心模塊構成:底層是AIP Code:集成了底層的大模型能力的人工智慧系統,匯集了用戶端與其業務相關的實時的數據,包括所有操作、決策和流程;中間層是 AIP Action Graph,包含了許多處理的特定任務模型;上層是AIPControl Plane,與用戶通過自然語言等方式進行交互,調用底層平台能力,對需求及數據處理後,面向用戶進行可視化呈現。
AIP 在商業領域也能夠實現廣泛應用。根據 Palantir 的演示案例,AIP能夠幫助某製造業企業來分析其配送中心網路在颶風的影響下是否需要加快、延遲或取消客戶的訂單,是否需要增加額外的卡車來提升交貨量,可以採取的其他補救措施,並且AIP 能夠給出建議和模擬行動方案,及其估計費用,並且預測不同情況下對客戶訂單和收入的影響。全部過程都能夠通過自然語言等方式實現交互,並且能夠為決策者提供高度可視化的呈現。
8)AI 數字代理
AI Agent 指在大模型支撐下能夠自主理解、規劃、執行複雜任務的AI 系統。今年3到4月的 Camel、AutoGPT、BabyAGI、GPT-Engineer、西部世界小鎮等多個AI Agents集中發布引發了 AI Agent 熱潮,特別是熱度最高 AutoGPT 在完全無需用戶提示具體操作的情況下,就能完成日常的事件分析、營銷方案撰寫、代碼編程、甚至網站創建等複雜任務,在一定程度上展示了以大模型為基礎作為來構建 AI 系統的能力,即大模型不僅限於生成各種文本內容,還能夠解決各種通用的問題,並可以應用於各個領域。同時,目前已發布的AI Agent 仍以第三方廠商為主,而 OpenAI、Meta、Google 等人工智慧巨頭也開始在布局這一領域。至今已發布的AI Agent仍以通用 AI Agent 居多,通用 AI Agent 在使用成本、速度、技術成熟度上仍存在一定的局限,能力還在不斷完善中。而垂直領域的 AI Agent 相較於其他的通用AI Agent 在結構和功能上更加簡單,速度更快且成本更低,預計將實現更快的落地,比如 8 月初HyperWrite 開發的AI Agent主要側重於網頁端,功能相較於通用 AI Agent 更為簡單,能夠完成包括訂餐廳、訂機票等任務,其中包括自行查找地址,填寫郵編,付款完成訂單等操作。

AI Agent 由規劃、記憶、工具三大核心功能組件組成。具體來看:1)規劃(Planning):Agent 需要將大型、複雜任務分解為多個小型、簡單的子任務,需要調用相對應的算法來進行目標制定、目標優先級、目標分解等工作,在此基礎上來分配資源和優化決策,同時Agent 需要具備自我調整和修正的功能,不斷優化自身的行為來持續提升決策的質量;2)記憶(Memory):Agent 擁有短期記憶和長期記憶的能力,以完成資訊獲取、儲存、保留、檢索的任務,這與人類的記憶結構構成存在相似之處;3)工具(Tool):大語言模型本身具備文本理解和生成能力,代理需要調用外部 API 接口來執行不同的功能,包括搜尋引擎、計算器、日曆查詢等,通過模擬人類使用工具的方式,來完成複雜的任務。
9)AI 金融
生成式 AI 技術在金融領域的主要應用為數據分析工具,通過對金融大數據的挖掘來實現知識洞察,典型應用包括證券領域的智能投顧,銀行領域的智能風控等。與此同時,金融行業的特性決定了對比於通用大模型,垂直行業大模型在金融領域有著更加有效的應用,一是由於安全及隱私保護要求金融數據大多存儲在本地,通用大模型在缺乏必要的訓練數據,二是金融行業在風控、精度等方面要求較高,系統又比較複雜,數據實時性的要求很高,通用大模型的金融常識、安全性和準確性都難以達到要求,因此今年彭博社推出了專為金融行業從頭打造的500億參數大語言模型 BloombergGPT,訓練數據來自於彭博社的財務數據,涵蓋了金融領域的一系列主題,生成了 7000 多億個標籤的大型訓練語料庫。BloombergGPT 在金融領域的任務普遍擁有著超過通用大模型的表現。
銀行:多用於智能風控,應用於信貸風險預警、反欺詐、反洗錢等環節。通過生成式AI技術,對客戶的信用歷史、行為特徵及社會關係等數據進行分析,能夠有效挖掘風險因素,提高欺詐行為識別的準確率、風險控制的精準度等。目前有 AI4Finance 開源模型FinGPT,可以應用於管理金融風險、檢測金融詐騙等。 營銷/客服工具:營銷方面:生成式 AI 技術不僅能夠一鍵生成金融產品營銷文案,還能主動挖掘客戶需並推薦適配產品,同時創建報價和安全付款等鏈接,提高金融產品的營銷效率。如,Lemonade 的銷售機器人瑪雅;客服方面:可應用於信貸、理財、保險產品等多個業務環節,利用生成式 AI 技術分析用戶情感,與用戶進行多輪複雜對話,為客戶提供精準資訊。主要產品有Helvetia 的 AI 客服 Clara、Kyber 的自動化保險助手等。
AI 金融應用標杆: 4 月 20 日, Stratosphere 推出了金融分析工具FinChat,FinChat覆蓋了超過 5 萬家公司,以及 200 多個財務指標等相關數據,具有基本面分析、股票篩選、可視化數據、財報摘要生成等功能,以對話的方式與投資者進行交互。具體來看,
1)基本面分析: FinChat 基於用戶問題,能夠提供毛利率、營業利潤、營業收入、資本支出、銷售量等基本面相關數據,同時以表格、折線圖等可視化的形式呈現。如,用戶在FinChat對話框內提出「特斯拉賣了多少輛 Model 3,利潤率多少?」,FinChat 則會即時生成特斯拉的Model3 的銷售量和毛利率數據,並附上相關數據表格、折線圖,同時還能選擇季度、年度等時間維度。
2)股票篩選:個人付費版內容,用戶以自然語言對話的形式,提出相關篩選條件,FinChat則會直接生成篩選後的結果。如,用戶提出「提供一份在過去5 年中收入每年增長超過10%、回購股票且市值低於 1000 億的美股。」,FinChat 則會提供對應美股列表,包括市值、每股收益、增長率等數據;
3)財報摘要生成:FinChat 根據用戶的自然語言所提要求可以生成相關財報總結摘要,同時相關財務數據能以可視化形式展現。比如提出「總結微軟上一季度的雲業務,包括首席執行官薩蒂亞·納德拉的成就。」 FinChat 則會根據微軟的相關財務數據進行總結,並將數據可視化,生成包括微軟整體收入結構柱狀圖、雲業務收入及增速折線圖、表格等。
FinChat 目前實現了 C 端收費,並根據提問次數和功能的不同分為免費和付費兩個版本,同時對於企業用戶還可提供 API 接口進行產品自建。具體地,1)個人用戶:免費版本每天10次免費提問,包括財務分析、新聞點評、估值分析等基礎功能;付費版本20 美元/月或者200美元年,在免費功能的基礎上擴充了股票篩選器和盈利日曆功能,並且問答次數提升至50次。2)企業用戶:包括個人版的全部功能,同時提供關鍵績效指標和細分數據,並支持外部數據導入,且能夠為企業提供 API 接口自建 AI 產品,收費標準和提問次數獨立獨立確定。
10)AI 醫療
AI 醫療通常應用於醫藥研發、醫院診療、醫療器械等場景,其中化合物合成、靶點發現等為本次生成式 AI 變革的新應用,電子病歷、輔助問診等醫院診療為AI 常用場景,CT、MRI等醫療器械在生成式 AI 賦能下進一步增強。AI 醫療參與者眾多,除了谷歌、微軟等科技巨頭的加入,還包括 Sensely、Enlitic 等醫療科技公司、AbSci、Exscientia 生物醫藥初創企業,以及賽紐仕等 CXO 企業,市場較為分散。
1)醫藥研發:生成式 AI 的數據生成、預處理等功能給藥物發現中的靶點發現、化合物合成帶來了突破性進展,而化合物篩選、晶體預測等臨床前研究的應用還未完全成熟。通過AI 大模型一是能夠根據所需功能和結構生成新型小分子、核酸序列和蛋白質,用於判斷不同維度的生物資訊,同時能夠在電腦中進行擬合優化,以適應特定的靶點;二是生成式AI 可以生成化合物結構,並生成分子庫進行虛擬篩選,但目前化合物篩選領域的應用並未完全成熟。代表性產品包括 AbSci、Integrated Drug Creation、CentaurAI 等。此外,醫藥研發還包括臨床試驗、審批上市、銷售等環節,利用生成式 AI 技術能夠有效提高其生產效率。

2)醫院診療:醫院診療是目前 AI 醫療的常用場景,但多用於電子病歷、輔助診療、數據分析等對患者影響小、風險低的場景。一方面,院內包括電子病歷、輔助問診、導診分診等場景,利用生成式 AI 技術整理文字、圖像等多模態醫療資訊,自動化生成病例、藥方、提供診療建議等;另一方面,院外包括網際網路醫院、保險機構等,基於生成式AI 分析醫療記錄、預測病情發展趨勢、健康管理等,以提高數據分析效率,以及優化人機交互。主要有Epic Systems公司的電子病歷 MyChart 和自助報告工具 SlicerDicer、AWS HealthScribe、DAX Express、HippocraticAI 等。
3)醫療器械:過去 AI 用於包括 CT、MRI 等與圖像類有關的診療一體化器械相對成熟,而生成式 AI 在此基礎上進一步增強了處理 X 射線、CT 掃描和MRI 等醫學圖像的非結構化數據的能力,提高醫療影像分析的精細度。此外,AI 醫療機器人,包括手術機器人、康復機器人、輔助機器人等,通過生成式 AI 技術能夠輔助外科醫生進行手術、康復訓練等,提高醫療質量。目前,主要有 HeartFlow FFRcT Analysis、Medis Suite MR、CVI 42 等產品。
11)AI 教育
生成式 AI 在教育領域的應用根據功能的不同分為語言學習、在線課程、學習工具三個層面,而目前應用最多的是語言學習和學習工具,主要在於具有多語言理解、多輪對話能力的大模型天然適配語言學習和學習工具場景。同時,教育領域的商業化模式較為成熟,生成式AI 技術的注入將為其帶來價值量的躍升。
1)語言學習:語言學習是目前與生成式 AI 最契合的教育場景,技術和商業模式都相對成熟。通過生成式 AI 的多語言理解和多輪對話的能力,學習者不僅可以以多輪對話的形式進行多語言交流、聽力、寫作等語言訓練,還可以生成評估報告並對學習者進行糾錯。代表性產品有DuolingoMax、Elsa AI、AI Tutor 等。
2)學習工具:學習工具在技術上已經具備一定的成熟度,包括拍照搜題、知識檢索等場景。基於生成式 AI 技術,學生一是可以針對難題進行拍照搜題,識別並解析正確答案;二是對於不懂的知識點,學生可以通過對話、圖片識別等形式進行答案的快速檢索。目前,主要產品有Ginny、PhotoMath、CheggMate、Q-Chat 等。
3)在線課程:生成式 AI 技術一方面,輔助教師進行課程規劃,並自動生成教案以提高備課效率;另一方面,對學生進行模擬一對一輔導課程,提供個性化的支持。目前產品主要有Udemy、Khanmigo、Embibe Lens 等。
生成式 AI 在語言學習和學習工具場景上率先商業化,在線教育場景旨在改善其現有功能,這主要與生成式 AI 在內容生成、多語言理解等能力有直接關係。其中,語言學習龍頭廠商Duolingo 基於生成式 AI 推出的 Max 版本相較 Super 版本新增了兩個AI 功能,且訂閱價格也從6.99 美元/月漲至 30 美元/月,同時也帶動了 Duolingo 股價的上漲,年初至今漲幅最高超109%;學習工具 Khanmigo 功能 9 美元/月,Q-Chat 訂閱標準為 7.99 美元/月,CheggMate計劃定價在15.95 美元-19.95 美元之間。

12)AI 工業
由於工業場景較為複雜,各細分領域生產流程、配置、產品類型等差異較大,且生成式AI主要基於自然語言進行代碼生成、圖像生成等功能,因此當前AI 大模型在工業中的應用仍處於探索階段,主要聚焦在研發設計、生產製造、運維管理三個層面。目前,生成式AI 多用於研發設計中的創成式設計、草圖生成等輔助類設計的應用,以及運維管理中業務流程資訊化CRM、ERP 等軟體,生產製造環節由於生產環境的安全性與穩定性要求較高,生成式AI 技術應用還不成熟。從工業大模型參與者來看,研發設計和生產製造仍然是以Dassault、PTC、SIEMENS、Autodesk 為代表的工業軟體廠商,運維管理則是企業服務相關廠商。
1)研發設計:研發設計端目前是生成式 AI 技術應用最有可能突破的細分領域,其中創成式設計、草圖生成、效果圖渲染等輔助類設計已經實現初步應用。一方面,生成式AI 能夠根據設計師提供的設計約束條件,包括設計材料、載荷位置等,以更快地速度和更少的錯誤率生成設計方案,提高研發設計效率;另一方面,生成式 AI 助力草圖繪製、結構設計仿真等環節,能夠根據工程師的需求生成設計草圖,同時快速讀取文本數據並提取所需特徵及資訊,降低圖像生成、數據處理等環節成本。目前,Dassault、PTC、SIEMENS、Autodesk 等廠商在其主流的CAD產品中內置了創成式設計模塊,且具備 AI 輔助創建草圖功能。
2)生產製造:生成式 AI 技術可應用於生產工藝優化、需求分析預測、產品質量檢測、生產計劃調度、自動化控制等環節,但由於工業環境的複雜,對於生產製造環境的安全性與穩定性要求更高,因此生成式 AI 技術在該層面的應用較為緩慢。其中,需求分析檢測等與數據分析場景相關的應用將率先落地,而未來隨著 AI 大模型魯棒性能的提升,產品質量檢測、生產計劃調度、自動化控制等環節也將顯著增強。目前,以 SIEMENS 為代表的工業軟體廠商已經開始利用生成式 AI 技術進行產品質量檢測、自動化控制等。具體來看,
一是需求分析預測,工程師可以通過自然語言交互提取歷史數據、查找產線資訊等,並根據對應數據、資訊進行關聯分析以制定生產計劃,提高生產效能。二是產品質量檢測,包括增強視覺檢測能力、缺陷樣本生成、檢測報告生成。其中,增強視覺檢測;使用 AI 大模型提高模型的泛化能力,提高視覺檢測在質檢、安全監測的精確度;缺陷樣本生成:生成式 AI 能夠生成模擬檢測圖像缺陷樣本,提高工業檢測準確性;檢測報告生成:自動檢測並對結果進行分析,同時生成檢測報告; 三是生產計劃調度,主要應用於工業生產排產與調度,利用AI 大模型能夠優化工業生產的排產、生產、物流調度等流程,提高生產效率; 四是自動化控制,基於自然語言自動生成 PLC 控制代碼,提高開發效率。
3)運維管理:生成式 AI 賦能工業產品研發、生產、服務和管理過程中業務流程資訊化的工業軟體,包括 CRM、ERP、SCM、QM 等運維管理類軟體,大幅提升工業管理效率。目前,CRM、ERP 等管理類軟體應用相對成熟,其中,CRM 代表廠商有 Salceforce、Sprinklr、HubSpot等;ERP 主要包括微軟 Dynamics 365 Copilot、SAP 等。 AI 應用參與者包括工業軟體廠商、網際網路科技廠商、平台廠商等,由於工業場景的複雜度,很多數據不可讀取,因此工業軟體廠商、平台廠商與具備大模型能力的網際網路科技廠商進行合作,加速生成式 AI 在工業領域的應用。由於工業場景複雜度較高,且細分領域產品類型差異較大,因此通常採用合作的方式進行工業大模型的研發。其中,工業軟體廠商具備工業場景數據優勢,而平台廠商具備工業機理與實時生產數據雙重優勢,通過與具備AI 大模型能力的網際網路科技廠商合作,能夠快速滲透工業領域構建大模型。
13)AI 汽車
AI 汽車主要應用於智能座艙與自動駕駛兩大領域,其中生成式AI 技術率先應用於座艙內部用於人機交互的車載語音助手,以及自動駕駛數據自動標註、感知規控算法算法的疊代。其中,智能座艙市場格局較為分散,目前以梅賽德斯奔馳等主機廠,以及Cerence等語音開發廠商為代表的座艙語音助手已經實現了生成式 AI 與汽車的集成;自動駕駛AI 大模型的研發主要有主機廠、科技廠商、初創公司,目前以特斯拉為代表,採用基於Transformer 模型的占用網路(Occupancy Network)感知算法,實現了感知算法端到端的大模型架構開發。具體地,智能座艙:生成式 AI 主要帶來了座艙內部人機交互的變革,主要體現在車載語音助手。過去座艙內的語音交互需要固定順序的詞彙激活系統作出對應指令,而生成式AI 能夠主動識別用戶語言,包括喚醒詞在語音指令不同的位置,並根據用戶偏好進行反應,大幅增強用戶交互體驗。目前,梅賽德斯奔馳預計於今年發布的 M...