當前,生成式AI正處於快速發展的階段,成為引領全球科技發展的重要驅動力之一。伴隨生成式預訓練模型、擴散模型、RLHF、RAG等技術的不斷突破,AI大模型的普及程度不斷加深,為創意、傳媒、教育、娛樂、辦公、製造等多個領域帶來前所未有的變革。生成式AI的蓬勃發展,不僅吸引全球科技巨頭和初創企業的廣泛參與,也引發各國政府和學術界的高度關注。基於上述背景,至頂智庫將進行深入研究,推出全球生成式AI領軍企業的系列研究,為關注生成式AI產業發展的各界人士提供參考。
近日,關於生成式AI領軍者OpenAI的新聞也成為關注焦點。據華爾街日報報道,OpenAI將迎來新一輪融資,領投機構Thrive Capital將投資10億美元,此輪融資後OpenAI估值將達到1030億美元。此外,蘋果公司(Apple)和英偉達(Nvidia)也正在洽談投資OpenAI,此舉將加強科技巨頭與OpenAI的合作關係。

本期揭秘全球AI大模型領域的領軍者—OpenAI。公司成立於2015年,是一家位於美國舊金山的人工智慧研究公司,現由營利性公司OpenAI LP及非營利性母公司OpenAI Inc組成,核心宗旨是「創建造福全人類的安全通用人工智慧(AGI)」。作為AIGC領域的先驅,OpenAI通過持續加大技術研發,不斷推出重磅AI應用,並與科技巨頭如微軟、蘋果等展開深度合作,OpenAI不僅鞏固其在全球AI行業中的領導地位,也推動了生成式AI技術在各行業的廣泛應用。

從OpenAI創立到與Microsoft深度合作
2015年夏天,矽谷最有影響力的人物聚集在斯坦福大學附近的會議室,會議由矽谷孵化器YC掌門人Sam Altman發起,目的是聚集人工智慧領域最頂尖的研究員,探討共同建立AI實驗室。參與會議的包括Google Brain的人工智慧研究員Ilya Sutskever,網際網路支付處理平台Stripe公司的首席技術官Greg Brockman等。之後,十位人工智慧領域的頂尖學者宣布加入。2015年底,YC總裁Sam Altman、Strip前CTO Greg Brockman、LinkedIn創始人Reid Hoffman、YC聯合創始人Jessica Livingston、著名投資人Peter Thiel、特斯拉創始人Elon Musk、亞馬遜AWS、Infosys和YC Research宣布成立OpenAI,並承諾投資超過10億美元。
OpenAI總融資額超140億美元,微軟與OpenAI的合作逐漸加深。公司在成立不到十年的時間裡,OpenAI的估值達到近千億美元。其中,微軟作為最大的投資者和合作方,先後對OpenAI進行3次投資,金額達到130億美元。2019年7月,微軟與OpenAI建立獨家雲計算合作關係,並對其投資10億美元。2021年1月,OpenAI宣布從微軟獲得20億美元的額外投資,並與其簽署了一項長期合作協議,將GPT-3模型作為微軟雲計算伺服器Azure的獨家許可方。2023年1月,OpenAI獲得微軟100億美元的巨額投資。2023年3月,微軟發布Microsoft Copilot,Copilot搭載OpenAI最新的GPT-4模型,全面賦能工具軟體和企業服務場景。2023年5月,OpenAI與微軟合作在Azure AI超級計算平台上部署ChatGPT,提供更高效和可擴展服務。



OpenAI核心技術和產品的創新軌跡

GPT-1: 開啟生成式預訓練模型時代 (2018年6月)
GPT-1基於Transformer架構,僅使用了其解碼器的部分。GPT-1訓練包括兩個階段:
(1)第一階段 預訓練(pre-training):使用來源於BookCorpus總共4.5GB的7000多本書籍作為數據集,進行無監督訓練。
(2)第二階段 微調(fine-tuning):以文檔,問題,答案作為三元組標註,針對不同任務進行有監督的微調訓練。參數量為1.17億。
GPT-2:探索零樣例無監督訓練(2019年2月)
GPT-2 為了提高泛化性,取消了微調,嘗試不提供樣例即zero-shot方法,以更大參數和數據集作為補償進行訓練。GPT-2在來源於Web總共40GB的800萬文檔數據集上進行預訓練。參數量為15億。
GPT-3:採用few-shot訓練效果進一步提升(2020年5月)
GPT-3的訓練放棄zero-shot方法,特定任務採用few-shot提供10-100個少量樣例,仍然不進行微調。多種數據集 (包括Common Crawl, Wikipedia等) 作為來源,用於GPT-3的訓練,其中高質量的數據採樣頻率更高以保證訓練質量。參數提高到1750億時,模型準確性更高。OpenAI開始提供接入GPT-3的API,其他廠商可以將其集成於自己的產品中,並按需收費。
ChatGPT:具備強大對話能力,推動AI模型商業化落地(2022年11月)
ChatGPT發布加速本次AIGC浪潮的爆發。對話的互動形式,使得ChatGPT能夠回答後續問題,承認錯誤等。基於InstructGPT並採取類似的訓練方式,主要訓練過程包括:利用標註數據進行有監督訓練、採用基於人類反饋的強化學習(RLHF)訓練獎勵模型(RM)、利用獎勵模型(RM)和近端策略優化(PPO)輸出答案。

GPT-4:識別2.5萬Token的多模態模型(2023年3月)
GPT-4是一個大規模的多模態模型,可以接受文字和圖片作為輸入,在含有文本和照片的文檔、圖表或螢幕截圖等領域中表現出色。GPT-4可以在創意和技術寫作任務中與用戶一同生成、編輯和疊代,例如創作歌曲、編寫劇本或者學習用戶的寫作風格。GPT-4生成的回答準確性更高、理解能力更強、安全性更加可靠、生成內容更加豐富。GPT-4在大規模多任務語言理解測試中(MMLU)得分86.4%,在評估在評估代碼生成和解決問題能力的HumanEval基準測試中得分為67.0%,在小學數學問題GSM-8K上得分為92.0%,相對於GPT-3.5有大幅提升。

GPT-4o:旗艦多模態模型(2024年5月)
GPT-4o是一個全新的跨文本、語音、視覺的端到端模型, 所有的輸入和輸出由同一個神經網路處理,接受文本、語音、圖像、影片的組合作為輸入,可輸出文字、語音、圖像的組合。GPT-4o支持實時語音交流,平均響應時間為320毫秒,與人類對話的反應時間相似,能察覺用戶的語調,包括悲傷、興奮等。GPT-4o還可以扮演不同角色、影片實時互動解方程、快速解決代碼難題。

DALL·E 3:OpenAI最強文生圖模型(2023年10月)
DALL·E 3是一個文本生成圖像模型,構建在ChatGPT上,用ChatGPT創建、拓展和優化 prompt,節省用戶編寫prompt時間。DALL·E 3能生成更高質量的圖像,更準確地反映提示詞內容。其他文生圖模型難以遵循細節圖像描述,存在漏詞和誤解提示詞的問題。DALL·E 3團隊通過訓練定製的圖像描述器來解決此問題,並用此圖像描述器對訓練數據集進行重新描述。通過訓練多個文本生成圖像模型,基於多個合成的描述進行訓練能夠可靠地提高模型對提示詞的遵循能力。

Sora:高質量長影片生成模型(2024年2月)
Sora是一種文生影片模型,顯著特點是能夠生成時長一分鐘的高保真影片、在時間上向前或向後擴展影片、可修改輸入影片的風格和環境、可連接兩個輸入影片在不同主題和場景構成的影片之間無縫過渡。Sora主要採用影片壓縮網路、時空碎片、擴散Transformer(DiT)等技術。高維的影片被編碼器壓縮進低維潛在空間,並分解為時空碎片。Sora在此壓縮的潛在空間內訓練並生成影片,隨後解碼器將生成的潛在數據映射回像素空間。擴散Transformer(DiT)模型通過從一個看起來像靜態噪聲的影片開始,逐步通過在多個步驟中去除噪聲來生成影片。

OpenAI商業模式
OpenAI商業模式可分為to C(面向個人用戶)和to B(面向企業和機構用戶)兩部分,To C 以訂閱服務為主,To B以訂閱服務、許可協議和API為主要合作方式。針對個人用戶的 to C產品方面,主要是ChatGPT的Free和Plus兩個版本的訂閱服務。其中Plus版本,訂閱費用為每月20美元,提供GPT-4、GPT-4o、GPT-4o mini、DALL?E等4種模型的使用權限,以及創建和使用GPTs的功能。


面向團隊、企業和學校方面,OpenAI提供的相關產品主要分為兩類:一類是ChatGPT Team、Enterprise、Education三個版本的訂閱服務;另一類是多種產品的API接口服務。
其中Team版本,按團隊中每人每月收取30美元,包含Plus版本的所有權益並增加了可在工作區中分享GPTs、用於工作區管理的管理控制台等權益;Enterprise企業版本則需要跟OpenAI銷售人員協商價格,包含Team版本的所有權益並增加了無限量使用4種模型、擴展的上下文窗口、增強的支持和賬戶管理等權益;Education教育版本採取與高校定向合作的方式,提供比Free版本更高的模型使用限額,還可創建用於項目、課程和任務的GPTs並在學校工作區共享,同時享有增強的支持和賬戶管理的權益。



除訂閱服務,OpenAI還開放多種模型的API接口供企業調用,包括GPT-4o、GPT-4o mini、圖像模型DALL·E 3、語音合成模型Whisper等。其中GPT-4o和GPT-4o mini採取常見的根據輸入和輸出的token總量進行計價的方式;DALL·E 3根據生成圖片的質量和解析度,按圖片張數收費;Whisper模型根據合成語音時長計時收費。

OpenAI-ChatGPT在全球大模型網頁版的月均訪問量和月均訪客數方面均位居首位,行業地位穩固。至頂智庫選擇全球主流大模型ChatGPT、Gemini、Claude、文心一言進行分析,根據similarweb網站數據,2024年月均訪問量位居首位的是OpenAI-ChatGPT,達到11.7億次,月均訪客數為9600萬;排名第二的是Google-Gemini,達到3.3億次,月均訪客數為4100萬;國內的百度文心一言月均訪問量為1700萬次,月均訪客數為320萬。

OpenAI的創始團隊
OpenAI創始團隊包括11位重要成員:CEO Sam Altman、聯合主席Elon Musk、首席科學家Ilya Sutskever、CTO Greg Brockman、研究科學家Trevor Blackwell、 技術人員Vicki Cheung、研究科學家Andrej Karpathy、Durk Kingma、研究科學家John Schulman、 技術人員Pamela Vagata 和 研究科學家Wojciech Zaremba。具體請見下圖。


OpenAI的未來之路
伴隨今年6月蘋果WWDC 2024大會舉辦,OpenAI與蘋果的合作塵埃落定,GPT-4o作為蘋果消費電子產品的首選搭載模型。GPT-4o模型在蘋果產品的具體應用體現在如下方面:1)Siri支持調用ChatGPT,如菜品靈感、家裝建議等,可以讓ChatGPT快速給出答案。2)蘋果將ChatGPT融入蘋果全產品系列適用的寫作程序中,讓用戶分分鐘搞定帶插圖的小故事。蘋果對於GPT模型的調用免費且方便易用,用戶不必創建賬戶就可以免費使用ChatGPT。此外,ChatGPT訂閱用戶也能關聯個人賬戶,並在蘋果設備中使用相關產品時接入付費功能。ChatGPT將集成在iOS 18、iPadOS 18和macOS Sequoia中,將會在2024下半年推出。至頂智庫認為,OpenAI與蘋果加強合作,將進一步擴大OpenAI相關產品的應用範圍,持續加深與全球消費電子巨頭的合作,一方面會給公司帶來更多的用戶群體,另一方面也會帶來穩定的收入來源,利好公司長期發展。

OpenAI下半年計劃推出「草莓」,將進一步提升公司的AI產品性能,並通過合成數據持續增強模型能力。2024年8月,根據The Information報道,OpenAI研究人員計劃推出一款新的AI產品,預計該產品在解決複雜問題的能力上將超越現有產品。研究人員計劃在今年秋季推出這款內部代號為「草莓」的新AI產品,其可能會作為ChatGPT的功能推出。知情人士表示,OpenAI還在利用「草莓」的更大版本生成用於訓練 Orion 模型的數據,這種 AI 生成的數據被稱為「合成數據」,意味「草莓」可以幫助 OpenAI緩解從網際網路獲取高質量訓練數據的挑戰,「草莓」還可能有助於即將推出的OpenAI智能體減少幻覺。至頂智庫認為,即將發布的「草莓」將標誌 OpenAI 在AI推理能力方面實現又一次突破,無論是對現有的 GPT-4模型性能改進,還是對未來的 Orion 模型提供支持方面,「草莓」都將發揮關鍵作用。

在產品開發和各項合作快速推進的勢頭下,OpenAI面臨成本支出過高,虧損問題持續的嚴峻問題。根據美國科技媒體The Information測算,OpenAI在2024年的成本支出將高達85億美元,結合FutureSearch預估34億美元的收入,其2024年的虧損也將高達50億美元。按照FutureSearch測算,OpenAI的收入主要分為四大部分,其中面向普通用戶的ChatGPT Plus訂閱收入約19億美元,占總收入的55%;面向大型企業客戶的ChatGPT Enterprise貢獻約7億美元的收入,占比21%;API接口服務貢獻約5億美元收入,占比15%;面向中小企業和團隊用戶的ChatGPT Team貢獻約3億美元收入,占比約8%。訂閱收入仍然是OpenAI最主要的收入來源,占到其總收入的84%。FutureSearch顯示,OpenAI每月的付費用戶約為988萬,其中770萬是ChatGPT Plus用戶。至頂智庫認為,雖然OpenAI持續推出重磅AI產品,不斷加大研發投入,但商業化不及預期的問題依然嚴重,公司亟需尋找可以長期商業化變現的手段,加強與全球領軍軟硬體廠商的合作,通過建立完整產品生態,不斷穩固公司在行業內的長期領先地位和可持續發展能力。
