宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

人類真能控制AI嗎?深度解析大模型價值對齊

2024年02月14日 首頁 » 熱門科技

60多年前,人工智慧先驅諾伯特·維納(Norbert Wiener)曾說:「如果我們使用一台無法有效干預的機器來實現目標……我們最好非常確定,機器的目的與我們的真實意圖一致。」

如今,人工智慧正變得越來越強大,我們如何確保它能夠遵循人類的意願行動?

以ChatGPT為例,為什麼它表現得善於交談、樂於助人,並且避免生成可能對人類造成傷害的資訊?

這並非偶然,這種「性格」並不是由模型龐大的訓練數據集自動生成的,而是通過一種稱為人類反饋強化學習(RLHF)的技術實現的。

RLHF如今已成為控制和引導人工智慧模型行為的主要方法,尤其在語言模型上。這項技術的應用影響著今天全球人們使用人工智慧的體驗。與此同時,新的方法也在迅速湧現,尋找改進和替代RLHF的方法也成為人工智慧發展的重要方向。

RLHF:簡要概述

儘管涉及複雜的技術細節,但RLHF的核心概念相對簡單:通過微調,使人工智慧模型按照人類提供的一組特定偏好、規範和價值觀來行動。

如今被廣泛引用的是由Anthropic研究人員提出的一組目標——讓人工智慧模型「有幫助、誠實且無害」——例如阻止模型發表種族主義言論或幫助用戶違法。

RLHF可以根據需要賦予模型不同的個性,讓它更真誠或諷刺,還可以重新定位模型的最終目標,比如將一個中立的語言模型轉變為意圖銷售特定產品的模型。

現在的RLHF由OpenAI和DeepMind的研究團隊在2017年定義的。最初,RLHF的研究重點並非針對語言模型,而是機器人技術和雅達利遊戲。但在過去幾年裡,OpenAI已經將其發展成一種將大語言模型與人類偏好對齊的方法。

2022年初,OpenAI通過將RLHF應用於基礎的GPT-3模型,創建了InstructGPT模型,被廣泛認為比基礎的GPT-3更好用,而它的大小僅為GPT-3的千分之一。

但真正讓RLHF大放異彩的,是隨後推出的ChatGPT。

2022年11月,ChatGPT發布後迅速成為史上增長最快的消費級應用。其基層架構並不新鮮,已在OpenAI的Playground上公開了數月。而ChatGPT之所以大受歡迎,主要是憑藉親切的交互方式、擅長遵循指示以及實用性,這些就要歸功於RLHF。

自那時起,RLHF就成了開發尖端語言模型的關鍵技術,從Anthropic的Claude到Google Bard再到Meta的Llama 2,都有所體現。

Meta研究人員在Llama 2的論文中說:「大語言模型在某些任務表現出的卓越寫作能力,甚至超越人類,這從根本上是得益於RLHF。」

那麼,RLHF即人類反饋強化學習是如何工作的?

我們先來回顧下訓練大語言模型的三個階段:預訓練、監督式微調和RLHF。

人類真能控制AI嗎?深度解析大模型價值對齊

訓練大語言模型的三個階段 | 來源:Twitter

預訓練階段,是構建大預言模型最耗時和計算最密集的環節,需要將模型置於海量文本語料庫中,訓練它預測接下來的詞語。以InstructGPT為例,預訓練階段占模型開發總資源的98%,其他兩個階段僅占2%。

在監督式微調階段,模型會基於更精細、質量更高的數據集,對原始的預訓練模型進行微調。

接下來,便進入了RLHF的流程。其實從技術上講,可以直接在預訓練模型上進行RLHF,也可以僅進行監督式微調。但從實踐中發現,結合使用這兩種方法效果最佳,而且RLHF使用的偏好數據更容易大規模地收集。

RLHF的實施主要可以分為兩步。首先是建立獎勵模型,目的是對主模型的輸出結果進行評估。獎勵模型的訓練依賴於從人類參與者收集的偏好數據,這些數據通常是讓人們在給定的響應中做出選擇,指出他們更偏向哪一個。經過足夠規模的訓練後,獎勵模型能夠對主模型任何的輸出賦予一個數值評分,表明其優劣程度。

訓練完獎勵模型,第二步是微調主模型,生成能獲得獎勵模型高評分的回應。這一步通過強化學習來實現,其中最常用的算法是OpenAI在2017年發明的近端策略優化(PPO)。當然,為了防止模型走向異常結果,這一步通常會設定一些約束,禁止模型過於偏離原有基線。

經過這些處理後,最終得到的便是一個通過RLHF校準的模型,與人類的偏好和價值觀相一致。但要注意的是,使用PPO的RLHF實施過程充滿挑戰,幾乎只有世上最先進的人工智慧研究團隊才能實施。因此,研究人員也在尋求其他替代方法。

DPO的興起——不需要強化學習

2023年,斯坦福大學研究人員發表了一篇論文,其中介紹了一項名為直接偏好優化(DIRECT PREFERENCE OPTIMIZATION,DPO)的新技術,他們認為該技術對基於PPO的RLHF有了重大改進。

DPO的提出在人工智慧研究領域迅速獲得關注,特別是關於「PPO與DPO」的比較,激發了廣泛的討論。

DPO的魅力何在?為何它被認為具有如此大的潛力?

簡單說,其核心吸引力在於簡潔性,這種方法摒棄了訓練獎勵模型和強化學習,簡化了模型對齊的過程。

DPO與PPO都需要大規模收集人類成對偏好數據,來推斷人類偏好和規範。但DPO的革新之處在於,通過巧妙的數學計算,直接利用這些偏好數據來調整語言模型,無需訓練單獨的獎勵模型,再通過強化學習轉移到主模型。

人類真能控制AI嗎?深度解析大模型價值對齊

 與RLHF相比,DPO極大簡化了模型調整過程 | 來源:《DIRECT PREFERENCE OPTIMIZATION》

簡而言之,研究人員使主模型「履行雙重職責」充當自己的獎勵模型,在實驗中,DPO在模型對齊方面的表現與PPO相當甚至更好。

人工智慧領域權威學者吳恩達對此評價:「讀完《DIRECT PREFERENCE OPTIMIZATION》(DPO)這篇論文後,我想向作者起立鼓掌。」

他進一步指出:「人類反饋強化學習(RLHF)是構建大語言模型的關鍵部分。令人驚奇的是,斯坦福的研究人員憑藉巧妙的思維和數學洞見,找到了一種更為簡單和優雅的替代方案,DPO將對大語言模型以及更廣泛的領域產生巨大的影響。」

因高效、易於實施和計算效率高的特點,DPO已經被用於代替RLHF訓練世界上最先進的人工智慧模型,如Mistral.ai備受矚目的Mixtral。

那麼,RLHF是否已經過時了?DPO會完全取代它嗎?

答案並非如此。一方面DPO在大規模模型訓練中的可擴展性仍待觀察。目前最先進的模型遠遠超過了DPO初步研究中的60億參數規模,在GPT-4或GPT-5規模的模型上,DPO還能否與PPO相匹敵或者超越?這並不好說。

事實上,許多頂級人工智慧研究員都堅信,雖然DPO更簡單、更容易實施,但PPO仍然代表了最先進模型和最複雜訓練情況的黃金標準。

而且從實踐的角度來看,許多頂尖人工智慧研究機構都已經建立了圍繞PPO和RLHF的成熟基礎設施和流程,讓他們立即轉向DPO是不現實的。

另外迄今為止,還沒有人發表過嚴謹的評估,以科學和全面的方式確定DPO與PPO/RLHF相比哪個表現更好,以及在什麼情況下如此。這種情況下,儘管DPO在理論和實踐中展現出巨大潛力,我們還需要更多的實驗驗證和科學評估。

從人工智慧反饋中學習——不需要人類

DPO(直接偏好優化)技術向我們展示了RLHF(人類反饋強化學習)中的「RL」(強化學習)是非必要的。進一步地,如果「H」(人類)也可以被替代呢?

有沒有可能使用人工智慧自動監督和引導其他人工智慧的行為?這指向了一個令人興奮又飽含爭議的新研究領域,可能預示著人工智慧對齊技術的未來走向。

無論是PPO還是DPO,對齊語言模型都需要大量偏好數據集——通常是數十萬甚至數百萬個示例。考慮到收集大規模人類偏好數據的過程既昂貴又費時,如果自動化這一流程能大幅降低成本,還能提高效率。

而且人工智慧在許多方面的能力已經超越了人類,利用超人類智能來理解、指導和控制更高級別的人工智慧系統,似乎成為了一個不可避免的選擇。

Anthropic公司在2022年發布的《Constitutional AI》論文中,首次提出了人工智慧反饋強化學習(RLAIF)的概念,標誌著這一思路的實際應用嘗試。他們開發的語言模型,不依賴任何人類標註的數據,僅憑指導其行為的16條簡單原則便自己學會了避免產生有害回應。

模型以這些原則或者稱為「憲法」作為行為指導,自我批評、改進,通過監督式微調(通過生成自己的數據集,其中包含更有害和更無害的回應的例子)和RLAIF(使用人工智慧生成的偏好數據)實現自我指導。

幾個月前伯克利團隊發布的Starling模型,進一步驗證了RLAIF概念的潛力,這是一個使用RLAIF訓練的70億參數語言模型,其訓練過程中使用了由GPT-4自動生成的380萬對偏好數據集。研究人員聲稱,在一些基準測試中,Starling的表現優於GPT-4之外的所有現有模型。

RLAIF的核心理念是使用先進的語言模型代替人類來生成偏好數據,一旦創建了偏好數據,就可以遵循標準的RLHF過程。但就像DPO技術證實的那樣,強化學習在人工智慧模型對齊中可能是不必要的。

能否將DPO與人工智慧生成的反饋相結合,開發出一種新的、更為高效的人工智慧模型控制方法?這個方向的研究才剛剛起步。

Meta最近的一項研究成果「自獎勵語言模型」在這方面提供了一個有趣的案例。與上面所說的RLAIF模型一樣,該模型自行生成偏好數據,無需人類,但是該模型並不像RLHF和RLAIF那樣訓練單獨的獎勵模型,再讓它通過強化學習微調主模型,而是採用了一種稱為「LLM-as-a-Judge」的方法,使主模型自我生成並評估新的訓練樣本。隨後通過DPO,模型可以根據之前版本的反饋不斷疊代和優化,實現連續自我提升。

值得注意的是,儘管「自獎勵語言模型」闡述的概念很有吸引力,但論文中的研究結果並非是結論性的,正如作者自己所說,「這只是一個初步研究。」

不管怎樣,我們正利用人工智慧完成越來越多的「重活」,並讓它們按照我們期待的方式運行。那麼人工智慧的偏好和價值觀從何而來?

至少目前來說,這種基本的價值觀還需要人類提供。

無論是Anthropic通過「憲法」設定基本原則,Meta通過一組人類編寫的初始指令來啟動學習,還是Starling通過已經根據人類偏好進行廣泛調整的GPT-4創建偏好數據,都體現了人類在設定人工智慧目標和價值觀的關鍵作用。

隨著人類引導人工智慧模型的方法變得更加自動化,這裡有一個潛在的風險:人類可能逐漸失去對對齊過程的直接控制和可見性,我們需要對這種風險保持警惕。

創業機會在哪裡?

隨著RLHF等人工智慧對齊技術的快速發展,為滿足日益增長的市場需求,創業機會也隨之浮現。

大規模收集人類偏好數據,是最明顯的一個市場需求。雖然最新技術如RLAIF一定程度上能減少對人類數據的依賴,但當前大量人工智慧對齊工作仍需要人類產生的偏好數據。

無論是PPO還是DPO,對齊人工智慧模型可能需要高達數百萬對偏好數據,需要大量人員參與數據的收集和處理。相比在組織內部操作,許多人工智慧研究機構選擇付費給外部提供商。

Scale AI便是為RLHF提供人類偏好數據的一家創業公司。公司成立於2016年,其業務起初集中於為自動駕駛汽車和電腦視覺應用提供數據標註服務,但隨著大語言模型的快速發展,Scale AI開始更多將RLHF作為終端市場。

除了Scale AI,還有Surge AI、Prolific、Invisible Technologies等一批新興企業湧現,提供RLHF數據服務。其中一些公司實現了顯著的營收增長,比如Surge AI的客戶包括Anthropic、Cohere、Hugging Face、Character.ai、Adept、Google、Microsoft、Amazon和Nvidia等科技公司,這也反映出市場對此類數據的強烈需求。

面對RLHF淘金熱,另外一些創業公司正在探索其他類型的服務。如總部位於巴黎的Adaptive ML,幾個月前從Index Ventures籌集了2000萬美元種子輪資金。該公司提供了一些工具,使RLHF等對齊方法更易於被各種規模的組織採納和實施。

儘管如此,這些創業公司是否能夠成長為獨立的大型企業,它們的技術和服務最終是否會被更大的平台所吸收,仍是一個開放的問題,許多AI基礎設施初創公司也面臨同樣的情況。歷史上,許多提供機器學習運營(MLOps)解決方案的創業公司最終走向了被行業巨頭收購的道路。

從SigOpt到Gradio,從Algorithmia到Determed AI,許多公司都構建了出色的技術,但由於沒有突破性的商業路徑,最終不得不接受被更大平台收購。(以上四家分別被Intel、Hugging Face、DataRobot和Hewlett Packard Enterprise收購)

接下來會發生什麼?

近年來,RLHF等對齊方法對於構建高級人工智慧越來越重要,預計過不了多久,這項前沿技術將迎來飛躍式的進步。展望未來,有兩個趨勢值得關注。

第一個趨勢:採用現有數據作為偏好數據對齊模型,改進RLHF和DPO的過程。如今RLHF和DPO最昂貴、最耗時的部分是收集大量的偏好數據。例如,支付一群人閱讀兩個模型的回應,並選擇他們更喜歡的一個,反覆進行這個過程數千次。如果我們能夠直接利用已經存在的用戶行為數據——如點擊、瀏覽和購買決策——來捕獲人類的真實偏好,將極大簡化對齊過程。

這種方式被稱為卡尼曼-特沃斯基優化(KTO),去年年底由初創公司Contextual AI提出,以兩位行為經濟學領域的著名研究者命名,自推出起就引起了極大的關注。

與DPO一樣,KTO不需要強化學習,但與DPO不同的是,KTO也不需要成對的偏好數據,KTO所需的唯一數據是標記為可取或不可取的原始示例。這類示例隨處可見,每個組織都有正面(以購買結束)或負面(以沒有購買結束)的客戶互動數據,我們每個人也都留下了豐富的數據痕跡——點擊與否的廣告、按讚與否的帖子、觀看與否的影片——所有這些都可以通過KTO轉化為人類偏好數據。

Contextual AI的首席執行官兼聯合創始人Douwe Kiela說:「RLHF很棒,但它有重要的缺點:它需要一個大的獎勵模型和大量昂貴的成對偏好數據。而我們看到了一個機會,可以更直接地在自然的人類反饋信號上進行訓練。KTO通過更快、更緊密的反饋循環幫助企業對齊模型。」

由於KTO減少了對定製人類偏好數據的需求,未來也可能對數據收集公司如Scale和Surge的業務模式構成挑戰。

第二個趨勢:人工智慧對齊技術將變得越來越多模態。目前,大多數模型對齊工作(包括RLHF、DPO、RLAIF)都集中於語言模型,但未來人工智慧模型必將融合文本、圖像、3D、音頻、影片、物理行為等多模態,因此其他類型的模型同樣需要根據人類偏好進行微調。

來自斯坦福和Salesforce的團隊最近發布了一項新研究,顯示DPO可以提高像Stable Diffusion這樣的文生圖模型生成的圖像質量。

人類真能控制AI嗎?深度解析大模型價值對齊

 DPO可以提高Stable Diffusion圖像質量 | 來源:斯坦福大學/SALESFORCE

在布萊恩•克里斯《人機對齊》一書中,描繪了一個困境:隨著人工智慧技術迅猛發展,我們如同初出茅廬的巫師,召喚出強大而不可知的力量——人工智慧。我們給它下命令,期望它能自主運作又擔心它脫離控制。

其實人類反饋強化學習,可以類比成育兒。在這兩種情況下,我們都通過示範來傳達價值觀和規範,我們無法準確預測或控制它將從我們身上學到什麼,但我們必須非常認真地履行這項責任:這關乎新一代智慧體將如何在地球上行事。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新