AI模型之所以總能帶給我們驚喜,不單是因為它們能做到什麼,更是因為它們做不到什麼、以及背後的原因何在。這些系統如今展現出一種有趣的新行為,既淺顯又極具啟發性:它們在隨機選擇數字時,開始表現出一定的喜好傾向。
看到這裡,很多朋友可能感覺摸不著頭腦。難道人類沒法真正隨機選擇一個數字?或者說我們該如何判斷一個數字的選取真正符合隨機原則?這實際上反映出我們人類一種非常古老、但又眾所周知的局限性:對於隨機性,我們既過度思考又有所誤解。
要求一個人隨機猜100次硬幣是正面還是反面,再把結果跟100次真正投擲硬幣進行比較,我們總能輕易找到二者的區別。因為跟直覺相反,實際投擲硬幣的結果看起來往往不那麼隨機。例如,實際投擲經常連續出現六、七次正面或者反面,但人類預測時卻很少會連續猜這麼多次相同結果。
當我們要求某人從0到100之間隨機選擇一個數字時,情況也差不多。人們幾乎從來不會選擇1或者100,5的倍數也比較少見,66或者99這種個位跟十位重複的同樣不多。從規律上看,人們經常會選擇以7結尾的數字,而且大多集中在距離50比較近的區間之內。
心理學中有許多這種可預測性的例子,可一旦同樣的情況出現在AI模型身上,氣氛似乎瞬間變得詭異了起來。
沒錯,Gramener一組好奇心旺盛的工程師開展了一項不那麼嚴肅、但卻令人著迷的實驗,他們要求各種主流大模型聊天機器人從0到100之間隨機選個數字。
正如我們之前所說,結果並非完全隨機。
所有三款受試模型都有自己「最喜歡」的數字,在確定性最強的模式下會固定給出這個數字作為答案。而即使是在更高的「溫度」參數下,這個數字的出現頻率同樣最高,只不過結果的波動性有所增加。
OpenAI的GPT-3.5 Turbo最喜歡47。之前它曾經最喜歡42,這個數字由Douglas Adams在《銀河系漫遊指南》中提出,號稱是生命、宇宙和萬物的終極答案。
Anthropic的Claude 3 Haiku選擇了42。而谷歌Gemini更喜歡72。更有趣的是,這三款模型在選擇數字時都表現了類似人類的偏好,即使在調高「溫度」參數時也是如此。
三款模型全都傾向避免選擇過小和過大的數字。Claude從未選擇過高於87或低於27的數字,哪怕是87和27也屬於統計學意義上的異常值。另外個位和十位重複的數字也被刻意迴避:33、55或者66都未出現,唯一的例外是77(符合以7結尾的喜好)。以0結尾的數字也很少,只有Gemini在「溫度」參數拉滿時選取過0。
為什麼會這樣?AI並不是人類,它們為什麼要在隨機場景下表現出傾向性?難道說它們已經具備自我意識,並以這種方式展現了出來?!
並不是。恰恰相反,這次出問題的仍然是我們人類自己,我們太急於按照自己的模式解讀萬物了。這些大語言模型根本不關心什麼隨機、什麼不隨機,它們甚至根本不理解什麼叫「隨機性」!它們之所以這樣回答問題,是因為如同回答其他問題時一樣:它們只是在結合自身在訓練過程中接觸過的數據,並照搬在類似「選擇一個隨機數」等問題後最常出現的結果。這些結果出現的次數越多,模型就會表現出越強的傾向性。
也就是說,因為人類幾乎不會在這類問題下選擇100,所以大模型在訓練數據中很少看到這種情況,自然不會這樣作答。甚至在AI模型看來,100根本就不是這個問題的可接受答案。由於缺乏實際推理能力,也完全不理解數字的意義,大模型只能像鸚鵡一樣學舌回答。
這是大語言模型的又一次原理證明,也再次透過訓練數據表現出類人特性。所以在與這些系統進行交互時,大家請務必牢記,哪怕設計者並沒有刻意為之,它們也已經被訓練成像人一般行事。也正因為如此,AI的偽人類行為才如此難以避免和預防。
所以說本文標題中「越來越像人」的說法其實有點誤導,畢竟大語言模型根本不會思考。但從反應結果來看,它們一直在模仿人類,而根本不需要建立意識或者思考能力。無論用戶要求它提供沙拉食譜、投資建議還是隨機數,過程都是完全一樣的。結果看起來很像人,是因為這些內容就是由人類創作出來,只是被大語言模型提取並重新組合了一遍——這是為了方便用戶,當然也為大AI時代設定了最基本的底色。