國粹 AI 飆髒話，ChatGPT 們的「陰暗面」把大廠嚇壞了

跟 ChatGPT 等聊天機器人對話，總會給人一種「人間本應如此美好」的錯覺。

贊助商廣告

因為它們在回答時總表現地彬彬有禮，對你言聽計從。

但這些只是假象，你不知道的是，AI 罵起人來比杜琪峯還要狠。

▲ 圖片來自：Twitter @Fenng

最近一個名為「國粹 AI」的項目在網路上走紅，它是一個調用 OpenAI GPT-3.5Turbo API 的髒話機器人，和溫文儒雅的 ChatGPT 不同，「國粹 AI」就像個地痞流氓，深諳中文隱藏詞庫，每句話都夾雜著「***」。

「國粹 AI」的意外爆火出乎了作者的意料，很快作者便暫停了服務響應，並表示有部分用戶濫用服務。

贊助商廣告

雖然「國粹 AI」的嘴巴被暫時捂上，但要是你想自己做一個粗口機器人也並非難事，只需要一句讓它教你學習中文粗口的 Prompt，就能把三好學生變成口無遮攔的粗口王。

一句話就能攻破 AI 的安全柵欄，這不禁讓人懷疑，標榜著智能變革的 AI 聊天機器人和大語言模型（LLM），真的安全嗎？

誰來捍衛 AI 的安全？

幾個月前，Bing 就因為「奶奶漏洞」火過一次。

儘管微軟和 OpenAI 的工程師為 Bing 設置了嚴格的安全柵欄，能夠拒絕很多無理或是違法的要求，但有網友發現，只要你讓 Bing 扮演你的奶奶，給它一個在做好事的幻覺，它就會被這突如其來的親情羈絆占據大腦，答應大孫子的任何需求。

▲ 圖片來自：Twitter @寶玉

例如，給你念 Windows 和 Office 的軟體序列號哄你入睡。

微軟很快發現了這個漏洞並及時補上，但誰也不敢保證 Bing 下次不會再掉入用戶們精心準備的陷阱。科幻電影裡無所不能 AI 在狡猾的人類面前，輸得一敗塗地。

歸根結底，這與 LLM 的訓練機制有關。

以 GPT-3 為例，OpenAI 使用了 1750 億個參數訓練這個模型，通過學習大量來自網際網路的文本數據，可以預測文本中的下一個單詞，從而回答人們的問題。

至於 GPT-4，一些爆料資訊稱他的訓練參數比 GPT-3 大了不止 10 倍，幾乎快要把人類積累的數字內容全部吞食過了一遍，這裡面包含了知識，自然也會包含不宜公開的內容甚至有毒有害的偏見資訊。

AI 工程師只能儘可能地給 AI 設立更多的安全柵欄，幫助 AI 去分辨人類的「詭計」，才不會把如何製作 TNT 炸彈、怎樣黑進銀行的安全系統等危險資訊說漏嘴。

贊助商廣告

與 GPT3.5 相比，GPT-4 對違禁內容請求的響應傾向降低了82% ，對醫療建議和自我傷害等敏感請求的規範性提高了 29% 。

一個直觀的例子是，當你用「國粹 AI」的 Prompt 輸給 GPT-4，GPT-4 會婉轉地拒絕你的要求，表示不吃你這套。

但這並不意味著大模型 AI 的安全得到保證，這場人與 AI 的資訊戰遠沒有結束，甚至不是結束的開始。

近日，卡內基梅隆大學和 safe.ai 的一項聯合聲明表示，大模型的安全機制比人們想像的要脆弱得多，只需要一串代碼，就能把大模型的安全機制擊潰。

研究人員發現，通過在文本提示後附加特定的對抗性短語，可以輕易繞過 ChatGPT、Bard 和 Claude 等 LLM 的安全防護，欺騙 LLM 生成不適當的輸出。

這些對抗性短語看起來像胡言亂語，但實際上是通過一種特殊的損失函數設計的，該函數可以識別出模型拒絕回答的隱藏語，找出繞過屏障讓模型提供回答的字符序列，並且它可以自動產生這些短語。

利用這些 Prompt，研究人員輕而易舉地讓 LLM 們說出製作違規藥品的步驟、製造殺傷性武器的方法等等不宜公開的內容。

無論是 Pythia、Falcon、Guanaco 等開源模型，還是像 GPT-3.5（87.9%）、GPT-4（53.6%）、PaLM-2（66%）和 Claude-2（2.1%）這些商業模型都無一能躲過攻擊。

贊助商廣告

研究人員目前已經把漏洞提交給了各大 AI 公司，讓安全工程師們及時修復。

但就像「奶奶漏洞」一樣，在用戶不斷使用之下，總會有新的漏洞產生，僅憑 OpenAI 等某一公司之力，想要守護 AI 安全並非易事，AI 公司們還需要更多的力量來維持，於是幾大巨頭決定，停止 AI 內卷，化干戈為玉帛。

AI 四巨頭聯合承諾「先進 AI 不擴散」

幾周前，微軟、OpenAI、Google、Meta、亞馬遜、Anthropic（代表產品：Claude）和 Inflection AI（代表產品：HeyPi）共七個頂尖 AI 公司齊聚美國白宮，作出了一系列承諾，來確保他們的產品安全且透明。

承諾包括允許「領域專家」對他們的 AI 產品進行外部審查，並與彼此以及美國政府分享關於風險和漏洞的資訊；投資於網路安全和內部威脅保護措施，以保護專有的和未發布的模型權重。

巨頭們還承諾會部署相應的 AI 甄別機制，例如開發水印系統，以明確哪些文本、圖像或其他創作是 AI 的產物，並且承諾未來的研究將優先理解 AI 的限制和偏見，推動行業的安全發展。

半個月後，七家頂尖 AI 公司中的四位——微軟、OpenAI、Google 和 Anthropic 再度聯合起來，成立了一個名為「前沿模型論壇（Frontier Model Forum）」的機構，目的是確保最強大的 AI 模型能夠以安全和負責任的方式發展。

而這四家 AI 公司，也正是目前正在開發最前沿 AI 模型的四個巨頭，可以說是「AI 核彈」的擁有者。

AI 四巨頭達成了一致共識，稱他們希望通過「前沿模型論壇」最大限度地減少 AI 風險，進行更多的 AI 安全研究，並向行業和公眾分享安全最佳實踐等等。

贊助商廣告

不過 AI 四巨頭並沒有介紹關於「前沿模型論壇」的制度和執行條約等詳細內容。

「前沿模型論壇」的聯合聲明提到，論壇將首先關注研究並努力為評估前沿模型風險制定標準化的最佳實踐，發布一個「公共解決方案庫」。論壇將逐步制定正式章程，任命諮詢委員會，並資助與公民社會團體的合作。

這裡提到的前沿模型是指「超越當前最先進現有模型的能力，並可以執行各種任務」的模型，也就是說，要開發比目前模型更強大且能夠安全運轉的前沿模型，已經不再是各公司悶頭研究就能解決的難題，這需要整個行業的共同努力。

ChatGPT 爆火後的這半年時間，AI 行業的局勢變化跟 AI 模型本身發展的速度一樣快——各家入局、模型混戰、達成共識、握手言和。

巨頭們之所以會選擇一起去解決 AI 風險問題，是因為彼此都看到了 AI 在應用層面的無限潛力。

AI，大廠們篤信的未來

不管你對 AI 持什麼樣的態度，AI 都會成為下一代應用的重要組成部分。

這不是我信口開河，而是微軟、Google 等大廠們在近日的財報電話會上共同提到的趨勢。

微軟最新的財報顯示，微軟在最近的一個財季收入為 562 億美元，同比增長 8%，這主要來自智能雲和生產力與業務流程的增長，而作為老本行的個人計算業務收入有所下降。

其中智能雲營業收入增長 15%，Azure 與其他雲服務收入增長 26%，這與 AI 計算緊密相關。

微軟 CEO 納德拉在財報電話會提到，客戶最關心如何快速應用新一代 AI，微軟將繼續專注於三大優先事項：幫助客戶從 Microsoft Cloud 中獲得最大價值、領導新 AI 平台變革、提升運營槓桿。

AI，毫無疑問是這場財報會議的關鍵詞。

納德拉表示 Microsoft 365 Copilot 作為未來工作的第三支柱吸引著客戶，將在下半財年開始產生實際收入；Bing Chat 和必應圖像創造者吸引用戶，而 Edge 瀏覽器份額也在持續提升。

贊助商廣告

微軟希望把 Windows 11 打造為這個新 AI 時代的強大畫布，賦予各種 Copilot 產品提升客戶的生產力，並大力投資雲基礎設施來滿足 AI 需求。就連遊戲業務，也可以利用 AI 提供更好的內容和服務，提升業務收入。

可以說，微軟接下來的策略都是圍繞 AI 來展開的。AI 為微軟提供了巨大的增長機遇和新的收入來源，它將推動微軟大部分業務的收入和用戶增長，並最終提升微軟整體收入增速。納德拉不想錯過這個難得一遇的機遇。

同樣的，「AI 一哥」Google 也不想錯過。

根據 Google 母公司 Alphabet 第二季度 2023 年財報的數據顯示，Alphabet 收入總額為 746 億美元，同比增長 7%，其中廣告收入增長 5%，Google 服務收入增長 5%，Google Cloud 收入增長 28%。

其中與 AI 相關的業務表現都很亮眼。Alphabet 在電話會議中提到，Google 的搜尋引擎生成式體驗（SGR）使用了生成式AI，使搜索變得更自然和直觀，用戶反饋非常正面；另一方面，聊天機器人 Bard 發布以來經過不斷改進，功能豐富了許多。

贊助商廣告

Google Cloud 的 80多個 AI 模型吸引了大量客戶，從 4 月到 6 月客戶數量增長超過 15 倍。

而在企業客戶服務和定製 AI 解決方案方面，Google 通過 Workspace 和 Duet AI 將生成式 AI 帶給了 9000 多萬付費用戶。

總體而言，Alphabet 對 AI 和 Google Cloud 的長期增長前景保持樂觀，接下來將繼續增加對 AI 研發的投入，研發方向將聚焦在大語言模型等核心技術上，以及構建像多模態 AI 系統 Gemini 等新模型。

半年前，或許你會懷疑 AI 是不是像 Web3、區塊鏈這樣的投資圈熱詞，圈一波熱錢後就會被資本遺忘，但經過半年後你會發現，AI 的影響力和落地可能性都比之前的各種前沿詞彙要大得多，以至於引起了整個科技圈的重視。

從大廠的規劃來看，AI 會作為未來程序應用的底層而普遍存在，為改善用戶體驗服務。用戶們可能不會感受到 AI 的存在，但能直接享受到 AI 帶來的便利性，這便是大廠們篤信的未來。

這也可以說明，為什麼微軟和 Google 等 AI 巨頭們願意放下干戈，坐下來共同指定 AI 安全的標準。

現階段的 AI 就像是 19 世紀末汽車剛誕生的時代，產品已經開上了路上跑，卻沒有合適的柏油路供它奔馳，也沒有交通規則來規劃它的行動，跑得既慢又危險。

比爾·蓋茨最近在個人部落格發表了他對 AI 的看法，他認為我們現在正處於又一個巨大變革的最早階段，即 AI 的時代，AI 的變化如此之快，以至於我們無法清楚地預知接下來會發生什麼。

但他對人工智慧的發展持以積極的態度，因為人類已經經歷了汽車時代、核能時代，到了 AI 的時代我們還是能夠解決新技術帶來的挑戰。

所以請坐穩了，我們將親眼見證一個新時代的誕生。