谷歌運用Anthropic Claude大模型改進自家Gemini AI

根據TechCrunch獲得的內部聊天資料，負責改進谷歌Gemini AI的外包人員正將其輸出的答案與競爭對手Anthropic的Claude模型輸出進行比對。

贊助商廣告

隨著科技企業競相構建更強大的AI模型，他們往往會將自家模型的性能與競爭對手進行比較。但具體比較標準主要是行業通行的基準性能測試，很少會由外包人員直接用響應結果作為評判依據。

負責評估模型輸出準確性的Gemini外包人員需要根據多項標準（例如真實性和冗長性）對他們看到的各項響應打出評分。根據TechCrunch看到的資料，外包人員在每條提示詞上最多有30分鐘來判斷Gemini和Claude哪邊生成的答案質量更高。

其中還提到，外包人員最近注意到在他們用於將Gemini同其他未具名AI模型進行比較的谷歌內部平台上，直接提到了Anthropic Claude的字眼。

Gemini外包人員收到的輸出中至少有一條明確提到：「我是Claude，由Anthropic創建而成。」

在一段內部聊天中，外包人員發現Claude的回覆似乎比Gemini更強調安全性。一位外包人員寫道：「Claude的安全設置是所有AI模型中最為嚴格的。」在某些情況下，Claude不會響應它認為不安全的提示詞，例如扮演其他AI助手。在另一案例中，Claude還因結果可能包含「裸體與拘禁」等「嚴重違反安全規定」的內容而拒絕回應提示詞。

在Anthropic的商業服務條款中，明確禁止客戶在未經Anthropic批准的情況下出於「構建競爭產品或服務」或者「訓練競爭性AI模型」等目的訪問Claude模型。但谷歌本身是Anthropic的主要投資者，所以情況又複雜了起來。

負責Gemini項目運營的谷歌DeepMind發言人Shira McNamara拒絕透露谷歌是否獲得Anthropic關於訪問Claude的授權，Anthropic方面也未做出置評回應。

McNamara表示，DeepMind確實會「比較不同模型的輸出」以進行評估，但不會使用Anthropic模型直接訓練Gemini。

McNamara強調：「當然，根據行業標準慣例，我們在某些情況下會對模型的輸出進行比較以作為評估過程中的一部分。但是，任何聲稱我們使用Anthropic模型訓練Gemini的說法都是不準確的。」

贊助商廣告

不久前有消息稱，目前谷歌正要求參與該公司AI產品項目的外包人員在專業領域之外對Gemini的AI響應評分。外包人員則在內部聊天資料中表達了擔憂，提到Gemini可能會在醫療保健等高度敏感的問題上生成不準確資訊。