名不符實？谷歌 Gemini 表現不如 GPT-3.5 Turbo

近期，來自卡內基梅隆大學和 BerriAI 研究團隊的一項研究表明，Google Gemini Pro 在多項任務中表現不如 OpenAI 的 GPT-3.5 Turbo。

贊助商廣告

據悉，研究團隊在 LiteLLM 平台上測試了四個不同的 LLM：Google Gemini Pro、OpenAI GPT-3.5 Turbo、GPT-4 Turbo 和法國初創公司 Mistral 最新推出的 Mixtral 8x7B。

測試內容涵蓋了 STEM、人文和社會科學領域的 57 個多項選擇問題，以及一些與通用推理、數學和編程相關的任務。

研究結果顯示，在多項選擇問題的測試中，Gemini Pro 的準確性低於 GPT-3.5 Turbo 和 GPT-4 Turbo。Gemini Pro 在人類性、形式邏輯、初等數學和專業醫學等領域的表現較差，其中一部分原因是 Gemini 在某些問題上拒絕回答，聲稱由於安全和內容限制無法遵循。

在安全和高中微觀經濟學等領域，Gemini Pro 的表現略優於 GPT-3.5 Turbo，但進步有限。