近期,來自卡內基梅隆大學和 BerriAI 研究團隊的一項研究表明,Google Gemini Pro 在多項任務中表現不如 OpenAI 的 GPT-3.5 Turbo。
據悉,研究團隊在 LiteLLM 平台上測試了四個不同的 LLM:Google Gemini Pro、OpenAI GPT-3.5 Turbo、GPT-4 Turbo 和法國初創公司 Mistral 最新推出的 Mixtral 8x7B。
測試內容涵蓋了 STEM、人文和社會科學領域的 57 個多項選擇問題,以及一些與通用推理、數學和編程相關的任務。
研究結果顯示,在多項選擇問題的測試中,Gemini Pro 的準確性低於 GPT-3.5 Turbo 和 GPT-4 Turbo。Gemini Pro 在人類性、形式邏輯、初等數學和專業醫學等領域的表現較差,其中一部分原因是 Gemini 在某些問題上拒絕回答,聲稱由於安全和內容限制無法遵循。
在安全和高中微觀經濟學等領域,Gemini Pro 的表現略優於 GPT-3.5 Turbo,但進步有限。