AI大模型榜單阿里雲Qwen2.5-Max兩分項領域居首

綜合國內媒體報道，在最新全球大模型榜單中，阿里巴巴集團數字技術與智能骨幹業務阿里雲5日宣布，其於1月發布的全新通義千問Qwen 2.5-Max模型在Chatbot Arena大模型盲測中排名第七，並在多個基準測試中超越DeepSeek V3等競爭對手，包括在技術領域表現尤為出色，於數學和程序設計方面排名第一，在處理複雜任務的固定提示（hard prompts）方面排名第二。

贊助商廣告

據了解，Chatbot Arena是由LMSYS Org推出的大模型性能測試平台，目前收錄了190多種模型。該榜單採用匿名方式將大模型兩兩組隊，交給用戶進行盲測，用戶根據真實對話體驗對模型能力進行投票，為全球頂級大模型的重要競技場。阿里雲表示，在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基準測試中，Qwen2.5-Max比肩Claude-3.5-Sonnet，並幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

繼DeepSeek之後，Qwen2.5-Max的發布，是中國AI陣營於高性能、低成本技術路線上的又一重要突破。市場人士分析，外界先前過度聚焦DeepSeek，卻忽視了包括阿里通義在內的中國AI整體性追趕。如果阿里Qwen-2.5-max的性能確實展現出預期水準，加之其低成本優勢與完整雲生態，將可能引發DeepSeek之後的中國AI資產新一輪重估。

（首圖來源：shutterstock）

贊助商廣告

AI大模型榜單 阿里雲Qwen2.5-Max兩分項領域居首

AI大模型榜單阿里雲Qwen2.5-Max兩分項領域居首