綜合國內媒體報道,在最新全球大模型榜單中,阿里巴巴集團數字技術與智能骨幹業務阿里雲5日宣布,其於1月發布的全新通義千問Qwen 2.5-Max模型在Chatbot Arena大模型盲測中排名第七,並在多個基準測試中超越DeepSeek V3等競爭對手,包括在技術領域表現尤為出色,於數學和程序設計方面排名第一,在處理複雜任務的固定提示(hard prompts)方面排名第二。
據了解,Chatbot Arena是由LMSYS Org推出的大模型性能測試平台,目前收錄了190多種模型。該榜單採用匿名方式將大模型兩兩組隊,交給用戶進行盲測,用戶根據真實對話體驗對模型能力進行投票,為全球頂級大模型的重要競技場。阿里雲表示,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等主流基準測試中,Qwen2.5-Max比肩Claude-3.5-Sonnet,並幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
繼DeepSeek之後,Qwen2.5-Max的發布,是中國AI陣營於高性能、低成本技術路線上的又一重要突破。市場人士分析,外界先前過度聚焦DeepSeek,卻忽視了包括阿里通義在內的中國AI整體性追趕。如果阿里Qwen-2.5-max的性能確實展現出預期水準,加之其低成本優勢與完整雲生態,將可能引發DeepSeek之後的中國AI資產新一輪重估。
(首圖來源:shutterstock)