6月27日凌晨,全球著名開源平台huggingface(笑臉)的聯合創始人兼首席執行官Clem在社交平台宣布,阿里最新開源的Qwen2-72B指令微調版本,成為開源模型排行榜第一名。
他表示,為了提供全新的開源大模型排行榜,使用了300塊H100對目前全球100多個主流開源大模型,例如,Qwen2、Llama-3、mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等基準測試集上進行了全新評估。
重新評估的原因是,目前開發者太注重排行榜的名次,在訓練過程中使用了很多評估集的數據,並且之前的評估流程對於那些模型來說太簡單了,所以,本次給這些模型加大了難度,想看看它們的真正實力。
結果顯示,阿里開源的Qwen-2 72B力壓科技、社交巨頭Meta的Llama-3、法國著名大模型平台Mistralai的Mixtral成為新的王者,中國在全球開源大模型領域處於領導地位。
Qwen-2開源地址:https://huggingface.co/Qwen/Qwen2-72B-Instruct
根據排行榜的數據顯示,Meta開源的Llama-3-70B指令微調版本位列第2;阿里的Qwen2-72B基礎版本排名第3;Mistralai的Mixtral-8x22B指令微調版本排名第4;
微軟最新開源的小參數模型Phi-3-Medium-4K 14B排名第五,這說明小參數模型經過高質量數據集的預訓練,同樣能實現媲美大參數模型的能力。
中國零一萬物最新開源的Yi-1.5-34B-Chat版本排在了第六名;知名大模型平台Cohere開源帶RAG功能的Command R 104B排名第7;
英偉達開源的Smaug-72B-v0.1曾經排名第一,但在新的排行榜只有第8名;第9和第10名,全部都是阿里之前開源的Qwen1.5基礎和Chat版本。
所以,全新排行榜的前10名競爭非常激烈,很多都是當過之前排行榜第一名的高手,相當於大模型界的「華山論劍」。
阿里開源的4款大模型傲視群雄,無愧於「中神通」的名號,這也充分說明中國對全球開源大模型的重要貢獻以及領導地位。
對於這個排名結果,StabilityAI的研究總監,19歲便獲得博士學位的Tanishq表示,他很早就說過中國在開源大模型領域非常有競爭力,除了Qwen2,還有零一萬物、InternLM、Deepsseek等很多知名的開源模型。
關於中國在開源大模型領域處於落後狀態簡直可笑,相反,他們卻處於領導者地位。
對於阿里Qwen-2取得如此高的成績,確實讓很多人感到驚訝,但事實結果就是這樣。
他們也把希望寄托在Meta身上了,趕緊發布點新模型和Qwen-2再來一次大PK。
其實,不只是huggingface,曾經就有人發布過ElyzaTasks100性能評測,Qwen2-72B的指令微調版本也是性能最高的開源大模型,僅次於OpenAI的GPT-4o,高於谷歌的Gemini1.5Pro。
其實在與OpenAI、Anthropic這兩家著名閉源大模型平台進行PK時,Qwen2-72B指令微調版本也絲毫不落下風,也是中國唯一進入美國評估標準前10的國內公司。
希望阿里砥礪前行,更上一層樓。期待未來發布更多高性能的開源大模型,造福全人類。