用AI來做全國聯考試卷，真的有人試了！結果：成績偏科很嚴重

最近兩年，ChatGPT的火熱催生了一大批AI大模型，讓大家對於生成式AI的能力，可謂是又驚訝又擔心，引發大家的擔憂，擔心自己的工作、技能會被AI取代！

贊助商廣告

而聯考這樣的知識性的測驗，就很適合AI大模型去做測試，如果用AI來代替學生去聯考，會怎麼樣？

欸，還真的有人試了。

上海人工智慧實驗室近日公布了司南評測體系OpenCompass選取開源大模型測試今年聯考的全國新課標I卷「語數外」的結果，為了確保「閉卷」考試，大模型的開源時間早於聯考，同時邀請有聯考評卷經驗的教師人工批卷。

選取的大模型分別是OpenAI的GPT-4o、法國的Mixtral 8x22B、零一萬物的Yi-1.5-34B、智譜AI的GLM-4-9B、上海人工智慧實驗室的InternLM2-20B-WQX以及阿里巴巴的Qwen2-57B和Qwen2-72B。

結果成績最好的是阿里巴巴Qwen2-72B大模型，滿分420分的情況下，總分達到了303分；排在第二名的是GPT-4o，獲得296總分；排在第三位的InternLM2-20B-WQX，總分在295.5分，成績還算不錯。

但是7款大模型有一個共通問題，就是偏科嚴重！

語文、英語此類的語言類型的測試，成績相對都要好一點，語文平均得分率為67%，英語更是達到了81%。而數學偏向於計算、公式計算的測試，7款大模型的測試成績都比較差，甚至最低的僅有21分，最高的也僅有75分，雖然記住了公式，但是不能靈活應用。

贊助商廣告

顯然，現階段來說大模型還待提升的空間，對於這樣的測試結果，大家還滿意嗎？