宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

用AI來做全國聯考試卷,真的有人試了!結果:成績偏科很嚴重

2024年06月20日 首頁 » 熱門科技

最近兩年,ChatGPT的火熱催生了一大批AI大模型,讓大家對於生成式AI的能力,可謂是又驚訝又擔心,引發大家的擔憂,擔心自己的工作、技能會被AI取代!

而聯考這樣的知識性的測驗,就很適合AI大模型去做測試,如果用AI來代替學生去聯考,會怎麼樣?

用AI來做全國聯考試卷,真的有人試了!結果:成績偏科很嚴重

欸,還真的有人試了。

上海人工智慧實驗室近日公布了司南評測體系OpenCompass選取開源大模型測試今年聯考的全國新課標I卷「語數外」的結果,為了確保「閉卷」考試,大模型的開源時間早於聯考,同時邀請有聯考評卷經驗的教師人工批卷。

選取的大模型分別是OpenAI的GPT-4o、法國的Mixtral 8x22B、零一萬物的Yi-1.5-34B、智譜AI的GLM-4-9B、上海人工智慧實驗室的InternLM2-20B-WQX以及阿里巴巴的Qwen2-57B和Qwen2-72B。

用AI來做全國聯考試卷,真的有人試了!結果:成績偏科很嚴重

結果成績最好的是阿里巴巴Qwen2-72B大模型,滿分420分的情況下,總分達到了303分;排在第二名的是GPT-4o,獲得296總分;排在第三位的InternLM2-20B-WQX,總分在295.5分,成績還算不錯。

但是7款大模型有一個共通問題,就是偏科嚴重!

語文、英語此類的語言類型的測試,成績相對都要好一點,語文平均得分率為67%,英語更是達到了81%。而數學偏向於計算、公式計算的測試,7款大模型的測試成績都比較差,甚至最低的僅有21分,最高的也僅有75分,雖然記住了公式,但是不能靈活應用。

用AI來做全國聯考試卷,真的有人試了!結果:成績偏科很嚴重

顯然,現階段來說大模型還待提升的空間,對於這樣的測試結果,大家還滿意嗎?

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新