谷歌發布新研究,展示了一種利用生成式AI評估"未來就緒"技能的全新方法。與紐約大學聯合開展的研究結果表明,AI評分結果與人類專家的評分水平相當。這一研究實驗項目Vantage現已在Google Labs上線,向公眾開放體驗。
隨著AI以前所未有的速度持續演進,"未來就緒"技能再度受到廣泛關注——這類經久耐用的人類核心能力,無論技術如何疊代或自動化程度如何提升,都將保持其價值。經合組織《學習羅盤2030》和世界經濟論壇《未來就業報告》等國際框架均明確指出了一批優先技能,兩者共同強調批判性思維、協作能力與創意思維等核心能力。這些技能早在AI興起之前便被視為不可或缺,如今更是愈發重要。
谷歌今日正式發布Vantage——一項利用生成式AI在模擬環境中創建對話場景,以評估未來就緒技能的研究實驗項目。Vantage由谷歌與紐約大學的教育學專家及研究人員聯合開發,旨在為高中生和大學生提供一個可供練習和經過驗證評估的沙盒環境,其構建方法與數學、科學等核心學科傳統上所採用的系統性方法一脈相承。Vantage英文版現已在Google Labs開放註冊。
為何評估未來就緒技能如此重要
有效學習過程的核心在於反饋與評估,兩者對個人成長和有效教學均至關重要。在全球教育體系中,"考什麼就教什麼"的現象普遍存在。
然而,未來就緒技能出了名地難以衡量。傳統測試方式過於僵化,難以捕捉人們的思維過程與互動方式,也與這些技能在真實世界中的應用場景相去甚遠。在真實的人際互動中測試這些技能固然是理想方式,但資源消耗極大,且難以在眾多學生中實現標準化和一致性評分。例如,如果一組學生從未產生分歧,又如何公正地評估他們的衝突解決能力?如果他們採納了第一個出現的想法,又如何評估在此基礎上創造性發展的能力?
谷歌研究團隊致力於探索如何藉助可擴展、經驗證的方法評估學生的未來就緒技能,從而幫助教育者將課程與這些技能對齊,並支持學生持續成長。
Vantage的運作機制
Vantage的實驗設置將學習者置於與AI虛擬角色進行協作任務的動態多方對話場景中。這一設置既能管控評估環境,又能模擬比現有標準化測試更真實、更貼近現實場景的互動,為學習者提供一個應對複雜人際與情境挑戰的沙盒空間。
當用戶在開放式場景中——例如準備辯論或提出創意方案——與AI虛擬角色互動時,一個"執行大語言模型"會依據預設的評估評分標準,引導AI虛擬角色推動有效評估的進行。執行大語言模型會持續分析對話狀態,動態引入特定挑戰——如對某一想法提出質疑,或製造矛盾衝突——為學習者創造針對性地展示自身技能的機會。由此,它充當了新一代自適應評估引擎的角色,通過引導對話走向,確保在對話結束時收集到評估用戶所需的完整資訊。
任務完成後,AI評估器會依據執行大語言模型所使用的同一套嚴格評分標準,對對話記錄進行分析,識別並衡量技能應用的具體證據。學習者隨後將收到詳細的技能圖譜,其中包含可視化評分及針對其在對話中所展示技能的定性反饋,讓原本"看不見"的人類技能發展進程變得可視化、可落地。
研究發現:AI評估達到專家水準
為確保學術與教育嚴謹性,谷歌與紐約大學建立了研究合作關係。雙方共同梳理了常見評估標準,並將其與相關任務對齊,合作重點在於建立並驗證評估方法。
雙方開展了一項聯合研究,招募了188名來自美國、年齡在18至25歲之間的測試者,完成涵蓋協作技能——即衝突解決與項目管理——的Vantage任務,並重點考察兩個核心研究問題。
Vantage的一項關鍵創新在於引入執行大語言模型,實現自適應評估。研究評估了大語言模型在引導對話時針對特定技能(如衝突解決或項目管理)的有效性,通過與使用獨立運作、未受引導的AI虛擬角色完成相同任務的學習者進行比較,衡量用戶所展示的與該技能相關資訊的豐富程度。研究結果表明,執行大語言模型確實能夠有效引導對話產生高密度資訊,在保持自然對話流暢性的同時,顯著提升了被評估技能相關資訊的數量。這一能力在多項模擬任務中表現一致。
為測試AI評估器的準確性,研究團隊將其評分與紐約大學評分者依據同一教學評分標準所給出的評分進行了比較。結果顯示,AI評估器與人類專家之間的評分一致性,與兩位專家評分者之間的一致性相當。這表明AI評估器的對話評分已達到人類專家評分者的水準,證明Vantage是一套有效的技能評估自動化系統。
谷歌還與專注於耐久性技能評估AI工具開發的初創公司OpenMic開展了聯合研究,聚焦創造力與英語語言藝術領域,在更廣泛的情境中驗證AI評估器的表現。研究分析了180名學生在創意多媒體任務上的表現——包括人物專訪和與英語文學相關的媒體文章——並將AI評估器的評分與OpenMic內部專家的評分進行了比對。結果同樣顯示出AI評估器與人類專家之間的高度相關性,皮爾遜相關係數達到0.88,證明AI評估器即便面對複雜的現實創意任務,也能提供有效的評分。
對教育的深遠影響
在學校場景中,這類模擬環境有望開闢出一個可量化的"技能層",疊加於現有學校課程之上,並融入學科任務之中。這將幫助教育者探索全新的作業形式,例如與AI虛擬角色就社會科學話題展開辯論,或扮演團隊負責人角色規劃實驗室實驗。學生不僅可以獲得關於學科知識(如實驗的科學原理)的反饋,還能獲得技能層面(如協作質量與批判性思維水平)的反饋。這一方式是對現有小組合作項目的補充,有望同步推動學術知識與耐久性技能的共同發展。
展望未來
本研究探索了如何將至關重要的未來就緒耐久性技能,從難以衡量轉變為可大規模量化。由此,一個更具包容性、更精準的未來就緒能力評估體系將成為可能。這一實驗是朝著更貼合未來需求的評估方式邁出的重要一步。
谷歌團隊也希望新搭建的基礎設施能夠支持生態系統內更廣泛的研究與有效性研究,使研究人員不僅能夠評估新工具對知識留存的影響,還能評估其對技能發展的直接影響。此類研究的潛力不可小覷,將有助於深入理解不同教學干預手段如何隨時間推移塑造人類能力。
展望未來,谷歌將拓展研究範圍,重點攻克遷移性這一關鍵問題——即在模擬沙盒中所展示的技能,如何轉化為真實人際互動中的實際能力。此外,鑑於人類技能具有文化情境性,谷歌將著重探索不同文化背景下的表現差異,以確保技術的包容性與公平性。在評估之外,下一階段的目標是向技能成長邁進,進一步深化對技能發展的理解,並通過在模擬環境中的實踐來衡量技能提升的成效。
Q&A
Q1:Vantage是什麼?它能評估哪些技能?
A:Vantage是谷歌與紐約大學聯合開發的一項研究實驗項目,利用生成式AI在模擬環境中創建對話場景,評估學生的"未來就緒"技能。目前主要評估的技能包括衝突解決、項目管理、批判性思維、協作能力和創意思維等核心能力。Vantage英文版現已在Google Labs開放註冊。
Q2:Vantage的AI評估結果準確嗎?和人類專家相比如何?
A:根據與紐約大學的聯合研究,Vantage的AI評估器與人類專家之間的評分一致性,與兩位專家評分者之間的一致性相當。另在與OpenMic合作的創造力評估研究中,AI評估器與人類專家評分的皮爾遜相關係數高達0.88,說明AI評估精度已達到專家水準。
Q3:Vantage在學校教學中怎麼用?對學生有什麼幫助?
A:在學校場景中,Vantage可作為一個"技能層"疊加於現有課程之上,教師可設計學生與AI虛擬角色辯論社會科學話題或規劃實驗室實驗等任務。學生不僅能獲得學科知識反饋,還能獲得協作、批判性思維等技能的可視化評分與定性反饋,幫助技能發展"看得見、用得上"。






