蘋果的Apple Intelligence研究團隊發布了兩個新的小型但高性能語言模型,用於訓練人工智慧生成器。
蘋果的機器學習團隊正在與業內其他團隊一起參與一個開源的語言模型數據包項目。蘋果最近生產的兩款模型被認為可以與其他領先的訓練模型相媲美,例如Llama 3和Gemma。
通過提供標準框架,此類語言模型用於訓練ChatGPT等人工智慧引擎。這包括架構、參數和數據集過濾,以便為人工智慧引擎提供更高質量的數據。
蘋果向該項目提交的文件包括兩種模型:一種較大的模型,具有70億個參數,另一種較小的模型,具有14億個參數。
蘋果團隊表示,在基準測試中,較大模型的表現比之前的頂級模型MAP-Neo高出6.6%。更值得注意的是,蘋果團隊的DataComp-LM模型使用的計算能力減少了40%。
蘋果團隊發布的這些模型無意用於未來的任何蘋果產品。它們是社區研究項目,旨在展示在策劃用於訓練人工智慧模型的小型或大型數據集方面提高的有效性。