Anthropic發布市場上首款混合推理模型Claude 3.7 Sonnet

Anthropic正式推出新一代大型語言模型Claude 3.7 Sonnet，官方提到，這是目前市場上第一款混合推理模型，能夠根據需求快速回應或進行更深入的思考，並讓用戶可自行調整思考時間。這次更新特別強化了程序設計與前端開發能力，並同步推出命令行工具Claude Code，讓開發者能直接通過終端機與人工智慧進行更深入的協作。

贊助商廣告

Claude 3.7 Sonnet在基礎運行模式下，是Claude 3.5 Sonnet的升級版本，提供更強的指令理解與回應能力，而在延伸思考模式（Extended Thinking Mode）下，模型能在回應前先進行自我反思，提升數學、物理、程序設計、指令遵循等任務的準確度。API用戶還可通過參數設置，限制模型思考的Token數量，以在執行時間與答案品質之間取得平衡。

程序設計能力一直是Claude模型的強項，更是這次更新的重點之一。Claude 3.7 Sonnet在軟體工程SWE-bench Verified和代理工具使用TAU-bench基準測試中取得良好的分數。在SWE-bench Verified測試中，以62.3%的準確度超越Claude 3.5 Sonnet、OpenAI o1及DeepSeek R1。此外，在TAU-bench測試中，Claude 3.7 Sonnet在零售場景達到81.2%的準確度，在航空場景則為58.4%，均優於Claude 3.5 Sonnet與OpenAI o1。

Anthropic進一步擴展Claude在程序設計領域的應用，這次同步推出Claude Code，這是一款針對開發者設計的命令行工具，目前仍處於限制研究預覽階段。Claude Code能夠主動搜索與閱讀程序代碼、編輯文件、撰寫與執行測試、提交GitHub變更，甚至與其他命令行工具集成。Anthropic內部測試顯示，Claude Code可將原本手動45分鐘的開發時間，縮短至單次操作內完成，特別適用於測試驅動開發（TDD）、調試及大規模重構等場景。Anthropic計劃持續改進這項工具，未來將強化指令執行的穩定性、支持長時間運行的命令，並提升Claude在此環境中的應用範圍。

Claude 3.7 Sonnet現已在所有Claude方案中提供，包括Free、Pro、Team和Enterprise，但延伸思考模式不適用於免費方案。用戶也可通過Anthropic API、Amazon Bedrock及Google Cloud Vertex AI取用Claude 3.7 Sonnet模型。

贊助商廣告