過去一個月里,抱怨Claude輸出質量下降的用戶並沒有錯覺。
Anthropic於近日發布了一份內部調查報告,確認在今年3月至4月期間,三項獨立的調整導致Claude Code、Claude智能體SDK以及Claude Cowork的用戶體驗明顯下降。Anthropic表示,Claude的API接口未受此次問題影響。
在此期間,大量用戶強烈抱怨Claude的輸出質量,而服務可用性方面的問題更是雪上加霜。對此,Anthropic強調,模型能力的退步並非有意為之,而是多項調整意外出錯,由此造成了AI能力逐漸下滑的錯誤印象。
第一個問題發生在3月4日,Anthropic將Claude Code的默認推理強度從"高"調整為"中"。推理強度決定了模型在處理特定推理任務時投入的計算量,此次調整的初衷是通過減少思考時間來降低響應延遲。
"這是一個錯誤的權衡取捨,"Anthropic坦承。"在用戶反映更傾向於默認使用更高智能、僅在簡單任務時才選擇低強度模式後,我們於4月7日回滾了該改動。"
可以推測,將Opus 4.6和Sonnet 4.6的默認推理強度調低,同時也會降低推理負載——模型"思考"得更少,消耗的Token也更少,從而更節省有限的算力資源。目前最新版本的Claude Code(v2.1.118)已將Sonnet 4.6的默認強度設置為"超高"。
第二個問題是一個Bug,出現於3月26日的緩存優化更新中。該Bug導致每一輪提示詞與響應的交互循環都會清除已緩存的會話數據。
Claude會將輸入Token緩存一小時,這可以讓連續的API調用更快、更經濟。工程師們原本希望對閒置超過一小時的用戶清除輸出Token(即思考記錄),因為緩存在這段時間後便不再被使用。這一改動的本意是通過刪除不再相關的舊思考記錄來降低恢復會話的成本,然而工程師反而引入了一個Bug,使得每輪對話都會清除思考記錄,最終導致Claude"變得健忘且重複囉嗦"。該問題已於4月10日在Sonnet 4.6和Opus 4.6上完成修復。
第三個問題源於4月16日的一次系統提示詞修訂。Anthropic此次修改旨在減少Claude模型的冗長輸出,新增的段落乍看之下人畜無害:
"長度限制:工具調用之間的文字內容不超過25個詞;最終回復不超過100個詞,除非任務需要更多細節。"
經過數周內部測試後,模型質量評估認為該改動是安全的。然而,在Opus 4.7發布時隨之推出這一系統提示詞後,後續進行的消融測試(即通過移除系統提示詞中的特定指令來衡量其影響)顯示,Opus 4.6和4.7的性能均下降了3%。相關系統提示詞調整已於4月20日回滾。
Anthropic承諾,未來將針對Claude Code的公開版本進行更多內部測試,同時改進Code Review工具,優化系統提示詞變更的評估流程,並在社交平台X上新開設一個@ClaudeDevs賬號,"為我們深度解釋產品決策及其背後的邏輯提供空間"。
就在發布上述調查報告的前一天,Anthropic增長負責人Amol Avasare剛剛在X上就一項未經公告的A/B測試作出解釋,並表示公司將努力做到更直接的溝通,讓用戶不必再通過X和Reddit等社交媒體渠道才能獲知產品問題。
為幫助用戶找回良好的使用體驗,Anthropic已為所有人重置了賬戶的使用額度。
"這不是用戶應當從Claude Code中得到的體驗,"Anthropic表示。
Q&A
Q1:Anthropic是故意降低Claude的能力嗎?
A:不是故意的。Anthropic在官方調查報告中明確表示,Claude性能下降並非有意為之,而是3月至4月間三項獨立的技術調整意外出錯所致。包括將推理強度默認值調低、引入導致會話記錄被重複清除的緩存Bug,以及一項無意中拉低模型表現約3%的系統提示詞修改。這些問題被發現後均已陸續回滾修復。
Q2:Claude Code性能下降問題現在修復了嗎?
A:是的,已基本修復。Anthropic分三個階段完成了回滾:4月7日恢復了Claude Code的高推理強度默認設置;4月10日修復了導致模型健忘且重複的緩存Bug;4月20日回滾了引發性能下降的系統提示詞改動。最新版Claude Code(v2.1.118)已將Sonnet 4.6的默認推理強度設置為"超高",並重置了所有用戶的賬戶使用額度。
Q3:Anthropic打算如何避免類似問題再次發生?
A:Anthropic承諾將從多個層面加以改進:在Claude Code公開版本發布前增加更多內部測試環節;完善Code Review工具;強化對系統提示詞變更影響的評估機制。此外,公司還將在X平台開設專屬的@ClaudeDevs賬號,用於向開發者深度解釋產品決策邏輯,減少用戶只能從社交媒體上被動獲悉產品問題的情況。






