Anthropic上周發布的Opus 4.7在推出時附帶了更嚴格的安全防護機制,旨在防止濫用行為。然而,這些防護措施也意外阻斷了大量合規的正常使用場景。
Opus 4.7的發布緊隨Anthropic宣布Mythos模型之後——該模型據稱在漏洞發現與利用方面能力過強,因此不向公眾開放。儘管外界普遍認為這一風險評估帶有自利性質,但Anthropic仍決定以Opus 4.7作為測試平台,部署高度警覺的安全護欄。
Anthropic表示:"我們在發布Opus 4.7時配套了能夠自動檢測並攔截涉及禁止或高風險網路安全用途請求的安全防護機制。通過對這些防護措施的實際部署,我們將積累經驗,逐步推進Mythos級別模型的廣泛發布。"
然而,Anthropic只需仔細查閱其Claude Code的GitHub倉庫,便能從中獲得大量有價值的反饋。針對可接受使用政策(AUP)分類器的投訴急劇增加,用戶普遍反映正常工作受到了干擾。
安全防護越嚴格,誤報就越多——Claude變得過于謹慎,頻繁拒絕回應無害請求。一張由Claude整理生成的AUP拒絕投訴趨勢圖清晰呈現了這一問題。
Claude Code用戶數月來持續在GitHub上反映被錯誤拒絕的問題,但此前投訴數量相對平穩。
2025年7月至9月,此類投訴每月約為兩至三條。其中一個典型案例是編號4373的議題:"來自claude.ai的內存授權碼觸發API政策錯誤。"
2025年10月至11月,AUP相關拒絕的投訴量上升至每月五至七條,例如編號8784的議題:"Claude 4.5在處理正常請求時隨機拋出API錯誤:Claude Code無法響應該請求。"
12月相關投訴較少,這或許與美國節假日期間活躍度下降有關。
1月投訴數量回升至約八條。提交編號16129議題"Claude Code中反覆出現AUP誤判違規"的開發者指出:"技術性軟體開發對話不應觸發AUP違規。安全過濾器對良性內容的識別明顯過於激進。"2月和3月的情況與此相近。
進入4月後,情況徹底失控。
僅在4月,開發者已提交超過30份疑似誤報,涉及安全、通用開發及科學類請求被拒等多個方面。
具體案例包括:
編號48442:《持續性AUP誤報——4個會話中出現40餘次誤報,涉及多個不相關項目(心理學書籍、網頁應用、基礎設施、機器人)》,記錄了Claude拒絕處理多條俄語提示詞的問題。
編號49751:《Opus 4.7將標準計算結構生物學標記為使用政策違規,相較4.6版本出現功能退步》,描述了計算結構生物學任務被誤判標記的情況。
編號50916:《使用政策問題》,由路易斯安那州立大學網路中心及應用網路安全實驗室主任Golden G. Richard III提交。他寫道:"我花費每月200美元以上,基本的編輯輔助請求卻遭到拒絕,這實在難以接受。這是一個與我的教材《網路安全實戰》配套的實驗室,我完全了解AI模型被濫用於網路攻擊的潛在風險,但模型拒絕為包含簡單加密練習的實驗室內容校對,實屬荒謬。如果模型被限制到連網路安全教育者和研究人員都無法正常使用的程度,這究竟對安全領域有何正面意義?"
編號48723:《Claude Code在讀取原始數據文件時持續報AUP違規錯誤(附示例)》,描述了Claude在被要求讀取一份孩之寶Shrek玩具廣告PDF時拋出AUP錯誤的情況。提交該議題的開發者隨後發現,文件中某段特定的PDF內容流語法觸發了Claude的拒絕響應,其實際內容翻譯為"CHARACTER OR FOR DONKEY UNDERNEATH(驢子下方的角色)"。
此外還有編號49679:《已獲網路安全用例豁免授權,在Claude Chat中可正常使用,但在Claude Code API中仍持續收到安全系統的誤報。已批准的網路安全用例豁免未能完整傳遞至使用Opus的Claude Code API》,描述了Anthropic專為安全研究人員設立的繞過安全護欄豁免機制,在API層面無法正常生效的問題。
其他近期疑似誤判拒絕的案例還有:50795、51352、51794、52086、50494、49904、46147和51248等多個編號。
投訴數量的部分增長或許可歸因於用戶群體的擴大——用戶越多,反饋問題的人自然也越多。但顯然,大量Claude用戶確實遭受了過激的AUP分類器的不當攔截。
從已泄露的Claude Code源代碼來看,其情感分析採用了正則表達式匹配這一簡化方式,AUP分類器很可能也沿用了類似的捷徑——僅逐字檢測是否含有敏感詞彙,而不考慮上下文語境。
Anthropic對此未予置評。
Q&A
Q1:Claude Opus 4.7的AUP分類器為什麼會產生大量誤報?
A:Claude Opus 4.7在發布時配套了更嚴格的安全護欄,旨在自動檢測並攔截涉及禁止或高風險網路安全用途的請求。然而,從已泄露的Claude Code源代碼來看,其分類器可能採用了正則表達式匹配等簡化方式,僅檢測敏感詞彙而不考慮上下文語境,導致大量無害的合規請求也被錯誤攔截。
Q2:Anthropic為網路安全研究人員設立的AUP豁免機制是否有效?
A:根據開發者反饋,這一豁免機制存在明顯缺陷。編號49679的GitHub議題顯示,已獲批准的網路安全用例豁免授權在Claude Chat中可正常生效,但在通過API使用Claude Code(Opus版本)時,豁免權限未能完整傳遞,安全系統仍會持續產生誤報攔截。
Q3:Claude Opus 4.7的AUP誤報問題從什麼時候開始明顯加劇?
A:根據GitHub上的投訴趨勢,2025年7月至9月每月約有兩至三條相關投訴,10月至11月上升至五至七條,1月至3月維持在約八條左右。進入4月後,投訴數量急劇攀升,僅一個月內開發者便提交了超過30份疑似誤報報告,涉及安全、通用開發及科學類請求等多個領域。






