一場由數據中心散熱事故引發的電力故障,導致亞馬遜雲服務(AWS)位於弗吉尼亞州北部的US-EAST-1區域大量雲計算實例與儲存服務出現中斷。AWS已通過其健康儀錶盤發布多條更新,確認了此次事件。
事件經過與影響
根據美國太平洋時間5月7日下午5時25分發布的事故報告,AWS在use1-az4可用區檢測到異常,並確認"託管於受影響硬體上的EC2實例及EBS儲存卷因散熱事故導致斷電而受到波及"。公司聲明稱,單一數據中心內部溫度持續攀升,是造成本次服務受損的直接原因。
事故發生後,AWS將大部分服務流量切換至其他可用區,並提示用戶資源配置時間將有所延長。隨著夜間降溫工作持續推進,恢復進展始終低於預期。至太平洋時間晚8時06分,AWS坦承"進展比原本預計的要慢",並建議需要立即恢復服務的用戶從EBS快照還原數據,或在未受影響的可用區重新部署資源。至晚10時11分,AWS表示冷卻系統已取得階段性進展,但用戶"在部分工作流上仍面臨較高錯誤率和延遲"。
非首次出現故障
此次5月7日的事故並非US-EAST-1首次出現中斷。該區域曾在2025年10月發生兩次故障,其中10月19日至20日的一次持續長達15小時,起因是DynamoDB自動化DNS管理系統中的競爭條件錯誤,波及逾70項AWS服務,並對Slack、Atlassian、Snapchat等依賴該平台的服務造成連鎖影響。AWS俄亥俄州區域過去也曾發生與EC2實例相關的電力故障。
隨著恢復工作推進,AWS確認部分服務已陸續恢復正常,其中IoT Core、ELB、NAT Gateway及Redshift等服務的恢復情況相對較好,但仍有部分用戶的EC2實例和EBS儲存卷處於受損狀態。
第三方服務受波及
用於人道主義與發展機構的數據採集平台KoboToolbox在協作社區發布公告稱,其全球實例於UTC時間5月8日00時32分因AWS基礎設施故障而下線,歐盟實例則未受影響。
業界專家建議加強多區域冗餘部署
Gartner高級首席分析師Bhuvie Chhabra表示,此類故障並非AWS獨有。"所有主流雲服務商都經歷過類似事件,這凸顯了超大規模運營本身的複雜性與挑戰性。"他建議首席資訊安全官(CISO)評估各可用區是否位於物理隔離的獨立設施,還是共享同一棟數據中心建築,並核實每個區域是否擁有獨立的電力、網路、冷卻及物理安全體系。他還特別指出,即便虛擬實例跨區冗餘,一旦資料庫缺乏同等冗餘保障,應用仍會面臨宕機風險。
Everest Group實踐總監Kaustubh K則表示,物理層面的故障應推動企業進一步完善彈性應對預案。"電力與冷卻系統中斷等物理層故障提醒我們,企業應將彈性規劃延伸至軟體與網路安全風險之外,尤其是對業務關鍵型應用而言。"他建議CISO識別哪些關鍵工作負載容易受到基礎設施層面故障的實質性衝擊,並在架構層面配套相應的冗餘、故障切換及恢復機制。
US-EAST-1的特殊地位與集中風險
Chhabra指出,US-EAST-1在AWS全球服務體系中承擔著大量依賴關係,許多AWS全球服務——包括IAM身份認證、CloudFront、Route 53及DynamoDB全球表——即便資源部署在其他區域,也依賴US-EAST-1的端點。他表示,除Oracle外,所有超大規模雲服務商都存在一定程度的全球依賴集中風險,而AWS的獨特之處在於,其已在《故障隔離邊界》白皮書中對此進行了公開記錄。"將集中風險降至零是不現實的,"Chhabra說,CISO必須通過對第三方風險的全生命周期管理來加以應對,並與採購和供應商管理團隊協作,持續追蹤供應商格局的變化。
Kaustubh最後表示:"儘管可用區隔離仍是重要的彈性保障機制,但運行業務關鍵型工作負載的企業應定期重新評估區域集中風險,並驗證當前的彈性架構是否符合業務連續性的預期要求。"
Q&A
Q1:AWS的US-EAST-1區域為什麼會頻繁出現故障?
A:US-EAST-1承載了大量AWS全球服務的依賴關係,包括IAM身份認證、CloudFront、Route 53等,使其成為全球雲基礎設施中壓力最大的區域之一。此次故障由數據中心內部散熱異常引發斷電所致,而該區域在2025年10月也曾因DynamoDB的DNS管理系統漏洞發生長達15小時的中斷,可見該區域因承載體量大、依賴鏈複雜,一旦出現問題影響範圍往往較廣。
Q2:企業應如何避免因AWS單區域故障導致業務中斷?
A:專家建議企業從以下幾個方向加強防護:一是評估各可用區是否具備獨立的電力、網路和冷卻系統;二是確保資料庫等關鍵組件與計算實例同樣實現跨區冗餘部署;三是針對業務關鍵型應用制定完善的故障切換與恢復機制。此外,企業還應定期重新評估區域集中風險,避免過度依賴單一區域或單一雲服務商。
Q3:此次AWS故障對第三方平台有哪些實際影響?
A:此次故障導致多個依賴AWS基礎設施的第三方服務受到波及。其中,人道主義數據採集平台KoboToolbox的全球實例於UTC時間5月8日00時32分下線,影響到多個人道主義和發展組織的數據採集工作,其歐盟實例因未部署在受影響區域而倖免於難。此前2025年10月的類似故障還曾波及Slack、Atlassian、Snapchat等知名服務平台。






