【央视新闻客户端】
作为云基础设施市场的领军企业,亚马逊云服务(AWS)于周一报告发生重大服务中断,导致众多主流网站陷入瘫痪。
尽管部分网站在数小时内恢复访问,但故障监测平台 Downdetector 显示,美国东部时间中午前后,关于亚马逊、AWS 及 Alexa(亚马逊智能语音助手)的故障报告再次激增。
亚马逊在美国东部时间下午 4 点 52 分发布的最新更新中表示,目前正处理任务积压,预计约两小时内完成处理。
亚马逊在周一下午的博客文章中指出,AWS 客户在尝试启动旗下热门云服务 EC2的新实例时,遭遇 “错误率上升” 问题。公司在文中写道:“我们正以最快速度全力恢复服务。”
美国东部时间下午 1 点 30 分左右,AWS 表示在部分区域已观察到 EC2 服务恢复的 “初步迹象”,且正针对剩余区域实施修复措施,“预计修复完成后,实例启动错误及网络连接问题将得到缓解”。
亚马逊同时确认,此次中断影响了亚马逊官网、部分子公司业务以及 AWS 客户支持服务。
此次故障最早于美国东部时间凌晨 3 点 11 分在 AWS 位于弗吉尼亚州北部的主要区域 ——US-East-1 区域被报告。AWS 状态页面的通知显示,其数据库服务 DynamoDB 出现域名系统(DNS)问题,而 DynamoDB 是支撑众多其他 AWS 应用的核心服务。
域名系统的作用是将网站域名转换为 IP 地址,使浏览器及其他应用程序能够加载内容。
AWS 在美国东部时间凌晨 5 点 01 分的更新中提到,此次 “运营问题” 影响了 “多项服务”,并表示正 “通过多条并行路径加快恢复进度”。此次故障共影响了 AWS 自身超 70 项服务。
美国东部时间早上 6 点 35 分,AWS 在更新中称 DNS 问题已 “完全解决”,AWS 各项服务运营 “恢复正常”。
根据Synergy Research Group的数据,AWS 是云基础设施技术领域的龙头企业,约占据三分之一的市场份额,领先于微软和谷歌。数百万企业及机构依赖 AWS 提供的云计算服务,例如服务器和存储服务。
受影响的主要企业
Downdetector 显示,用户报告的故障平台包括:迪士尼 +、来福车、麦当劳应用程序、《纽约时报》官网、Reddit、Ring 智能门铃、罗宾汉、Snapchat、美国联合航空公司、T-Mobile及 Venmo。
此外,Downdetector 数据显示,英国政府网站Gov.uk(英国政府官网)和英国税务海关总署(HM Revenue and Customs)官网也出现故障。
一名政府发言人表示:“我们已知晓亚马逊云服务发生故障,众多依赖其基础设施的在线服务均受影响。通过已建立的故障响应机制,我们正与 AWS 保持沟通,该公司正全力尽快恢复服务。”
劳埃德银行集团确认其部分服务受影响,并请求客户 “在此期间耐心等待”,同时表示正推进服务恢复工作。约 20 分钟后,该集团补充称服务已逐步恢复。
此次故障还导致亚马逊内部关键工具瘫痪。红迪网上有亚马逊仓库员工、配送人员及 Flex 服务司机反馈,多地站点的内部系统处于离线状态。部分仓库员工在当班期间接到通知,需在休息室和装卸区待命;同时,他们无法登录亚马逊的 Anytime Pay 应用 —— 该应用允许员工即时提取部分工资。
亚马逊第三方卖家用于管理业务的核心平台 “卖家平台”(Seller Central)也因故障无法访问。
红迪网(Reddit)发言人表示,“目前正全力将红迪网服务恢复至 100% 正常水平”。
美国联合航空公司和达美航空公司的部分乘客在社交媒体上反馈,无法在线查询预订信息、办理值机或托运行李。
T-Mobile 发言人表示,受 AWS 故障影响,其用户在访问其他网站或服务时遇到问题,但该运营商自身 “未出现服务中断或故障”。
在线教学平台 Canvas表示,其同样受到 “此次 AWS 持续故障” 的影响。
另有社交媒体用户反映,多款云游戏出现故障,包括《Roblox》和《堡垒之夜》;加密货币交易所 Coinbase 则表示,因故障影响,众多用户无法访问其服务。
图形设计工具 Canva称,“目前错误率大幅上升,影响了 Canva 的各项功能。此次问题源于我们的基础云服务提供商(AWS)出现重大故障。”
生成式人工智能搜索工具 Perplexity 也受波及。该公司首席执行官阿拉温德?斯里尼瓦斯在 X 平台发文称:“根本原因是 AWS 故障,我们正全力解决。”
集中式软件的隐患
近年来,大型企业受技术故障影响已非首次。2024 年 7 月,网络安全公司 CrowdStrike 的一次软件升级失误,暴露了全球技术基础设施的脆弱性 —— 此次失误导致微软 Windows 系统瘫痪,造成价值数百万美元的混乱,还致使数千架航班停飞,同时影响了医院和银行的正常运营。
AWS 近年来也多次发生服务中断。2023 年的一次故障导致众多网站离线数小时;2021 年的一次更严重故障则影响了全球多地的网站和服务,包括亚马逊自身的部分配送业务一度陷入停滞。
长期以来,亚马逊、微软和谷歌一直在争夺企业客户。本月早些时候,微软办公软件套件发生服务中断后,谷歌试图利用这一服务故障推广自身工具,并推出一项业务连续性计划 —— 将其 Workspace 服务与微软 365 并行运行。
谷歌在上周的一篇博客文章中写道:“微软 365 出现故障只是时间问题(区别仅在于何时发生、持续多久,而非是否会发生),但这并不意味着你的团队需要退回到用纸笔办公的时代。”
今年 6 月,谷歌云服务曾发生长时间中断,导致 OpenAI、Shopify等多家主流服务提供商受影响。谷歌表示,此次故障是由近期多轮有缺陷的更新共同导致的。
网络安全公司 NymVPN 的首席数字官罗布?贾丁在一份声明中指出,周一的 AWS 故障 “似乎并非由网络攻击引发,更可能是亚马逊某一主要数据中心出现技术故障”。
他补充道:“这类问题通常发生在系统过载或网络关键部件故障时,而由于众多网站和应用依赖 AWS,故障影响会迅速扩散。”
当被问及置评时,亚马逊发言人表示可参考 AWS 的服务健康仪表板。
圣母大学门多萨商学院信息技术教授、美国国家安全局(NSA)前计算机科学家迈克?查普尔在声明中称:“大多数消费者可能不知道 DynamoDB 是什么,但它却是‘现代互联网的核心记录系统之一’。”
他进一步补充:“未来数小时至数天内,我们将了解更多细节,但初步报告显示,问题并非出在数据库本身 —— 数据似乎是安全的。相反,是用于告知其他系统‘数据存储位置’的记录出现了问题。”
“此次事件提醒我们,全球对亚马逊、微软、谷歌这几家大型云服务提供商的依赖程度有多高:当一家主流云服务提供商‘打喷嚏’,整个互联网都会‘感冒’。”