我们所知道的世界越来越依赖于数字连接,而大多数情况下,数字连接都在后台悄无声息地运行。那么,一次软件更新是如何导致半数互联网瘫痪的呢?
7 月 19 日发生的全球 IT 中断清楚地提醒我们,面对技术故障,我们是多么脆弱。
网络安全公司提供的一次错误软件更新引发了这一问题,众筹,这对全球的航空公司、媒体、银行和零售商产生了灾难性的影响,特别是使用微软 Windows 操作系统的企业。
这起事件被描述为“历史上最大的 IT 中断”,提醒我们维持数字基础设施的广泛的IT互连网络,以及一旦出现问题可能产生的深远后果。
最初是机场延误,后来演变成大范围航班取消。航空系统的中断不仅扰乱了航班时刻表,还影响了依赖航空货运的全球供应链,这体现了现代 IT 生态系统的多面性。
同时,广播中断许多电视台和广播电台以及超市和银行的运营陷入停滞。
初步分析表明,此次混乱源于 CrowdStrike 的 Falcon Sensor 安全软件的一次软件更新,该更新应用于微软 Windows 操作系统。
使用 CrowdStrike 的公司的员工遇到了“蓝屏死机”(当他们尝试登录时,屏幕上出现一条错误消息,表明系统崩溃)。
除了暴露隐藏的依赖关系维持我们的数字社会和经济的基础设施中断也凸显了这些依赖关系的地缘政治层面。
与微软和 CrowdStrike 关系密切的国家首当其冲,但中国等 IT 基础设施相对封闭、可控的国家的企业似乎受到的影响较小。
近年来,随着地缘政治紧张局势加剧,中国及越来越多的国家积极发展自身的网络安全措施和数字基础设施,这或许可减轻此次事件的影响。
中国注重使用本土技术、减少对外国技术的依赖,也可能是其系统受到的影响较小的原因。
这一事件清楚地提醒我们,技术依赖性可能转化为地缘政治脆弱性,国家当局越来越需要考虑其信息技术联盟不仅对经济有影响,而且对战略和地缘政治有影响。
复苏与影响
受影响行业如何应对这场危机反映了其自身安全和灾难恢复策略的优势和弱点。
主要问题已被发现并已得到纠正。缓慢的恢复过程未来我们将会看到,在我们复杂、深度互联的数字生态系统中恢复服务连续性将面临重大挑战。
尤其令人惊讶的是,尽管过去有过许多教训,比如2018 年 TSB IT 迁移灾难由于该事件影响到了英国银行数百万客户,因此银行并未分阶段推出软件更新。
这一步骤是 IT 管理中一个基本而又关键的策略,然而由于缺少这一步骤,许多人认为十分强大的系统也变得十分脆弱。
这也引发了人们对 Windows 操作系统以及 CrowdStrike 旨在保护它们的网络安全措施的弹性的严重质疑。
此外,此次事件凸显了依赖单一技术来源的战略风险。此次全球性断网事件表明,建立多元化技术联盟对于加强国家安全和经济稳定的重要性,同时也引发了人们对敌对国家可能利用此类漏洞的担忧。
这一事件将使国际网络安全合作和政策干预变得更加紧迫。
随着服务开始稳定和恢复,这次中断应该给 IT 专业人士、企业领导者和政策制定者敲响警钟。
显然,迫切需要重新评估甚至彻底改革现有的网络安全战略和 IT 管理实践。提高系统弹性以抵御大规模中断必须是当务之急。
此次全球IT中断事件及时提醒了我们,也为我们在业务、基础设施和政策层面讨论数字弹性和技术治理的未来提供了一个关键时刻。
那么人工智能呢?
我们尚未知道答案的另一个问题是:如果一个软件错误就能导致世界各地的航空公司、银行、零售商、媒体机构等陷入瘫痪,那么我们的系统是否已经准备好应对人工智能?
也许我们需要在改进软件可靠性和方法论方面投入更多,而不是仓促推出聊天机器人。不受监管的人工智能行业将导致灾难,尤其是在地缘政治紧张局势日益加剧的世界。
虽然拥抱人工智能或,我们还必须把基本工作做好。
网络安全运营商需要确保基本的IT管理和维护实践强大而可靠,并且能够处理从网络安全攻击到简单的软件更新的所有问题。
此次事件的教训无疑将影响未来IT基础设施发展和危机管理的战略。