Cloudflare全球大范围死机原因出炉:配置错误的软件更新

提供属性递送网络、DDoS缓解服务与DNS服务的在世界协调时间(UTC)7月2日下午1点42分发生大死机 , 一度传出是遭到黑客攻击,不过很快便出面澄清,这是定期进行的软件更新中出现一个配置错误所造成的意外 。
【Cloudflare全球大范围死机原因出炉:配置错误的软件更新】当天的意外造成许多采用的网站或服务出现502错误的状况,虽然只持续了短短的27分钟,但的流量最高曾下滑82%,全球都传出灾情 。
根据的说明 , 该站会定期更新网络应用程式防火墙(Web软件更新要下拉,WAF)的规则,这些规则是用来改善在面临网络攻击时阻止的能力,它们通常会先于模拟模式中测试,确认无误后再部署至生产环境,且WAF规则是一次部署至全球,而非渐进式的 。
然而软件更新要下拉,其中一个规则所含的正规表示式,造成全球服务器的CPU使用率冲上100% , 使得那些由代理的网域出现502错误(闸道不正确),也让面临了前所未见的CPU衰竭事件 。
大约花了20分钟分清问题的症结,决定先行砍掉全球服务器上的WAF规则集 , 才在UTC时间下午2点09分时让流量恢复正常 。
坦承此次意外的发生,源自于测试程序不够周延,计画同时变更测试及部署程序 , 以避免以后再发生类似的事件 。
本文到此结束,希望对大家有所帮助 。