尊敬的用户:
9月6日凌晨2:05起,因亚太1区(AP1)的两台网关设备故障导致部分用户公网访问异常,经技术人员定位与排除,该故障已于6:23分彻底解决。现将故障详情通告如下:
2:05分起,两台网关设备先后发生故障,导致四个网段的用户公网访问受到影响:
207.XXX.142.0/24
209.XXX.107.0/24
207.XXX.141.0/24
209.XXX.106.0/24
因为这两台网关设备同时也部署了AP1的管理服务(两台互备的高可用架构),这两台网关的故障也影响了我们的管理信息通讯,导致研发人员没有及时收到告警通知。
3:50分研发人员定位到网关故障并开始尝试重启网关节点,同时手动配置新的管理服务。
5:48分,管理服务恢复,控制台可以访问。
5:50分,开始迁移受故障影响的公网IP段。
每个网段陆续恢复的时间为:
207.XXX.141.0/24 06:03
207.XXX.142.0/24 06:10
209.XXX.106.0/24 06:15
209.XXX.107.0/24 06:23
整个故障影响时间:
207.XXX.142.0/24 2:05 – 06:10
209.XXX.107.0/24 2:05 – 06:23
209.XXX.106.0/24 2:51 – 06:15
207.XXX.141.0/24 2:51 – 06:03
后经仔细排查,导致本次网关故障的原因为1:00左右完成的一次网络日常升级中的一个软件漏洞,该漏洞会导致某些小概率情况下网关设备故障。受该漏洞影响,AP1的两台网关设备发生故障。在故障发生后,QingCloud技术人员已经及时完成各个区网络版本回滚,并修复了该漏洞。
本次故障导致AP1部分用户公网访问异常,用户的资源和数据未受影响。我们对因本次故障业务受到影响的用户表示最真诚的歉意,随后会对受影响的用户进行赔偿。
针对本次故障,我们后期将采取下述改进措施:
1. 在软件上线之前进行更加苛刻的测试工作;
2. 所有管理服务将提升高可用的级别,部署更多的冗余节点,以避免因管理节点受影响造成的告警通讯不及时问题;
3. 完善公网IP故障切换的流程,加快故障恢复速度。
同时我们还会针对运营管理流程进行检讨和自查,进一步提高服务响应速度。我们深知作为基础云服务商,我们的服务对用户的业务至关重要,在未来我们会更加努力,不断提升服务水平。感谢您一直以来的信任与支持。
青云QingCloud