关于7月22日和7月23日青云QingCloud北京2区（PEK2）网络故障说明

最近两天，青云经历了上线以来最艰难的一次考验。北京2区（PEK2）的两台汇聚层交换机的堆叠出现了 ARP TABLE 混乱，引致了局部内联机器丢包，大量PEK2用户在7月22日和23日经历了两次长时间网络中断。我们通过彻底更换新交换机修复了该故障，恢复了服务。在此，我们向所有受到事故影响的用户表达最真诚最深刻的歉意。

我们向您完整、如实地还原本次故障的全程如下：

7月22日

12:47，我们收到大量北京2区（PEK2）内网网络告警，具体表现为PEK2网络内部大量物理服务器无法正常连通，出现丢包，导致大量PEK2用户网络中断。经初步判定，问题锁定在内网汇聚层交换机，我们随即安排工程师至IDC现场处理。
工程师抵达后，对全部环境及交换机进行检查，发现物理服务器及交换机的状态及配置并无异常，但表现的状态为内部网络随机不可达。根据故障状态，工程师进一步判定此问题为汇聚层交换机ARP TABLE混乱所致。
PEK2部署有两台H3C S5820V2交换机为 IRF2 堆叠使用。经过对两台交换机进行重启操作，至2015年7月22日15时15分，故障排除，内网恢复正常，用户业务逐渐恢复。
故障排除后，我们的工程师团队一方面帮助用户解决因网络中断导致的技术问题，一方面同网络设备厂商H3C保持沟通以确定设备故障的根本原因。同时，为彻底避免故障复现，我们决定更换该设备，并连夜联系了Cisco安排新设备23日入场，并计划于24日凌晨进行设备替换。

7月23日

13:15，PEK 2再次出现网络故障。我们即刻进行问题定位，初步认定是22日的故障再现。通过重启设备，网络于13:30恢复。
13:50，交换机混乱再次导致PEK2内网故障，我们随即重启设备并取消堆叠，但是网络在短暂恢复后再次故障。
14:30，在多次尝试仍无法保证网络稳定后，我们决定暂停PEK2的服务并决定尽快更换设备。
15:57，在新设备部署的同时，我们定位到这个故障是由H3C两台堆叠设备中的一台引起的。我们将其下线，并临时由另一台设备承载业务，服务恢复。
18:50，两台Cisco汇聚层交换机完成部署，新旧设备切换。在提前告知用户的情况下，网络因设备切换中断1分钟，随后PEK2网络恢复正常，本次硬件设备故障彻底排除。用户资源和数据未丢失。

本次网络中断完全因罕见的硬件故障导致，设备供应商H3C公司的工程师确认问题原因为一台S5820V2出现MMU硬件故障，导致Buffer调度出现紊乱，出口cell出现拥塞，导致报文无法转发。重启后能够暂时恢复转发，但运行一段时间后，故障会重新出现。同时，在一台设备故障后，S5820V2的IRF2分裂检测机制未触发，设备堆叠的冗余能力失效。H3C公司已提供正式报告（附后）。为避免相同问题出现，我们已决定陆续更换QingCloud系统中使用的全部该款设备，并马上对系统中所有硬件设备进行健康性排查。

我们深知，作为基础云服务商，我们的系统承载着保障用户业务连续的重大责任，也寄托着所有用户的信任。因此除了自身软件系统的稳定性与可靠性保障外，确保

数据中心基础设施、硬件设备和传输网络的可靠性和稳定性也是我们义不容辞的责任。正式上线的2年来，青云经历过各种不可预期的外部故障和事故的考验，在重重困难中，我们努力成长，汲取了教训，积累了经验，也收获了那么多用户的认可与信任。磨难让我们加倍努力也更加坚强。在未来，我们会采取包括加大资金投入在内的所有措施，不遗余力地加强各个方面的保障能力，全力守护用户业务的稳定。

对所有受到本次网络故障影响的用户，我们决定返还您一个月在PEK2的全部消费金额作为赔偿。虽然赔偿并不能挽回对您的业务造成的影响，但我们希望通过这种方式体现我们最真诚的歉意，也希望您能够一如既往地信任我们。有您的理解与支持，青云必不辱使命。

问题分析报告 (1) 问题分析报告 (2)

问题分析报告 (3)

青云志

QingCloud 日志

关于7月22日和7月23日青云QingCloud北京2区（PEK2）网络故障说明

7月22日

7月23日