关于2015年6月6日青云QingCloud广东1区(GD1)机房电力故障的详细说明

因广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障,6月6日下午QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用,对此我们深表歉意。现将事故完整过程报告给您:

13:48  我们收到GD1硬件及网络告警,并发现官网及控制台无法访问;工程师马上进行系统状态检查,发现GD1所有硬件设备出现重启;随即我们与GD1所在的IDC运营商沟通询问机房情况,同时排查其他可能导致设备重启的原因,并着手恢复管理服务(KS);其间,我们收到大量用户反映GD1业务中断;

14:08  操作切换DNS以恢复官网及控制台;

14:23  我们从IDC运营商处获知由于机房所在地区出现雷暴天气,机房因雷击引起UPS异常,机柜瞬时断电再加电,从而导致了青云的全部物理设备异常关机与重启;

14:38  GD1的管理服务恢复,Bots系统恢复,开始恢复用户主机;用户可以访问GD1资源;DNS完全生效,官网及控制台访问恢复;

15:15  内网DNS Server恢复;系统持续检查环境和帮助用户恢复业务;

16:19  GD1业务完全恢复,进一步检查后,于16:30分发布恢复公告。

本次严重故障从设备重启到用户业务恢复共耗时2小时31分钟,系统数据和用户的业务数据未出现任何丢失。

故障发生后,我们同IDC运营商“睿江科技”就事故原因和技术细节进行了持续沟通,并责成睿江科技出具真实、严谨的故障报告,力求全面了解机房电力系统和防雷系统发生故障的真实原因,以便在未来规避类似事件的再次发生。

截止目前,我们已经获取睿江科技提供的《关于20150606XX机房故障说明-青云》报告一份(附后),其中就雷击引起的电力故障进行了初步说明。通过报告,我们可以了解到的信息如下:

  1. 电力系统:直击雷导致电力系统出现瞬时浪涌,UPS启动自我保护(报告中提到的“UPS瞬时波动”),从而释放电流导致瞬间断电。
  2. 防雷系统:机房配备了强电、弱电、UPS及列头柜四级防雷,雷击主要是直击雷和感应雷两种,本次发生的是直击雷,现有防雷设施很难防护,从而导致雷电直接影响到电力系统,导致UPS断电保护。

但我们对其中的细节披露和专业解释仍存在以下疑问:

  1. 目前建筑防雷系统已相当成熟,可以防感应雷、直击雷和侧击雷。专业的IT基础设施中的四级防雷系统更应该是如此,本次事故中机房的防雷系统为何未能成功防护直击雷?
  2. 专业的IT设施防雷系统同民用防雷系统相比防护标准更加严格,本次事故的发生究竟是因为防雷系统失效还是因为防雷标准达不到专业IT设施标准?
  3. 防雷系统中包含浪涌保护器,在正常情况下,防雷系统和浪涌保护器会释放掉因雷击产生的瞬时脉冲,从而保证UPS不会产生瞬断。那么昨天的事故中是否存在浪涌保护器失效,未能释放掉因雷击产生的瞬时脉冲,进而导致UPS的断电保护?

就上述疑问,我们正在同睿江科技进行持续沟通以获得真实可信的故障原因分析,也会向您完整、透明地披露相关信息。后续我们也会给出相应的赔偿方案,青云QingCloud团队再次对此事故对您造成的影响深表歉意,也感谢大家对我们的理解与支持。

针对本次恶劣天气导致的事故,我们通过重新审视了故障发生和排除的全过程,认为我们的技术能力和服务能力还有以下些可以进一步改进的地方:

  1. 故障信息和故障排除进展的通告要更加及时。在昨天的事故中,我们首先将精力更多地投入到故障定位和排除上,在14:20才给出第一个故障通告,导致很多用户因缺乏信息产生焦虑。我们充分认识到及时、透明的信息通告的重要性,因此需要检讨在本次故障通告方面做的不够及时。为此我们制定了未来紧急情况下保障信息通知更加及时、准确的方案。我们会在第一时间通过网站、控制台及“青云QingCloud服务健康状态监控”网站(http://status.qingcloud.com)发布和更新系统异常及故障排除进展的通告,也会更及时地通过短信和邮件等形式向受影响的用户推送相关信息,以保证用户能更及时和准确地了解服务状态。我们非常理解在出现故障时用户面临着巨大的业务端压力,因此由衷地感谢用户们在了解故障信息后对我们给予的理解和支持;
  2. 在任何故障情况下,保障官网及控制台正常访问。目前我们的官网及控制台是通过DNS切换的方式确保在所在区出现网络不可达或系统故障的情况下尽快恢复访问。未来我们会制定更快速有效的办法进一步确保官网及控制台的正常访问;
  3. 在出现全部设备重启等极端故障情况下,更快地恢复管理服务和业务系统。本次在设备重启后,我们是通过Bots系统和人工操作结合的方式恢复了GD1的管理服务和用户业务,未来我们会编写更加智能的软件脚本,保障在极端情况下,业务系统能够更快速地恢复,将可能造成的损失降到更低;
  4. 提高IDC服务保障水平。我们会同目前公有云四个区所在机房分别就电力、暖通、网络等各个专业系统的基础设施水平、运营管理流程规范等方面进行更加严格和全面的检查,并同IDC运营商一同定期进行灾难演练,最大程度避免基础设施故障的发生;同时进一步加强同IDC运营商之间的信息沟通效率,确保第一时间了解任何异常情况;
  5. 容灾保护能力提升。将实现关键业务的容灾能力作为长期努力的目标,通过连接各个区的环网的建设和运营等手段实现更好的容灾能力。

综上,我们会全面审查故障处理流程,以应对机房断电等最极端的事故为标准进一步提升QingCloud系统的可用性,让信息传递更加及时和透明,通过自动化手段提高切换和业务恢复速度,让曾经发生的故障成为我们不断进步的和提高服务能力的源泉。

青云QingCloud

 

01 02 03 04

路由器支持私网DNS功能

路由器支持私网DNS功能

路由器新增了私网 DNS 功能,提供正向和反向解析域名解析。用户可以为私网内部的主机,或者外部 IP 地址定义内部域名。DNS 轮询方式的内网负载均衡,或者 Oracle RAC 的 scan cluster 域名等使用场景都能使用此功能实现。

router dns

此外,路由器还增加了高级配置项,目前可设置 MSS(TCP 数据包每次能够传输的最大数据分段)

router advanced setting

负载均衡器增加“禁用不安全加密方式”选项

对于 HTTPS 模式的负载均衡器监听器,在界面上增加了 “禁用不安全加密方式” 选项。启用该选项后,会禁用一些存在安全隐患的加密方式,例如 RC4,确保您的连接安全。

Redis 缓存服务支持设置访问密码

为了增强 redis 缓存服务的安全性,我们在缓存服务配置组中新增了访问密码配置项 “requirepass”。

redis-auth

设置该参数后,整个 Redis 集群中每个节点的访问都需要该密码,该密码也作为集群节点之间同步的密码。当该参数为空时,表示不需要密码。

 

自动伸缩和定时器功能上线

自动伸缩

自动伸缩(AutoScaling)功能可以帮助用户基于监控数据动态地调节资源配置或集群规模, 及时应对突增的系统压力,充分利用云计算的弹性特点快速调节系统处理能力,且有效降低维护成本。 比如 IP 带宽、数据库存储空间、负载均衡器的后端数量,都可以自动调节,无需人工介入。 自动调节后会发出通知到用户指定的通知列表,并保留近期的操作历史以备随时查看。

目前支持自动伸缩的资源包括:

公网IP

可根据公网 IP 的监控数据(进流量、出流量),自动提高或降低 IP 带宽, 并支持设置带宽的最大最小值,在可控的范围内自动调节。

负载均衡器

可基于负载均衡器监听器的监控数据,自动增加或减少其下的后端服务数量,同样支持设置后端服务集群的最大最小数量。

关系型数据库

由于磁盘空间不支持缩小操作,所以自动伸缩对数据库服务的支持仅限自动扩容。 当数据库磁盘使用量超过监控阈值后,会自动按照设定的数值扩大磁盘空间。

控制台的 AutoScaling 详情页,包括基于监控数据的触发条件,以及设定自动伸缩的操作参数。

autoscaling-policy-detail-page

AutoScaling 的执行是基于脚本的,目前会自动帮用户生成脚本,并且可以在控制台浏览。未来我们会开放脚本的编辑功能,让用户可以通过编写脚本自定义操作行为,满足更复杂、更个性化的需求。

autoscaling-script

自动伸缩管理过程中的重要事件都会保存在历史记录中,包括执行过程中的所有API调用情况,以及脚本中的输出信息。

autoscaling-history

更多自动伸缩的说明请见文档

 

定时器

定时器(Scheduler)功能可用来定期执行一系列任务,比如定时开关主机、为主机/硬盘创建备份、调整带宽。 可在指定的周期重复执行,也可仅执行一次。每个定时器可添加5个任务,每个任务都支持指定多个资源批量操作,如批量关机、批量备份、批量调整带宽。 任务执行后会发送通知到用户指定的通知列表并保留近期执行的历史记录。

目前支持的定时任务有:

  • 关闭主机
  • 启动主机
  • 为主机和硬盘创建备份
  • 调整公网IP带宽

重复执行的定时器分为 『每天』、『每周』、『每月』三种,并且可以详细指定每周几或每月几号执行。

create-scheduler-weeklycreate-scheduler-monthly

定时器任务的执行也是基于脚本的,除了根据用户反馈继续添加更多常用功能外,也会跟自动伸缩一样,在合适的时候开放脚本的编辑功能,满足个性化需求。

scheduler-task-script

定时器任务的每次执行结果都会保存在历史记录中,包括执行过程中的所有API调用情况,以及脚本中的输出信息。

scheduler-history

更多定时器的说明请见文档

新功能:工单提醒,流量监控,服务健康状态

工单提醒

当你提交的工单被管理员回复后,除了之前的邮件通知外,在控制台也能及时收到提醒。

工单提醒

流量监控

现在,公网IP在详情页除了已有的带宽监控外,又新增了流量监控,可查看某段时间内的网络流量(单位 Byte/KB/MB)。结合带宽、流量监控,可以从不同角度了解网络负载情况,有助于更好地调节你的服务。

流量监控

服务健康状态页面上线

青云所有重要服务的健康状态目前都可以查看到实时数据和历史数据,如果某个服务出现故障,我们会第一时间更新公告。服务健康状态页面 可以从控制台的顶部导航:”帮助”中找到入口。

服务健康状态

关于国家相关部门开展“扫黄打非·净网2014”专项行动的通知

尊敬的客户:

您好。我们收到全国“扫黄打非”工作小组办公室、国家互联网信息办公室、工业和信息化部、公安部通知,自2014年4月中旬至11月,上述机构在全国范围内统一开展打击网上淫秽色情信息“扫黄打非·净网2014”专项行动,严查淫秽、色情和非法信息,对非法网站将依法予以关闭或取消联网资格,对制作传播淫秽电子信息涉嫌构成犯罪的,将依法追究刑事责任。

QingCloud 提醒您务必严格自查您的网站,尤其是论坛。附件是北京市公安局公布的关键字,请根据关键字进行扫描、屏蔽,杜绝非法信息的出现。

非常感谢您的配合!如有任何问题也可随时联系我们,谢谢!

青云 QingCloud

开放负载均衡器API和资源监控API

经过整理,青云开放了负载均衡器和资源监控相关的 API,CLI 和 SDK 也更新了版本。到目前为止,青云开放的 API 已达 81 个,期待更多用户借助青云做出优秀的产品。

负载均衡器 API

通过负载均衡器 API ,可对负载均衡器及其监听器、后端服务实现同官方控制台一样的操作。如创建/更新/删除负载均衡器,关联/解绑公网IP,添加/删除监听器和后端服务等功能。

资源监控 API

可通过资源监控 API 获取主机,硬盘,公网IP,路由器,负载均衡器的监控数据。可随时掌握各项资源的使用情况,压力状态,可以更及时有效地管理您的资源。

上述 API 对应的功能也添加到了 CLI 和 SDK,可以更新后使用。

pip install -U qingcloud-sdk
pip install -U qingcloud-cli

手机绑定功能上线

青云现在提供了手机绑定功能,可以点击 这里 到达相关页面。绑定手机后可及时收到系统重要通知,如余额即将不足的提醒,或资源因欠费而暂停的通知。

建议用户绑定,以免错过此类重要消息。

绑定手机

青云 SDK 发布

SDK发布

青云为开发者提供软件开发包 SDK (Software Development Kit), 可以利用它对青云的资源进行查看、创建和操作,借此开发出更富创造力的产品。

可以通过 pip 安装:

pip install qingcloud-sdk

或更新:

pip install –upgrade qingcloud-sdk

更多帮助请参见 SDK 文档

P.S. 如果之前已安装过 qingcloud-cli,推荐更新到最新版:pip install –upgrade qingcloud-cli,更新后 SDK 也会自动安装,因为之后的 CLI 会依赖 SDK。

重置主机时可选择登录方式

重置主机

恢复资源时欠费情况的统计

恢复资源

青云 CLI 发布

qingcloud-cli 是专用于管理青云计算资源的命令行接口( Command Line Interface),支持 Linux, Windows 及 Mac OS。

可以通过 pip 安装:

pip install qingcloud-cli

或更新:

pip install –upgrade qingcloud-cli

更多帮助请参见 CLI 文档

qingcloud-cli