青云 QingCloud 移动端应用(IOS版)正式发布

ios_app

关于APP

青云QingCloud移动端控制台。QingCloud用户可通过该应用随时随地、安全便捷地管理云端资源。目前支持资源使用详情查询、历史监控数据查询、监控告警设置、工单提交和查询、余额提醒和欠费提醒等功能。

功能介绍

1. 全局总览:当前帐户余额、消费预估、工单管理、子账户管理、API密钥管理;
2. 分区总览:当前区域的消费预估明细,资源配额的使用情况,本区告警和欠费停机资源概况;
3. 资源列表:主要资源与服务信息列表,如主机、网络、路由器、负载均衡器、数据库、缓存等;
4. 资源详情:包括资源的基本属性、备份、告警;
5. 资源监控:资源监控的历史监控数据查询;
6. 工单系统:提交、查看和回复工单;
7. 通知系统:工单回复、余额不足、资源欠费停机、系统消息提醒;
8. 设置:用户反馈、关于Console。

扫码下载IOS应用

qrcode

 

IPsec 隧道增加健康检查功能;Windows 映像升级

IPsec 隧道增加健康检查功能

IPsec 协议虽然包含了 keepalive 以及 Dead Peer Detection 的内容,但是由于其协议的复杂性以及隧道两端设备兼容性的问题,会在某些情况下导致连接异常断开不能及时恢复。

现在可以为每一条 IPsec 隧道指定一个或者多个用于健康检查的 IP 地址,青云路由器会根据这些地址是否可达来判断连接是否异常,如果出现异常,会重建连接以保证 IPsec 隧道的高可用。

liveness_ip

Windows 映像升级

我们将Windows映像升级了到目前为止所有累积的重要更新,最新的版本如下:

  • Windows Server 2003 R2 简体中文 企业版 32位 ID: win2k3r2eechsf
  • Windows Server 2008 R2 简体中文 企业版 64位 ID: win2k8r2eechsg
  • Windows Server 2012 R2 简体中文 标准版 64位 ID: winsrv2012r2chsf

另外,新的 Windows 主机都会加载 QingCloud Guest Agent 服务,这个服务主要的目的是获取 Windows 主机的内存监控信息以及虚机的健康检查。

【安全公告】Microsoft Windows 系统 HTTP.sys 远程执行代码漏洞 (CVE-2015-1635)

微软于2015年4月14日发布 HTTP.sys 远程执行代码漏洞 (CVE-2015-1635) 公告,该漏洞存在 于HTTP 协议堆栈 (HTTP.sys) 中,当 HTTP.sys 未正确分析经特殊设计的 HTTP 请求时会导致此漏洞。 成功利用此漏洞的攻击者可以在系统帐户的上下文中执行任意代码。漏洞 详情请见【1】,漏洞原理分析及重现方法见【2】。

在青云 QingCloud, 该漏洞影响到所有基于以下 Windows 系统映像建立的、且以 IIS 提供web 服务的主机:

  • Windows Server 2008 R2 简体中文 企业版 64位    ID: win2k8r2eechse
  • Windows Server 2008 R2 简体中文 企业版 64位    ID: win2k8r2eechsf
  • Windows Server 2008 R2 英文 企业版 64位           ID: win2k8r2eeend
  • Windows Server 2012 R2 简体中文 标准版 64位    ID: winsrv2012r2chsf
  • Windows Server 2012 R2 简体中文 标准版 64位    ID: winsrv2012r2chse
  • Windows Server 2012 R2 英文 标准版 64位           ID: winsrv2012r2end

我们建议对所有基于以上系统映像创建的、且运行 IIS 的主机,务必做安全更新; 对基于以上映像创建,但不运行 IIS 的 Windows 主机,也建议更新,并关闭 IIS 的监听端口(一般为80)。做完安全更新后须重启主机。

安全更新方案请见【1】,或在主机内部做如下操作:

控制面板—>系统和安全—>更新,然后安装 KB3042553 号补丁。

青云 QingCloud 也会尽快更新所有区受影响的 Windows 系统映像。

【1】https://technet.microsoft.com/zh-cn/library/security/ms15-034.aspx
【2】http://www.freebuf.com/vuls/64195.html

负载均衡器后端支持直接填入 IP 地址;监控告警支持 Webhook 功能

负载均衡器后端支持直接填入 IP 地址

为了支持负载均衡器的多种应用场景需求,负载均衡器后端支持直接填入 IP 地址,该 IP 地址可以是任意合法的公网或者私网 IP。

可以满足的常见需求如:

  1. 对于公网负载均衡器,后端可以填入任意外网 IP 地址,为外部的后端服务提供负载均衡能力。
  2. 对于私网负载均衡器,后端可以填入任意私网 IP 地址,例如私网内的缓存节点 IP,为缓存服务提供负载均衡能力。

add backend

监控告警服务支持在通知列表中添加 Webhook 地址

Webhook 可以让你的系统直接收到青云的通知。当监控告警发生时,青云系统会以 HTTP POST 的方式将通知信息发送到指定 URL ,你可以在这个 URL 的接收逻辑中自行处理通知信息。

每加入一条新的 Webhook URL 都需要先进行验证。验证方法是在 URL Response 中返回指定的 token ,一旦通过验证就无需再在 Response 中保留这个 token 。 每个 URL 对于同一个用户只需验证一次。更多详情请参见相关文档

add_notification_webhook

其他 Web 控制台细节优化

1. 资源创建依赖管理:在创建关系型数据库、缓存和 ZooKeeper 等服务前会自动检测当前是否有符合需求的网络环境:私有网络、路由器等。用户可以按照步骤提示创建好相关资源,无需跳转至其他页面一一创建。

屏幕快照 2015-06-09 上午1.35.39

2. 资源列表支持更多属性排序查看:主要资源均支持ID、名称、创建时间、端口号等重要属性的排序功能,方便用户快速定位资源及配置。

屏幕快照 2015-06-09 上午1.36.47

关于2015年6月6日青云QingCloud广东1区(GD1)机房电力故障的补充说明

就6月6日广东1区(GD1)因雷暴引发的电力故障技术细节,我们同IDC运营商睿江科技进行了进一步沟通,并获得对方关于事故的补充说明。

根据补充说明,本次事故是由于“雷电击中楼体引发强地网电位,浪涌保护器未生效、UPS 受强干扰故障,多个因素叠加而成。 ”针对本次事故,睿江科技将采取以下整改措施:

  1. 整个机房重新进行防雷的技术评估,推进所需的防雷改造,防雷器的检查和增补。
  2. 重做 UPS 设备内部防雷器的检查与防雷评估。
  3. 抓紧和推进 UPS 故障应急维护机制,应急响应制度和措施的制定与执行,培训维护人员的应急处理规范和行为。 管理是主要的安全保障之一。

QingCloud会积极参与和监督机房的整改工作,全力提升基础设施服务水平。保障用户业务是我们高于一切的目标,我们会尽最大可能从故障中吸取教训,提供更好的服务。

青云QingCloud

附:睿江科技补充说明

01 04

 

关于2015年6月6日青云QingCloud广东1区(GD1)机房电力故障的详细说明

因广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障,6月6日下午QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用,对此我们深表歉意。现将事故完整过程报告给您:

13:48  我们收到GD1硬件及网络告警,并发现官网及控制台无法访问;工程师马上进行系统状态检查,发现GD1所有硬件设备出现重启;随即我们与GD1所在的IDC运营商沟通询问机房情况,同时排查其他可能导致设备重启的原因,并着手恢复管理服务(KS);其间,我们收到大量用户反映GD1业务中断;

14:08  操作切换DNS以恢复官网及控制台;

14:23  我们从IDC运营商处获知由于机房所在地区出现雷暴天气,机房因雷击引起UPS异常,机柜瞬时断电再加电,从而导致了青云的全部物理设备异常关机与重启;

14:38  GD1的管理服务恢复,Bots系统恢复,开始恢复用户主机;用户可以访问GD1资源;DNS完全生效,官网及控制台访问恢复;

15:15  内网DNS Server恢复;系统持续检查环境和帮助用户恢复业务;

16:19  GD1业务完全恢复,进一步检查后,于16:30分发布恢复公告。

本次严重故障从设备重启到用户业务恢复共耗时2小时31分钟,系统数据和用户的业务数据未出现任何丢失。

故障发生后,我们同IDC运营商“睿江科技”就事故原因和技术细节进行了持续沟通,并责成睿江科技出具真实、严谨的故障报告,力求全面了解机房电力系统和防雷系统发生故障的真实原因,以便在未来规避类似事件的再次发生。

截止目前,我们已经获取睿江科技提供的《关于20150606XX机房故障说明-青云》报告一份(附后),其中就雷击引起的电力故障进行了初步说明。通过报告,我们可以了解到的信息如下:

  1. 电力系统:直击雷导致电力系统出现瞬时浪涌,UPS启动自我保护(报告中提到的“UPS瞬时波动”),从而释放电流导致瞬间断电。
  2. 防雷系统:机房配备了强电、弱电、UPS及列头柜四级防雷,雷击主要是直击雷和感应雷两种,本次发生的是直击雷,现有防雷设施很难防护,从而导致雷电直接影响到电力系统,导致UPS断电保护。

但我们对其中的细节披露和专业解释仍存在以下疑问:

  1. 目前建筑防雷系统已相当成熟,可以防感应雷、直击雷和侧击雷。专业的IT基础设施中的四级防雷系统更应该是如此,本次事故中机房的防雷系统为何未能成功防护直击雷?
  2. 专业的IT设施防雷系统同民用防雷系统相比防护标准更加严格,本次事故的发生究竟是因为防雷系统失效还是因为防雷标准达不到专业IT设施标准?
  3. 防雷系统中包含浪涌保护器,在正常情况下,防雷系统和浪涌保护器会释放掉因雷击产生的瞬时脉冲,从而保证UPS不会产生瞬断。那么昨天的事故中是否存在浪涌保护器失效,未能释放掉因雷击产生的瞬时脉冲,进而导致UPS的断电保护?

就上述疑问,我们正在同睿江科技进行持续沟通以获得真实可信的故障原因分析,也会向您完整、透明地披露相关信息。后续我们也会给出相应的赔偿方案,青云QingCloud团队再次对此事故对您造成的影响深表歉意,也感谢大家对我们的理解与支持。

针对本次恶劣天气导致的事故,我们通过重新审视了故障发生和排除的全过程,认为我们的技术能力和服务能力还有以下些可以进一步改进的地方:

  1. 故障信息和故障排除进展的通告要更加及时。在昨天的事故中,我们首先将精力更多地投入到故障定位和排除上,在14:20才给出第一个故障通告,导致很多用户因缺乏信息产生焦虑。我们充分认识到及时、透明的信息通告的重要性,因此需要检讨在本次故障通告方面做的不够及时。为此我们制定了未来紧急情况下保障信息通知更加及时、准确的方案。我们会在第一时间通过网站、控制台及“青云QingCloud服务健康状态监控”网站(http://status.qingcloud.com)发布和更新系统异常及故障排除进展的通告,也会更及时地通过短信和邮件等形式向受影响的用户推送相关信息,以保证用户能更及时和准确地了解服务状态。我们非常理解在出现故障时用户面临着巨大的业务端压力,因此由衷地感谢用户们在了解故障信息后对我们给予的理解和支持;
  2. 在任何故障情况下,保障官网及控制台正常访问。目前我们的官网及控制台是通过DNS切换的方式确保在所在区出现网络不可达或系统故障的情况下尽快恢复访问。未来我们会制定更快速有效的办法进一步确保官网及控制台的正常访问;
  3. 在出现全部设备重启等极端故障情况下,更快地恢复管理服务和业务系统。本次在设备重启后,我们是通过Bots系统和人工操作结合的方式恢复了GD1的管理服务和用户业务,未来我们会编写更加智能的软件脚本,保障在极端情况下,业务系统能够更快速地恢复,将可能造成的损失降到更低;
  4. 提高IDC服务保障水平。我们会同目前公有云四个区所在机房分别就电力、暖通、网络等各个专业系统的基础设施水平、运营管理流程规范等方面进行更加严格和全面的检查,并同IDC运营商一同定期进行灾难演练,最大程度避免基础设施故障的发生;同时进一步加强同IDC运营商之间的信息沟通效率,确保第一时间了解任何异常情况;
  5. 容灾保护能力提升。将实现关键业务的容灾能力作为长期努力的目标,通过连接各个区的环网的建设和运营等手段实现更好的容灾能力。

综上,我们会全面审查故障处理流程,以应对机房断电等最极端的事故为标准进一步提升QingCloud系统的可用性,让信息传递更加及时和透明,通过自动化手段提高切换和业务恢复速度,让曾经发生的故障成为我们不断进步的和提高服务能力的源泉。

青云QingCloud

 

01 02 03 04

消息队列与集群管理服务上线

zk_q

消息队列与集群管理服务

在青云,你可以快速创建基于 ZooKeeper 协调管理的消息系统(Kafka)以处理大量活跃流式数据。

ZooKeeper

ZooKeeper 是一个高可用的分布式数据管理与系统协调软件,它可以为分布式应用提供状态同步、配置管理、名称服务、群组服务、分布式锁及队列、以及 Leader 选举等服务。主要支持以下特性:

  • 在线伸缩:ZooKeeper 支持横向、纵向的在线伸缩,既可以在线增加、删除节点,也可以在线更改资源配置。
  • 监控服务:ZooKeeper 提供了详细的监控信息,既有对每个节点的资源监控,如内存使用率等;也对每个节点提供了 ZooKeeper 服务监控,包括节点角色、响应延迟时间等。
  • 告警服务:我们对每个节点 ZooKeeper 服务是否正常进行监控并设置告警策略,一旦某个节点 ZooKeeper 服务发生异常就进行告警,并发送短信和邮件通知给用户。
  • 自我诊断与自我修复:当系统发现某节点坏死时会自我修复,无需人为干预。
  • 更多详情请参看《ZooKeeper服务指南》

消息队列 Message Queue

消息队列(Message Queue)服务是为了缓解消息生产者与消息消费者之间不同步问题,从而在两者之间加了一层缓冲区的一项服务。青云目前支持的 Kafka 是一个分布式、可分区、多副本的消息系统,具有高吞吐量、低延迟等优点。主要支持以下特性:

  • 在线伸缩:消息队列服务支持横向、纵向的在线伸缩,既可以在线增加、删除节点,也可以在线更改资源配置。
  • 监控服务:消息队列服务提供了详细的监控信息。以 Kafka 为例,既有对每个节点的资源监控,如内存使用率、 CPU 使用率等;也对每个节点提供了 Kafka 服务监控,包括 Java 虚拟机堆内存使用率、消息吞吐率、数据吞吐率等。
  • 告警服务:我们支持对每个节点配置监控告警策略,当发生异常时,会触发用户设定的告警阈值,并发送短信和邮件通知给用户。除了资源如CPU、内存、硬盘告警外, Kafka 还支持“存在异常分区”的监控告警。
  • 灵活组网:青云提供灵活的网络配置来支持 Kafka 的 broker, producer 和 consumer 都不在一个网段中的情况,可以通过修改 broker 的 Advertised 主机名 与 Advertised 端口来实现。
  • 配置修改:我们通过消息队列配置组来管理消息队列服务的配置。消息队列服务和消息队列配置组是解耦的,您可以创建多个独立的配置组,并应用到不同的消息队列服务。 消息队列服务在运行过程中,也可以随时变更配置组。
  • 更多详情请参看《消息队列服务指南》

简化集群管理 青云QingCloud推出ZooKeeper和消息队列服务

北京,2015年5月25日——

企业级基础云服务青云QingCloud日前宣布推出ZooKeeper集群管理服务和消息队列(Message Queue)服务。ZooKeeper是分布式系统中最基本的组件,能够协调管理分布式应用;消息队列服务是为了缓解消息的生产和消费之间的不对等,而在两者之间加的一层缓冲区,目前支持Kafka。这两项服务的推出能够最大限度的降低分布式系统的运维难度,帮助企业用户降低部署大数据业务的技术门槛。

zk_q

青云QingCloud是全球首家将ZooKeeper作为单独服务提供给用户的云服务商。通过ZooKeeper,分布式应用能够获得状态同步、配置管理、名称服务、群组服务、分布式锁及队列、以及Leader选举等服务。ZooKeeper是分布式系统的大脑,用户通过它能够协调和管理Hadoop、Spark、Storm、Kafka以及自主开发的分布式应用。将ZooKeeper作为一项单独的服务提供给用户,而不是捆绑在某一应用上对外提供服务,有助于用户发挥想象力,灵活使用ZooKeeper,实现业务层面的创新。

QingCloud提供的ZooKeeper服务有如下优势:

·在线伸缩:青云QingCloud提供的ZooKeeper集群具有真正意义上的横向、纵向在线伸缩能力,即ZooKeeper的在线伸缩对客户端是透明的,用户业务的连续性不会因此而中断。后续还会配合AutoScaling,达到ZooKeeper集群自动伸缩的效果。

·自我诊断和自我修复:系统会自动监测ZooKeeper集群的可用性,一旦发现故障就会启动自动修复功能,集群可在秒级内自动恢复,无需人为干预。

·监控告警:QingCloud ZooKeeper集群提供了丰富的监控服务,既包括CPU使用率、内存使用率、硬盘使用率、硬盘IOPS、硬盘吞吐量等资源监控,又包括针对ZooKeeper服务的特定监控项。除此之外,ZooKeeper服务还可以设置告警策略,超出阈值时发出告警,并向用户发送短信和邮件通知。

·安全性:ZooKeeper集群运行于QingCloud私有网络中,结合高性能硬盘,在保障高性能的同时兼顾用户的数据安全。

此外,最新推出的Kafka消息队列服务具有分布式、可分区、多副本的特性,主要用于处理活跃的流式数据,比如网页的访问量、日志等,能够实时或离线处理大量数据。跟传统的消息队列系统如RabbitMQ、ActiveMQ相比,Kafka具有高吞吐、低延迟等优势,已成为大数据处理平台中的常用组件。

与ZooKeeper集群管理服务类似,QingCloud Kafka消息队列服务同样具有在线伸缩的能力,且消息的发送和消费不会因为伸缩过程而中断;以及丰富的监控告警功能,减轻运维压力;Kafka各组件之间能够部署灵活的网络拓扑,即消息的Producer、Broker、Consumer以及ZooKeeper可以在不同的网络里。另外,QingCloud还提供了灵活的配置管理,允许用户自行定制Kafka集群。

青云QingCloud首席架构师林源表示,此次发布的ZooKeeper集群管理服务和消息队列服务是大数据平台的基础,为QingCloud即将推出的大数据服务提供支持。QingCloud预计在7月份会推出Hadoop服务,包括HDFS、MapReduce和HBase等基础组件,未来还会推出Spark和Storm等实时大数据服务。

20150519 ChangeLog

私有网络增加 172.16.0.0/16 网络

在将私有网络连接到路由器时,用户可以根据自身需求定义私有网络地址,目前支持 172.16.0.0/16 和 192.168.0.0/24 两种网络。

join router

Windows Centos58 增加内存使用率监控

增加了 Windows 和 Centos58 系统的内存使用率监控,包括实时和历史记录。且用户在为这两类操作系统主机设置监控告警条件时也可增加内存使用率的阈值条件。

monitoring

开放 Westmere CPU 指令集

指令集