南瑞集成与青云QingCloud共建云网融合创新中心

北京,2015年8月19日——

2015年8月18日,青云QingCloud与领先的电力行业IT解决方案供应商南瑞集团信息系统集成公司合作建立的云网融合创新中心在南京举行揭牌仪式。南瑞集成总经理李东辉和青云QingCloud CEO 黄允松出席了揭牌仪式,黄允松还在随后的主题演讲环节分享了QingCloud数据中心“零运维”的技术经验。

1

左起:南瑞集成总经理李东辉、青云QingCloud CEO黄允松

此次与QingCloud展开战略合作的是南瑞集团旗下的南瑞信息系统集成公司,它是国家电网的直属单位。作为国内电力行业的技术引领者和市场引导者,南瑞集成为电力行业提供专业、领先的电气化成套设备和整体解决方案,并致力于成为世界一流的国际化系统集成公司。

南瑞集成与QingCloud联手打造的云网融合创新中心,致力于电力行业云计算技术的深度探索和研究,为电力行业的业务创新提供技术保障。其现阶段的目标是利用云计算技术打造全新的软件定义的行业数据中心,以提高资源利用率,实现资源调度的敏捷性。

南瑞集成 CTO徐戟表示,南瑞集成与青云QingCloud共建云网融合创新中心标志着双方战略合作的开始。未来在云计算领域,南瑞集成将与QingCloud展开更加深入的合作,在电力行业云计算的技术创新上相互协作和支持。

青云QingCloud推出MongoDB服务 进一步完善数据库功能

北京,2015年8月3日——

基础云服务商青云QingCloud日前宣布,基于MongoDB的集群服务现已正式推出,用户可通过QingCloud云平台轻松地创建、监控与管理MongoDB集群。QingCloud提供了在线扩容、自动备份、灵活配置和监控告警等功能帮助用户实现便捷的运维管理,并且用户的MongoDB服务运行于专属的私有网络之中,能够最大限度地保证用户的数据安全。

  1

MongoDB是一款非常受欢迎的文档型非关系数据库。相比于传统关系型数据库,MongoDB高度可扩展,高可靠,且对高并发有更好的支持,无需开发人员手动编写SQL语句。相比于其他NoSQL数据库,MongoDB基于文档的数据模型及其动态建模的特性使得它更加自由灵活,适用于CRM、内容管理、事件纪录、商情分析、手机应用、社交平台等应用场景。

此次QingCloud推出的MongoDB集群服务基于其官方发布的3.0最新版本。根据官方提供的信息,MongoDB 3.0在性能和扩展性方面均有明显提升,不仅提升了7-10倍的写入效率以及增加80%的数据压缩率,还能减少95%的运维成本,对于绝大多数MongoDB用户是最好的选择。

具体而言,青云QingCloud MongoDB服务有如下特征:

· 集群服务:QingCloud提供MongoDB replica set集群, 默认情况下包括两个replica set节点(Primary, Priority0)。在此基础上, 用户可以添加多个replica set节点以满足更个性化的使用场景和业务需求。

· 在线扩容:用户可以随时根据自己的需求增加replica set节点数量和每个节点的存储容量,并且在多于两个节点的情况下,扩容不会对用户业务的连续性造成影响。

· 自动备份:用户可以在创建MongoDB集群时选择开启自动备份功能,数据库服务会在每日固定时段进行自动备份,与用户的手工备份一起最多保留20天。在数据库服务被彻底销毁前,用户可以选择从这些备份创建出全新的数据库服务。

· 灵活配置:QingCloud提供多种用户自定义配置,如maxConns(最大连接数)、oplogSize(oplog大小)、port(端口)设置,满足用户的个性化需求。

· 监控告警:QingCloud MongoDB服务提供了丰富的历史和实时监控数据,并能够根据用户自定义的告警策略,对超出阈值的监控数据发出告警,向用户发出邮件和短信通知,以及移动客户端的消息推送。

青云QingCloud CTO甘泉(Reno Gan)表示,MongoDB的发布进一步完善了QingCloud的数据库和缓存服务。未来,QingCloud还会推出SQL Server服务、事务型数据库集群服务,以及Cassandra、HBase等数据库相关服务,并与即将上线的Spark、Hadoop、Storm共同为用户提供完整的、一站式的数据存储和分析平台。

青云QingCloud 入选Gartner Hype Cycle IaaS中国代表厂商

北京,2015年8月1日——

日前,全球权威的IT研究和顾问咨询企业Gartner发布了”Hype Cycle for ICT in China, 2015”(简称“Hype Cycle”,意为技术成熟度曲线)。青云QingCloud作为专业的云服务提供商,凭借其灵活的计费方式、资源秒级响应、提供企业级云计算解决方案等特点入选IaaS中国代表厂商。

Hype Cycle是Gartner的技术研究报告,着眼于中国ICT行业发展趋势,分析了23种新型技术的影响力、采用模式和成熟度,并将其列入不同的技术发展时期,包括雏形期、期望值膨胀期、幻想破碎期、复苏期以及成熟期。

报告显示,IaaS在中国处于幻想破碎期,这意味着IaaS在国内不再是火热的概念,已经进入了落地阶段。青云QingCloud作为一家企业级云服务商,被Gartner列为IaaS代表厂商,在IaaS领域取得了卓越的成就:

首先,青云QingCloud云计算平台是一套纯自主研发,面向新一代云数据中心架构,软件定义的 IT 资源交付与管理平台。它面向严肃企业,提供稳定可靠、集成统一、弹性伸缩、智能高效并自主可控的云基础架构及服务,为客户带来积极而深远的价值。

其次,青云QingCloud已帮助多家企业逐步将业务系统在云平台部署,从而帮助其获得更为灵活、弹性、可扩展的IT服务,支撑业务的快速发展及互联化,包括中国银行、招商银行、九州证券、SOHO中国等大中型企事业单位,及领英赤兔、蘑菇街、人民网、环球网、极客公园、春雨医生等大量新兴行业及互联网企业。

关于7月22日和7月23日青云QingCloud北京2区(PEK2)网络故障说明

最近两天,青云经历了上线以来最艰难的一次考验。北京2区(PEK2)的两台汇聚层交换机的堆叠出现了 ARP TABLE 混乱,引致了局部内联机器丢包,大量PEK2用户在7月22日和23日经历了两次长时间网络中断。我们通过彻底更换新交换机修复了该故障,恢复了服务。在此,我们向所有受到事故影响的用户表达最真诚最深刻的歉意。

我们向您完整、如实地还原本次故障的全程如下:

7月22日

  • 12:47,我们收到大量北京2区(PEK2)内网网络告警,具体表现为PEK2网络内部大量物理服务器无法正常连通,出现丢包,导致大量PEK2用户网络中断。 经初步判定,问题锁定在内网汇聚层交换机,我们随即安排工程师至IDC现场处理。
  • 工程师抵达后,对全部环境及交换机进行检查,发现物理服务器及交换机的状态及配置并无异常,但表现的状态为内部网络随机不可达。根据故障状态,工程师进一步判定此问题为汇聚层交换机ARP TABLE混乱所致。
  • PEK2部署有两台H3C S5820V2交换机为 IRF2 堆叠使用。经过对两台交换机进行重启操作,至2015年7月22日15时15分,故障排除,内网恢复正常,用户业务逐渐恢复。
  • 故障排除后,我们的工程师团队一方面帮助用户解决因网络中断导致的技术问题,一方面同网络设备厂商H3C保持沟通以确定设备故障的根本原因。同时,为彻底避免故障复现,我们决定更换该设备,并连夜联系了Cisco安排新设备23日入场,并计划于24日凌晨进行设备替换。

7月23日

  • 13:15,PEK 2再次出现网络故障。我们即刻进行问题定位,初步认定是22日的故障再现。通过重启设备,网络于13:30恢复。
  • 13:50,交换机混乱再次导致PEK2内网故障,我们随即重启设备并取消堆叠,但是网络在短暂恢复后再次故障。
  • 14:30,在多次尝试仍无法保证网络稳定后,我们决定暂停PEK2的服务并决定尽快更换设备。
  • 15:57,在新设备部署的同时,我们定位到这个故障是由H3C两台堆叠设备中的一台引起的。我们将其下线,并临时由另一台设备承载业务,服务恢复。
  • 18:50,两台Cisco汇聚层交换机完成部署,新旧设备切换。在提前告知用户的情况下,网络因设备切换中断1分钟,随后PEK2网络恢复正常,本次硬件设备故障彻底排除。用户资源和数据未丢失。

本次网络中断完全因罕见的硬件故障导致,设备供应商H3C公司的工程师确认问题原因为一台S5820V2出现MMU硬件故障,导致Buffer调度出现紊乱,出口cell出现拥塞,导致报文无法转发。重启后能够暂时恢复转发,但运行一段时间后,故障会重新出现。同时,在一台设备故障后,S5820V2的IRF2分裂检测机制未触发,设备堆叠的冗余能力失效。H3C公司已提供正式报告(附后)。为避免相同问题出现,我们已决定陆续更换QingCloud系统中使用的全部该款设备,并马上对系统中所有硬件设备进行健康性排查。

我们深知,作为基础云服务商,我们的系统承载着保障用户业务连续的重大责任,也寄托着所有用户的信任。因此除了自身软件系统的稳定性与可靠性保障外,确保

数据中心基础设施、硬件设备和传输网络的可靠性和稳定性也是我们义不容辞的责任。正式上线的2年来,青云经历过各种不可预期的外部故障和事故的考验,在重重困难中,我们努力成长,汲取了教训,积累了经验,也收获了那么多用户的认可与信任。磨难让我们加倍努力也更加坚强。在未来,我们会采取包括加大资金投入在内的所有措施,不遗余力地加强各个方面的保障能力,全力守护用户业务的稳定。

对所有受到本次网络故障影响的用户,我们决定返还您一个月在PEK2的全部消费金额作为赔偿。 虽然赔偿并不能挽回对您的业务造成的影响,但我们希望通过这种方式体现我们最真诚的歉意,也希望您能够一如既往地信任我们。有您的理解与支持,青云必不辱使命。

问题分析报告 (1) 问题分析报告 (2)

问题分析报告 (3)

 

青云QingCloud荣膺亚太区Gartner Cool Vendors

北京,2015年7月16日——

日前,全球权威的IT研究和顾问咨询机构Gartner发布”Cool Vendors in Asia/Pacific, 2015”报告,评选出数百家亚太区提供优秀解决方案的IT企业。青云QingCloud作为一家专业的云服务商,入选成为亚太区Cool Vendors(最酷供应商)。

Gartner作为全球领先的信息技术研究和分析公司,对亚太区ICT行业进行深刻的调研和分析后,评选出百家具有代表性的IT企业,他们在技术创新、服务效率、市场影响力等方面均有突出表现。

青云QingCloud作为唯一入选Cool Vendors的云服务商,近年来在企业云服务市场的成就显著。Gartner在报告里提到,QingCloud具备完善的云服务及成熟的落地方案,能够满足企业用户对高可用、高性能和安全性的需求。此外,QingCloud自主研发的云平台,支持灵活的计费方案和资源的秒级响应。

报告还指出,青云QingCloud帮助企业实现从传统架构向新型互联网应用架构的平滑过渡,使其能够在使用公有云服务同时运行传统负载设备,而无需重构应用以适应公有云服务。

Future is now! 青云QingCloud用户大会亮点抢先看

北京,2015年7月8日——

2013年7月,一个叫做“青云”的云计算平台悄然上线,一个没几个人关注的、叫做“青云QingCloud”的公众小号在微博上喊出了一个大理想——“云计算将改变无序的、不合理的IT生态环境。”彼时,中国的云计算市场还是VPS的天下,CIO们关于“云计算究竟是什么”的讨论正风生水起。

理想是一粒种子,在真诚与勤奋的浇灌下才会生根发芽。感谢大家见证和陪伴QingCloud的成长,共同推动中国云计算行业的技术进步,建立市场信心。今天,我们真诚地邀请每一位家人共度QingCloud的节日,分享我们共同成长的故事,体会技术的魅力,展望科技创新的未来。

2015年7月22日,北京千禧大酒店,“Future is Now | 青云QingCloud用户大会(QCUC 2015)” 邀请你参加。更多详情:https://www.qingcloud.com/qcuc2015(免费注册码:news)

六大亮点抢先看

一、CEO脱口秀 

QingCloud诞生自一个“用技术改变世界”的理想,从无闻到有口皆碑,QingCloud是如何用技术征服市场?从公有云平台到完整的企业级云计算解决方案服务商,QingCloud又是又如何一步步践行自己的愿景?从第三方云服务商到整合了众多第三方产品的基础资源与服务平台,QingCloud如何打造基于开放的基础云平台的生态系统?展望未来,云计算将如何开创一个新的科技创新时代?且听 Richard娓娓道来。

二、多项重磅新功能以及大事件发布 

数据无忧、系统可靠、性能有保障是企业使用云计算的首要考虑因素,随着大数据时代的到来,企业对云存储、数据分析相关的需求越来越强烈,为了更好的服务企业用户,满足他们的需求, QingCloud将会在坚实的IaaS平台之上再次推出哪些重量级的产品与服务?作为2周年献礼, QingCloud准备了一个什么样的Big News?且待大会揭晓。

三、QingCloud研发管理经验分享

有着“技术好”口碑的QingCloud研发团队一直保持着小规模和高效率,在快速推出新功能的同时还承担着产品经理和客服的工作。在很多人眼中这几乎是Mission impossible,还曾经有很多公司专门前来交流学习QingCloud的研发管理经验。这种“No boss,no PM,no management,no orders,no ranks… ”的研发团队协同模式究竟是如何高效运行的?让QingCloud CTO Reno告诉你。

四、奔跑吧,创业者 

QingCloud除了给初创企业提供基础的IaaS平台支持之外,还逐步凝聚了一个完善的企业服务生态圈,通过不断完善自身的生态系统更好地帮助创业者获得优质的企业级服务和资源,促进初创企业的目标实现。

「创新者行」分论坛中,我们邀请了CSDN /极客帮基金创始人蒋涛、91金融CEO许泽玮、易快报CEO马春荃、FIT2CLOUD联合创始人&CEO阮志敏、融云联合创始人&CTO杨攀、fir.im联合创始人&CEO王猛、D.G.Z创始人Thomas Yao、36Kr联合创始人王壮、云智慧CEO殷晋等嘉宾从技术服务、管理运营等方面分享创业和管理经验,指导创业者走向成功。

五、云计算时代企业IT架构升级与创新 

从互联网到大型企业到政府部门,“云计算是新时代的IT形式”已经是大家的普遍共识,那么如何从传统IT架构平滑、高效地过渡到云计算架构已经是摆在CIO和IT经理们面前的一个现实问题。 QingCloud邀请了知名企业IT变革与创新的先行者们,分享云计算促进企业IT转型和业务创新的经验。

中国银行总行信息中心将会分享“新一代网络银行架构”,泰康人寿数据中心会从传统企业上云的角度来讲“泰康人寿的云计算演进”,南瑞集成也带来了“软件定义数据中心在国网中的探讨”等内容,通过这些专家的技术趋势分析和行业实战经验分享,让我们共同见证云计算为大型企业业务创新和IT架构升级带来的新机遇与新价值。我们邀请来自各行各业的IT决策人和从业者参与这场企业级云计算实践的高峰论坛,从先行者们的眼界与实践经验中攫取营养。

六、行业碰撞,思想交流

本届用户大会将会邀请来自传统企业和互联网企业的用户代表,如金融、政府、运营商、互联网金融、制造业、教育、在线视频、医疗、大数据、移动APP、电商、游戏等多个行业的嘉宾与技术爱好者共聚一堂,共同分享此饕餮盛宴。

青云QingCloud推出移动控制台 随时随地管理云端资源

北京,2015年6月23日——

企业级基础云服务商青云QingCloud日前宣布,基于云端IT资源管理的首款移动App——移动控制台(Mobile Console)现已正式上线,目前支持资源使用详情查询、历史监控数据查询、监控告警提醒、工单提交和查询、余额和欠费提醒等功能。通过移动客户端,用户不必局限于传统的Web端管理方式,还可以使用手机、平板电脑等移动设备随时随地、安全便捷地管理QingCloud云端资源,从而进一步提高运维人员的工作效率。

 青云QingCloud移动控制台

控制台、命令行和APIs是QingCloud为用户提供的三种云端资源管理方式。其中,控制台以其可视化的界面、便捷的操作方式成为用户首选的管理工具。此次,QingCloud将控制台的主要功能搬到移动端,并针对移动设备的特点进行相应的优化和调整,在满足用户移动运维需求的同时,充分发挥移动端的优势,让资源管理更简单、更轻松。

QingCloud移动控制台具有以下核心功能:

  • 资源监控与管理:QingCloud用户可以在移动客户端上查看账户全局的资源使用和消费概况,以及各区的主机、硬盘、网络、路由器、负载均衡器、关系型数据库、缓存等资源详情和监控数据。移动控制台提供可视化的界面展示各监控项,让运维及相关技术人员能够随时随地掌握当前资源的运行状况。
  • 消息推送与告警服务:监控告警的及时性对于企业的IT运维至关重要,QingCloud通过移动客户端及时推送告警信息,让用户能够第一时间了解到资源状态异常并快速做出调整,从而确保用户业务的稳定性和高可用性。同时,当用户余额不足或者欠费时,移动设备也会收到相应的消息提醒。
  • 移动工单系统:工单系统是用户与QingCloud工程师之间最佳的沟通方式。通过移动控制台,用户能够在移动设备上提交、查看和回复工单,与QingCloud工程师保持密切沟通。

青云QingCloud CTO甘泉(Reno Gan)表示,作为QingCloud发布的首款移动App,移动控制台在完善云+端产品线的同时,为用户提供了一种更加轻松便捷的工作方式。下一阶段,QingCloud移动控制台还将逐步增加对资源的编辑功能,包括资源的启停、配置、删除和恢复等,并最大程度地简化操作流程、提升用户体验,让云端资源管理操作更加简单易用。此外,Android版本移动控制台也将于近期推出。

QingCloud移动控制台现已正式登陆苹果应用商店(App Store),可扫描下方二维码,或者搜索“青云QingCloud”前往下载体验。(下载链接:https://appsto.re/cn/MbqP5.i)

 青云QingCloud-控制台二维码

关于2015年6月6日青云QingCloud广东1区(GD1)机房电力故障的补充说明

就6月6日广东1区(GD1)因雷暴引发的电力故障技术细节,我们同IDC运营商睿江科技进行了进一步沟通,并获得对方关于事故的补充说明。

根据补充说明,本次事故是由于“雷电击中楼体引发强地网电位,浪涌保护器未生效、UPS 受强干扰故障,多个因素叠加而成。 ”针对本次事故,睿江科技将采取以下整改措施:

  1. 整个机房重新进行防雷的技术评估,推进所需的防雷改造,防雷器的检查和增补。
  2. 重做 UPS 设备内部防雷器的检查与防雷评估。
  3. 抓紧和推进 UPS 故障应急维护机制,应急响应制度和措施的制定与执行,培训维护人员的应急处理规范和行为。 管理是主要的安全保障之一。

QingCloud会积极参与和监督机房的整改工作,全力提升基础设施服务水平。保障用户业务是我们高于一切的目标,我们会尽最大可能从故障中吸取教训,提供更好的服务。

青云QingCloud

附:睿江科技补充说明

01 04

 

关于2015年6月6日青云QingCloud广东1区(GD1)机房电力故障的详细说明

因广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障,6月6日下午QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用,对此我们深表歉意。现将事故完整过程报告给您:

13:48  我们收到GD1硬件及网络告警,并发现官网及控制台无法访问;工程师马上进行系统状态检查,发现GD1所有硬件设备出现重启;随即我们与GD1所在的IDC运营商沟通询问机房情况,同时排查其他可能导致设备重启的原因,并着手恢复管理服务(KS);其间,我们收到大量用户反映GD1业务中断;

14:08  操作切换DNS以恢复官网及控制台;

14:23  我们从IDC运营商处获知由于机房所在地区出现雷暴天气,机房因雷击引起UPS异常,机柜瞬时断电再加电,从而导致了青云的全部物理设备异常关机与重启;

14:38  GD1的管理服务恢复,Bots系统恢复,开始恢复用户主机;用户可以访问GD1资源;DNS完全生效,官网及控制台访问恢复;

15:15  内网DNS Server恢复;系统持续检查环境和帮助用户恢复业务;

16:19  GD1业务完全恢复,进一步检查后,于16:30分发布恢复公告。

本次严重故障从设备重启到用户业务恢复共耗时2小时31分钟,系统数据和用户的业务数据未出现任何丢失。

故障发生后,我们同IDC运营商“睿江科技”就事故原因和技术细节进行了持续沟通,并责成睿江科技出具真实、严谨的故障报告,力求全面了解机房电力系统和防雷系统发生故障的真实原因,以便在未来规避类似事件的再次发生。

截止目前,我们已经获取睿江科技提供的《关于20150606XX机房故障说明-青云》报告一份(附后),其中就雷击引起的电力故障进行了初步说明。通过报告,我们可以了解到的信息如下:

  1. 电力系统:直击雷导致电力系统出现瞬时浪涌,UPS启动自我保护(报告中提到的“UPS瞬时波动”),从而释放电流导致瞬间断电。
  2. 防雷系统:机房配备了强电、弱电、UPS及列头柜四级防雷,雷击主要是直击雷和感应雷两种,本次发生的是直击雷,现有防雷设施很难防护,从而导致雷电直接影响到电力系统,导致UPS断电保护。

但我们对其中的细节披露和专业解释仍存在以下疑问:

  1. 目前建筑防雷系统已相当成熟,可以防感应雷、直击雷和侧击雷。专业的IT基础设施中的四级防雷系统更应该是如此,本次事故中机房的防雷系统为何未能成功防护直击雷?
  2. 专业的IT设施防雷系统同民用防雷系统相比防护标准更加严格,本次事故的发生究竟是因为防雷系统失效还是因为防雷标准达不到专业IT设施标准?
  3. 防雷系统中包含浪涌保护器,在正常情况下,防雷系统和浪涌保护器会释放掉因雷击产生的瞬时脉冲,从而保证UPS不会产生瞬断。那么昨天的事故中是否存在浪涌保护器失效,未能释放掉因雷击产生的瞬时脉冲,进而导致UPS的断电保护?

就上述疑问,我们正在同睿江科技进行持续沟通以获得真实可信的故障原因分析,也会向您完整、透明地披露相关信息。后续我们也会给出相应的赔偿方案,青云QingCloud团队再次对此事故对您造成的影响深表歉意,也感谢大家对我们的理解与支持。

针对本次恶劣天气导致的事故,我们通过重新审视了故障发生和排除的全过程,认为我们的技术能力和服务能力还有以下些可以进一步改进的地方:

  1. 故障信息和故障排除进展的通告要更加及时。在昨天的事故中,我们首先将精力更多地投入到故障定位和排除上,在14:20才给出第一个故障通告,导致很多用户因缺乏信息产生焦虑。我们充分认识到及时、透明的信息通告的重要性,因此需要检讨在本次故障通告方面做的不够及时。为此我们制定了未来紧急情况下保障信息通知更加及时、准确的方案。我们会在第一时间通过网站、控制台及“青云QingCloud服务健康状态监控”网站(http://status.qingcloud.com)发布和更新系统异常及故障排除进展的通告,也会更及时地通过短信和邮件等形式向受影响的用户推送相关信息,以保证用户能更及时和准确地了解服务状态。我们非常理解在出现故障时用户面临着巨大的业务端压力,因此由衷地感谢用户们在了解故障信息后对我们给予的理解和支持;
  2. 在任何故障情况下,保障官网及控制台正常访问。目前我们的官网及控制台是通过DNS切换的方式确保在所在区出现网络不可达或系统故障的情况下尽快恢复访问。未来我们会制定更快速有效的办法进一步确保官网及控制台的正常访问;
  3. 在出现全部设备重启等极端故障情况下,更快地恢复管理服务和业务系统。本次在设备重启后,我们是通过Bots系统和人工操作结合的方式恢复了GD1的管理服务和用户业务,未来我们会编写更加智能的软件脚本,保障在极端情况下,业务系统能够更快速地恢复,将可能造成的损失降到更低;
  4. 提高IDC服务保障水平。我们会同目前公有云四个区所在机房分别就电力、暖通、网络等各个专业系统的基础设施水平、运营管理流程规范等方面进行更加严格和全面的检查,并同IDC运营商一同定期进行灾难演练,最大程度避免基础设施故障的发生;同时进一步加强同IDC运营商之间的信息沟通效率,确保第一时间了解任何异常情况;
  5. 容灾保护能力提升。将实现关键业务的容灾能力作为长期努力的目标,通过连接各个区的环网的建设和运营等手段实现更好的容灾能力。

综上,我们会全面审查故障处理流程,以应对机房断电等最极端的事故为标准进一步提升QingCloud系统的可用性,让信息传递更加及时和透明,通过自动化手段提高切换和业务恢复速度,让曾经发生的故障成为我们不断进步的和提高服务能力的源泉。

青云QingCloud

 

01 02 03 04

简化集群管理 青云QingCloud推出ZooKeeper和消息队列服务

北京,2015年5月25日——

企业级基础云服务青云QingCloud日前宣布推出ZooKeeper集群管理服务和消息队列(Message Queue)服务。ZooKeeper是分布式系统中最基本的组件,能够协调管理分布式应用;消息队列服务是为了缓解消息的生产和消费之间的不对等,而在两者之间加的一层缓冲区,目前支持Kafka。这两项服务的推出能够最大限度的降低分布式系统的运维难度,帮助企业用户降低部署大数据业务的技术门槛。

zk_q

青云QingCloud是全球首家将ZooKeeper作为单独服务提供给用户的云服务商。通过ZooKeeper,分布式应用能够获得状态同步、配置管理、名称服务、群组服务、分布式锁及队列、以及Leader选举等服务。ZooKeeper是分布式系统的大脑,用户通过它能够协调和管理Hadoop、Spark、Storm、Kafka以及自主开发的分布式应用。将ZooKeeper作为一项单独的服务提供给用户,而不是捆绑在某一应用上对外提供服务,有助于用户发挥想象力,灵活使用ZooKeeper,实现业务层面的创新。

QingCloud提供的ZooKeeper服务有如下优势:

·在线伸缩:青云QingCloud提供的ZooKeeper集群具有真正意义上的横向、纵向在线伸缩能力,即ZooKeeper的在线伸缩对客户端是透明的,用户业务的连续性不会因此而中断。后续还会配合AutoScaling,达到ZooKeeper集群自动伸缩的效果。

·自我诊断和自我修复:系统会自动监测ZooKeeper集群的可用性,一旦发现故障就会启动自动修复功能,集群可在秒级内自动恢复,无需人为干预。

·监控告警:QingCloud ZooKeeper集群提供了丰富的监控服务,既包括CPU使用率、内存使用率、硬盘使用率、硬盘IOPS、硬盘吞吐量等资源监控,又包括针对ZooKeeper服务的特定监控项。除此之外,ZooKeeper服务还可以设置告警策略,超出阈值时发出告警,并向用户发送短信和邮件通知。

·安全性:ZooKeeper集群运行于QingCloud私有网络中,结合高性能硬盘,在保障高性能的同时兼顾用户的数据安全。

此外,最新推出的Kafka消息队列服务具有分布式、可分区、多副本的特性,主要用于处理活跃的流式数据,比如网页的访问量、日志等,能够实时或离线处理大量数据。跟传统的消息队列系统如RabbitMQ、ActiveMQ相比,Kafka具有高吞吐、低延迟等优势,已成为大数据处理平台中的常用组件。

与ZooKeeper集群管理服务类似,QingCloud Kafka消息队列服务同样具有在线伸缩的能力,且消息的发送和消费不会因为伸缩过程而中断;以及丰富的监控告警功能,减轻运维压力;Kafka各组件之间能够部署灵活的网络拓扑,即消息的Producer、Broker、Consumer以及ZooKeeper可以在不同的网络里。另外,QingCloud还提供了灵活的配置管理,允许用户自行定制Kafka集群。

青云QingCloud首席架构师林源表示,此次发布的ZooKeeper集群管理服务和消息队列服务是大数据平台的基础,为QingCloud即将推出的大数据服务提供支持。QingCloud预计在7月份会推出Hadoop服务,包括HDFS、MapReduce和HBase等基础组件,未来还会推出Spark和Storm等实时大数据服务。