Hadoop 服务上线

Hadoop 服务

Hadoop 是一个在大数据领域应用最广泛的、稳定可靠的、可扩展的用于分布式并行计算的开源软件。Hadoop 使用简洁的 MapReduce 编程模型来分布式的处理跨集群的大型数据集,集群规模可以扩展到几千甚至几万。相比于依赖昂贵的 硬件来实现高可用性,Hadoop是在假设每台机器都会出错的情况下,从软件层面来实现错误的检测和处理。青云提供的 Hadoop 集群服务包含:HDFS 分布式文件系统、Yarn 任务调度和集群资源管理系统以及 MapReduce 并行 分析计算系统。关于Hadoop 更多的详细信息,可参阅 Hadoop 官方网站 。

create hadoop

系统部署架构

Hadoop 集群采用的是 master/slave 架构,青云提供的 Hadoop 集群服务还包括在线伸缩、监控和告警等功能,帮助您更好地管理集群。 如下图所示,青云的 Hadoop 集群分三种节点类型:主节点 (Yarn Resource Manager 和 HDFS Name Node),从节点 (Yarn Node Manager 和 HDFS Data Node) 和客户端节点 (Hadoop Client Node)。 用户在客户端节点发起Map Reduce 任务,通过与 HDFS 和 Yarn 集群中各节点的交互存取文件和执行 MapReduce 任务,获取结果。

hadoop

另外,为了让用户更好的管理集群服务,我们提供了在线伸缩和监控告警功能。其中,

在线伸缩:

  • 增加节点:可以对每个新增节点指定 IP 或选择自动分配。
  • 删除节点:对集成 HDFS 的 Hadoop,删除节点是一个比较危险的操作,要仔细阅读相关文档
  • 纵向伸缩:由于不同类节点压力并不同,所以青云 Hadoop 支持对 Yarn Resource Manager 主节点、HDFS Name Node 主节点 和 Hadoop 从节点分别进行纵向伸缩。

监控与告警:

Hadoop HDFS, Yarn 和 MapReduce 提供了丰富的监控信息。如果需要通过公网访问这些信息您需要先在路由器上设置端口转发,同时打开防火墙相应的下行端口。详情请参看文档

同时我们还提供了对每个节点资源的监控和告警服务,包括 CPU 使用率、内存使用率、硬盘使用率等,以帮助用户更好的管理和维护 Hadoop 集群。

关于 Hadoop 服务的更多详情请参看使用指南