DeepLearning 深度学习平台发布容器版及 CPU 优化版,新增 GPU 状态监控

自 QingCloud DeepLearning 推出以来,吸引了很多用户。深度学习框架本身都在比较快的更新,例如 TensorFlow 基本每个月都会有版本更新。除了深度学习框架自身的版本及其 CPU/GPU 版的区分外,CUDA 及 cuDNN 也区分不同版本,再加上 Python 的不同版本,使得配置深度学习开发及部署环境异常复杂。

为了解决上述问题并满足用户以后在 Kubernetes 上运行深度学习应用的需求,青云QingCloud 推出 DeepLearning 深度学习平台容器版,并为非容器版提供了更多版本框架的安装包。CPU 在深度学习任务中也能发挥重要作用,联合英特尔发布的 CPU 优化版,为一些深度学习应用的长期部署提供了价廉物美的解决方案。据测试,英特尔优化版的 TensorFlow,在 16 核 Broadwell 平台上,ResNet 50 的推理速度可达 40 imgs/s,能够满足轻量级模型的训练和推理需求。

 GPU 是深度学习的重要资源,之前版本只能监控到 CPU 和内存的状态,用户运行 GPU 任务时,无法方便查看 GPU 的使用状态,新版本中 GPU 状态(核心和显存使用状况)可以在监控界面直接查看。此次更新包含以下版本功能升级:立即使用→

1.2 GPU 容器基础版/容器高级版

  • 宿主机中预装 NVIDIA Driver(387.26), CUDA(9.1), nvidia-docker2, Docker(18.03.1-ce);
  • 宿主机中预置包含 TensorFlow(1.8.0), Keras(2.2.0), PyTorch(0.4.1), Caffe(BVLC 1.0) 框架的 Docker 镜像;
  • 提供适用于青云云平台的5个深度学习框架的镜像仓库:DeepLearning, TensorFlow, Keras, PyTorch, Caffe; 每个仓库包含多个不同 Python 版本,不同 CUDA 及 cuDNN 版本的 docker 镜像;
  • 增加 GPU 监控功能,随时掌握 GPU 使用状况;
  • 内置 GPU 容器版的 Deep Learning 测试Demo;

1.2 CPU 容器版

  • 宿主机中预装 Docker(18.03.1-ce);
  • 宿主机中预置包含 TensorFlow(1.8.0), Keras(2.2.0), PyTorch(0.4.1), Caffe(BVLC 1.0) 框架的 Docker 镜像;
  • 提供适用于青云云平台的5个深度学习框架的镜像仓库:DeepLearning, TensorFlow, Keras, PyTorch, Caffe; 每个仓库包含多个不同 Python 版本,不同 CUDA 及 cuDNN 版本的 docker 镜像;
  • 内置 CPU 容器版的 Deep Learning 测试Demo;