青云 Spark 服务新增1.6.0 版本

相比之前的版本,1.6.0 主要变化包括:性能的提升、新的 Dataset API 以及增加了一些机器学习算法。具体体现在:

Spark Core/SQL 更新了一些 API 包括新增 Dataset API; 性能有极大提升比如 Parquet, SQL 查询等。

Spark Streaming 更新了一些 API 包括 Python Streaming Listener API;增加一些信息在 UI 上的显示。

MKlib 在以下几个方面增加了新的算法和新的模型,如:

  • Survival analysis
  • Normal equation for least squares
  • Online hypothesis testing
  • New feature transformers (ChiSqSelector, QuantileDiscretizer, SQL transformer)
  • Bisecting K-Means clustering

详情请见 http://spark.apache.org/releases/spark-release-1-6-0.html 和 青云 Spark 服务指南