相比之前的版本,1.6.0 主要变化包括:性能的提升、新的 Dataset API 以及增加了一些机器学习算法。具体体现在:
Spark Core/SQL 更新了一些 API 包括新增 Dataset API; 性能有极大提升比如 Parquet, SQL 查询等。
Spark Streaming 更新了一些 API 包括 Python Streaming Listener API;增加一些信息在 UI 上的显示。
MKlib 在以下几个方面增加了新的算法和新的模型,如:
- Survival analysis
- Normal equation for least squares
- Online hypothesis testing
- New feature transformers (ChiSqSelector, QuantileDiscretizer, SQL transformer)
- Bisecting K-Means clustering
详情请见 http://spark.apache.org/releases/spark-release-1-6-0.html 和 青云 Spark 服务指南