学习 Spark 2(十五):Hints

Spark 2.2 版本之后,提供了 hint 功能,用于标记查询从而提示查询优化器。 语法 SQL 语法说明: hints: : /*+ hint[, hint, ...] */ hint: : hintName [(expression[, expression, ...])] 可以在 SELECT 语句中的 /*+ ... */ 注释中添加 hint。 也可以通过调用 Dataset 的 »

学习 Spark MLlib 特征工程(三):Bucketizer 和 QuantileDiscretizer

Bucketizer 根据用户指定的分桶,将连续的特征转化为特征分桶。 定义分桶的条件: 分桶最小值必须小于 DataFrame 中的最小值; 分桶最大值必须大于 DataFrame 中的最大值; 分桶必须至少三个; 分桶必须严格递增。 举🌰 样例分桶: val splits = Array(Double.NegativeInfinity, -0.5, 0.0, 0.5, Double. »

学习 Spark MLlib 特征工程(一):RFormula

RFormula 借鉴了 R 语言的 R model formula 进行特征选择。RFormula 仅支持部分 R 操作,包括: ~ 分隔因变量(LHS 左侧)和自变量(RHS 右侧); + 合并变量,+0 意为移除截距; - 移除变量,-1 意为移除截距; »

学习 Spark MLlib(三):统计

相关性 Correlation 相关性,用于描述随机变量之间线性关系的强度和方向。org.apache.spark.ml.stat.Correlation 用于计算向量的相关性矩阵,支持皮尔森(pearson,默认)和斯皮尔曼(spearman)。相关系数的取值范围是 [-1, 1],取值 (0, 1] 代表正相关,取值 [-1, 0) »