学习 Spark MLlib 特征工程(三):Bucketizer 和 QuantileDiscretizer

Bucketizer 根据用户指定的分桶,将连续的特征转化为特征分桶。 定义分桶的条件: 分桶最小值必须小于 DataFrame 中的最小值; 分桶最大值必须大于 DataFrame 中的最大值; 分桶必须至少三个; 分桶必须严格递增。 举🌰 样例分桶: val splits = Array(Double.NegativeInfinity, -0.5, 0.0, 0.5, Double. »

学习 Spark MLlib 特征工程(一):RFormula

RFormula 借鉴了 R 语言的 R model formula 进行特征选择。RFormula 仅支持部分 R 操作,包括: ~ 分隔因变量(LHS 左侧)和自变量(RHS 右侧); + 合并变量,+0 意为移除截距; - 移除变量,-1 意为移除截距; »

Spark 调优(四):Hadoop 调优

HDFS 调优 数据本地化 TODO YARN 调优 加速应用启动 执行 spark-shell --master yarn 或 spark-submit --master yarn 在 YARN 上启动 Spark 的时候,会将 {SPARK_HOME}/jars 目录下的 JAR »

Spark 调优(三):Linux 调优

关闭 SWAP SWAP,又称为交换内存。Linux 操作系统使用 SWAP 作为系统的额外内存,当内存使用量超过了物理内存,就会使用 SWAP 确保系统不会崩溃。SWAP 是在磁盘上的虚拟内存,读写速度较物理内存更慢。 由于硬件成本的不断降低,部署 Spark 的机器通常分配了大量的内存资源。所以,可以关闭 SWAP,执行命令: sudo swapoff -a »