学习 Spark MLlib(三):统计

相关性 Correlation 相关性,用于描述随机变量之间线性关系的强度和方向。org.apache.spark.ml.stat.Correlation 用于计算向量的相关性矩阵,支持皮尔森(pearson,默认)和斯皮尔曼(spearman)。相关系数的取值范围是 [-1, 1],取值 (0, 1] 代表正相关,取值 [-1, 0) »

学习 Spark MLlib(二):线性代数

Breeze Breeze 作为数值处理的底层线性代数库,Spark 包装了 Breeze 库实现了机器学习算法。 Breeze GitHub 地址:https://github.com/scalanlp/breeze 依赖 编辑 pom.xml 文件,添加依赖: <dependency> <groupId& »

学习 Spark MLlib(一):概览

Spark MLlib 是基于 Spark 的机器学习组件,包括两个包: ml 基于 DataFrame 的 API mllib 基于 RDD 的 API,处于维护模式 对比其它机器学习库,例如 scikit-learn,Spark MLlib 是一个分布式的机器学习库。 首先,Spark MLlib »

Spark 调优(二):JVM 调优

Spark 由 Scala/Java 编写的,Spark 的 Driver 和 Executor 是运行在集群中的 JVM 进程,依赖 Java 内存管理和 GC。在生产环境中,通常使用几十上百甚至更大的内存,这在传统的 Java 应用中极为少见。 Spark 通过 spark.driver. »

Spark 调优(一):内存调优

Spark 之于 MapReduce 最大的优势在于,Spark 使用了内存计算最大程度的避免了数据落盘。从另一个角度,也说明了像 Spark 内存计算引擎对内存资源的依赖。所以,内存调优是 Spark 调优的重点。 堆内存和堆外内存 堆内存 在 JVM 堆上分配的内存,在 GC 范围内。 Driver 堆内存通过 --driver-memory 或 »