Spark 调优(三):Linux 调优

关闭 SWAP SWAP,又称为交换内存。Linux 操作系统使用 SWAP 作为系统的额外内存,当内存使用量超过了物理内存,就会使用 SWAP 确保系统不会崩溃。SWAP 是在磁盘上的虚拟内存,读写速度较物理内存更慢。 由于硬件成本的不断降低,部署 Spark 的机器通常分配了大量的内存资源。所以,可以关闭 SWAP,执行命令: sudo swapoff -a »

学习 Spark MLlib(二):线性代数

Breeze Breeze 作为数值处理的底层线性代数库,Spark 包装了 Breeze 库实现了机器学习算法。 Breeze GitHub 地址:https://github.com/scalanlp/breeze 依赖 编辑 pom.xml 文件,添加依赖: <dependency> <groupId& »

学习 Spark MLlib(一):概览

Spark MLlib 是基于 Spark 的机器学习组件,包括两个包: ml 基于 DataFrame 的 API mllib 基于 RDD 的 API,处于维护模式 对比其它机器学习库,例如 scikit-learn,Spark MLlib 是一个分布式的机器学习库。 首先,Spark MLlib »

Spark 调优(二):JVM 调优

Spark 由 Scala/Java 编写的,Spark 的 Driver 和 Executor 是运行在集群中的 JVM 进程,依赖 Java 内存管理和 GC。在生产环境中,通常使用几十上百甚至更大的内存,这在传统的 Java 应用中极为少见。 Spark 通过 spark.driver. »

Spark 调优(一):内存调优

Spark 之于 MapReduce 最大的优势在于,Spark 使用了内存计算最大程度的避免了数据落盘。从另一个角度,也说明了像 Spark 内存计算引擎对内存资源的依赖。所以,内存调优是 Spark 调优的重点。 堆内存和堆外内存 堆内存 在 JVM 堆上分配的内存,在 GC 范围内。 Driver 堆内存通过 --driver-memory 或 »