学习 Spark MLlib(二):线性代数

Breeze Breeze 作为数值处理的底层线性代数库,Spark 包装了 Breeze 库实现了机器学习算法。 Breeze GitHub 地址:https://github.com/scalanlp/breeze 依赖 编辑 pom.xml 文件,添加依赖: <dependency> <groupId& »

机器学习算法(二):朴素贝叶斯

朴素贝叶斯是一个监督学习分类算法。 贝叶斯定理 贝叶斯定理由英国数学家托马斯·贝叶斯于 1763 年提出。 对于事件 A 和 B: $$P(A|B) = \frac {P(B|A)P(A)}{P(B)}$$ P(A) 称为先验概率(Prior Probability) »

机器学习算法(一):K-means

K-means 算法是一种聚类算法,用于将数据集划分到 k 个簇中,使得每个点都属于离它最近的质心(Centroid)所属的簇中。 算法过程 值域范围内随机 k 个质心; 将点指派到距离最近的质心,形成 k 个簇; 计算每个簇所有点的均值,指定新的质心; 重复第 2 步和第 3 步,直到收敛或满足最大迭代次数。 算法描述 给定数据集 »

学习 Spark MLlib(一):概览

Spark MLlib 是基于 Spark 的机器学习组件,包括两个包: ml 基于 DataFrame 的 API mllib 基于 RDD 的 API,处于维护模式 对比其它机器学习库,例如 scikit-learn,Spark MLlib 是一个分布式的机器学习库。 首先,Spark MLlib »