机器学习算法:朴素贝叶斯

朴素贝叶斯是一个监督学习分类算法。 贝叶斯定理 贝叶斯定理由英国数学家托马斯·贝叶斯于 1763 年提出。 对于事件 A 和 B: $$P(A|B) = \frac {P(B|A)P(A)}{P(B)}$$ P(A) 称为先验概率(Prior Probability) »

机器学习算法:k-means

K-means 算法是一种聚类算法,用于将数据集划分到 k 个簇中,使得每个点都属于离它最近的质心(Centroid)所属的簇中。 算法过程 值域范围内随机 k 个质心; 将点指派到距离最近的质心,形成 k 个簇; 计算每个簇所有点的均值,指定新的质心; 重复第 2 步和第 3 步,直到收敛或满足最大迭代次数。 算法描述 给定数据集 »

学习 Spark MLlib(一):概览

Spark MLlib 是基于 Spark 的机器学习组件,包括两个包: ml 基于 DataFrame 的 API mllib 基于 RDD 的 API,处于维护模式 对比其它机器学习库,例如 scikit-learn,Spark MLlib 是一个分布式的机器学习库。 首先,Spark MLlib »