机器学习:KMeans算法

机器学习:KMeans算法。聚类算法,处理没有先验结果的数据集(只有特征没有目标值的样本数据)。先设定中心点,再计算样本到中心点的距离,多轮之后中心点趋于稳定,不再变化,则停止计算。

KMeans有向个常用的评估方法:sse、ssc、ch等几种方法,其中ch方法可以找到最合适的k值,k是指聚类的个数,即分几个类,是KMeans算法的关键。

sse 计算类内部的离散程度,越密就越好。

ssc 计算类内部的离散程序,同时计算类之间的距离(距离大为好)。

ch 计算每个类内部的离散程度、计算类之间的距离、计算分类个数即k值(分类越少越好,但起码有2个类以上)。