聚类是数据挖掘中的基本任务,聚类是将大量数据集中具有“相似”特征的数据点划分为统一类别,并最终生成多个类的方法。
聚类分析的基本思想是“物以类聚、人以群分”,因此大量的数据集中必然存在相似的数据点,基于这个假设就可以将数据区分出来,并发现每个数据集(分类)的特征。
与聚类的概念类似的另外一个概念是“分类”,实际上二者经常被混用。但二者根本上是不同的:
- 学习方式不同。聚类是一种非监督式学习算法,而分类是监督式学习算法。
- 对源数据集要求不同。聚类不要求源数据集有标签,但分类需要标签用来做学习。
- 应用场景不同。聚类一般应用于做数据探索性分析,而分类更多的用于预测性分析。
- 解读结果不同。聚类算法的结