1. K-均值聚类

让我们了解无需大量数学知识的K-Means聚类! 1.1 K-Means的核心思想 K-Means是一种无监督的机器学习技术,其核心思想是基于某些特征以某种方式对记录或数据点进行分组(或聚类),以便每个组包含彼此非常相似但与记录不太相似的记录其他群体。 在这里,就记录或数据点而言,我只是指数据集的一行,对于 要素而言,我指的是数据集的列 。 这里要注意的一件重要事情是,在对记录进行分组时,我们实际上不知道可以为每个组分配什么标签(或名称)? 或将哪种或哪种记录分组在一起? 这使得K-Means成为无监督的机器学习技术。 将记录分组在一起后,我们可以随机检查每个组中的某些记录,并尝试了解将哪些记录保持在一起和/或是否可以基于该特定组中的记录为该组命名? 因此,我们可以执行这种类型的手动评估(有时称为“定性检查”)来了解K-Means如何处理我们的数据 。 但是,由于这是手动检查,因此如果您有大量组或每个组中有大量记录,则可能不可行。 因此,由于这是一种无监督的技术,因此没有完美的方法来评估组的质量,但是,几乎没有数学和统计方法来评估组的质量,因此我们可以进行相当好的分组,但是在这里我们不会进入那个数学资料! 此外,还没有任何完美的方法来确定数据的组数(#-group或#clusters或K均值中的K)。 有时,主题知识有助于确定K的值,但并非总是如此! 1.2让我们看一个例子…