13.聚类

13 聚类

13.1 无监督学习简介

在无监督学习中，我们的训练样本不包含任何标签$y$。算法将从训练样本中找到一些隐含在数据中的结构。

13.2 K-Means算法

在聚类算法中，算法将无标签的数据划分成有紧密关系的簇。

K-Means算法是最热门的聚类算法，K-Means算法接收2个输入，分别是K（要划分的簇的个数）、无标签的训练数据集。算法过程如下：
1)随机初始化聚类中心：随机选取K个点，称为聚类中心。
2)分配到簇：对于m个训练样本，计算到K个中心点的距离，然后将其划分到距离最近的中心点对应的簇中。即$c^{(i)}:=\underset{k}{min}||x^{(i)}-u_k||^2,k\in[1,K]$
3)移动聚类中心：对于K个簇，分别计算每一个簇中的点的平均值，将该簇所关联的中心点移动到平均值的位置。这里的$u_k$是一个n维向量。(对于没有点的簇，可以直接删除该中心点或者重新初始化中心点)
4)重复2-3步骤，直至中心点不再变化。

下面是一个K-Means算法的示例：

初始化随机的中心点，计算距离后分类，然后移动中心点

多次迭代后，最终的聚类结果如下：

在没有非常明显组群的情况下，也可以使用K-Means：对于右图是不同人的身高体重，我们想要设计S、M、L三种型号的衬衫，那么就可以将数据划分成3类，每类就对应一种衬衫型号。

13.3 优化目标

了解K-Means算法的代价函数有助于理解算法过程，也可以借助它帮助K-Means算法找到更好的簇，并且避免局部最优解。

K-Means的代价函数为：$J(c^{(1)},…,c^{(m)},u_1,…,u_K)=\frac{1}{m}\sum_{i=1}^{m}||x^{(i)}-u_{c^{(i)}}||^2$.我们要找到参数$c^{(1)},…,c^{(m)}$, $u_1,…,u_K$使得代价函数$J$最小。即要最小化所有数据点与其所关联的聚类中心点之间的距离之和。该代价函数也称为失真代价函数（distortion cost function）