KNN 最近邻算法（K近邻）

说明

机器学习教程正在计划编写中，欢迎大家加微信 gr99123 提供意见、建议、纠错、催更。

KNN（K-Nearest Neighbor）是机器学习入门级的分类算法，也是最为简单的算法。它实现将距离近的样本点划为同一类别，KNN 中的K指的是近邻个数，也就是最近的K个点，根据它距离最近的K个点是什么类别来判断属于哪个类别。

思想原理

「人以群分，物语类聚」、「近朱者赤，近墨者黑」是 KNN 的核心思想。这其实和我们在日常生活中评价一个人的方法是一样的，如果你想要知道一个人是怎么样的，那就去找和他关系好的几个人看看对他的评价或者看和他关系好的人是什么样子的，就可以大致判断出他是什么样的人了。

KNN 最近邻算法

其中的 K 就是 K 个最近的邻居的意思。KNN 的原理就是当预测一个待分类的值 x 的时候，通过计算找出离它距离最近的 K 个样本，然后由这个 K 个样本投票决定 x 归为哪一类。

我们也可以看到实现这个算法的两个核心问题是计算距离和选取 K 的取值。

KNN 算法的步骤：

更加详细的步骤为：

以下是一个 KNN 算法的动态演示，他能够根据取不同 K 的值将白点归到不同的类别。

KNN 最近邻算法

当 K 取值不同的时候，判别的结果是不同的。所以该算法中 K 值如何选择将非常重要，因为它会影响到我们最终的结果。

KNN 算法中用样本之间的距离来衡量样本之间的相似度。常用的距离有：

其中：

欧式距离最为常用，n 个 p 维样本 x_i 其欧式距离公式如下：

$d(x_i, x_j) = \sqrt{\sum_{k=1}^p(x_{ik} - x_{jk})^2}$

距离的计算本教程会单独做介绍。

计算量太大，尤其是特征数非常多的时候。每一个待分类文本都要计算它到全体已知样本的距离，才能得到它的第K个最近邻点。
样本不平衡的时候，对稀有类别的预测准确率低。当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。

K-Nearest Neighbors 是用于分类和回归的机器学习算法(主要用于分类)。它考虑了不同的质心，并使用欧几里得函数来比较距离。接着分析结果并将每个点分类到组中，以优化它，使其与所有最接近的点一起放置。它使用k个最近邻的多数票对数据进行分类预测。

# todo

< NumPy 教程机器学习教程鸢尾花（iris）数据集 >

更新时间：2021-10-09 10:14:23 标签：机器学习算法