
【C00106】KNN分类
经济学
管理科学
新闻传播
计量经济学与因果推断
R
KNN 分类简介
什么是 KNN?
K-近邻算法(K-Nearest Neighbors, KNN)是一种基本的分类与回归方法。在分类任务中,其核心思想是:如果一个样本在特征空间中的 K 个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
算法原理
- 计算距离:计算测试对象与训练集中所有对象之间的距离(通常使用欧氏距离)。
- 寻找邻居:找出距离最近的 K 个训练样本。
- 多数投票:统计这 K 个样本中各个类别出现的频率。
- 确定类别:将出现频率最高的类别作为测试对象的预测类别。
本代码说明
提供的 main.R 脚本使用了 R 语言内置的 iris(鸢尾花)数据集。程序自动将数据按 7:3 比例划分为训练集和测试集,设定 K 值为 5,利用 class 包中的 knn 函数进行建模,并输出混淆矩阵及分类准确率,用于评估模型性能。