【C00107】tidymodels全流程

经济学 管理科学 新闻传播
计量经济学与因果推断
R
时间图标 2026-03-09
高级

tidymodels 全流程简介

本项目演示了如何使用 R 语言中的 tidymodels 框架完成一个完整的机器学习分类任务。tidymodels 是一系列用于建模和机器学习的 R 包的集合,旨在提供统一、整洁的语法。

核心步骤

  1. 数据分割 (Data Splitting): 使用 initial_split() 将数据划分为训练集和测试集,确保模型评估的公正性。
  2. 数据预处理 (Preprocessing): 通过 recipe() 定义数据处理流程,包括数值特征的标准化 (step_normalize) 和分类特征的独热编码 (step_dummy)。
  3. 模型设定 (Model Specification): 定义模型类型(本例为随机森林 rand_forest)、引擎(ranger)及模式(分类 classification)。
  4. 工作流构建 (Workflow): 使用 workflow() 将预处理配方和模型规范捆绑在一起,简化后续操作。
  5. 重采样评估 (Resampling): 利用 vfold_cv() 进行 K 折交叉验证,并通过 fit_resamples() 评估模型在未见数据上的泛化能力。
  6. 最终拟合与预测 (Final Fit): 使用 last_fit() 在完整训练集上训练模型并在测试集上进行最终评估。

数据集

本示例使用 palmerpenguins 数据集,目标是根据企鹅的体型测量数据(如喙长、鳍长等)预测其物种(Adelie, Chinstrap, 或 Gentoo)。

下载代码
兑换码获取图标 兑换码获取
文件名称: C00107.zip
文件大小: 0MB
更新时间: 2026-03-09