
【C00107】tidymodels全流程
经济学
管理科学
新闻传播
计量经济学与因果推断
R
tidymodels 全流程简介
本项目演示了如何使用 R 语言中的 tidymodels 框架完成一个完整的机器学习分类任务。tidymodels 是一系列用于建模和机器学习的 R 包的集合,旨在提供统一、整洁的语法。
核心步骤
- 数据分割 (Data Splitting): 使用
initial_split()将数据划分为训练集和测试集,确保模型评估的公正性。 - 数据预处理 (Preprocessing): 通过
recipe()定义数据处理流程,包括数值特征的标准化 (step_normalize) 和分类特征的独热编码 (step_dummy)。 - 模型设定 (Model Specification): 定义模型类型(本例为随机森林
rand_forest)、引擎(ranger)及模式(分类classification)。 - 工作流构建 (Workflow): 使用
workflow()将预处理配方和模型规范捆绑在一起,简化后续操作。 - 重采样评估 (Resampling): 利用
vfold_cv()进行 K 折交叉验证,并通过fit_resamples()评估模型在未见数据上的泛化能力。 - 最终拟合与预测 (Final Fit): 使用
last_fit()在完整训练集上训练模型并在测试集上进行最终评估。
数据集
本示例使用 palmerpenguins 数据集,目标是根据企鹅的体型测量数据(如喙长、鳍长等)预测其物种(Adelie, Chinstrap, 或 Gentoo)。