【C00107】tidymodels全流程

经济学管理科学新闻传播

计量经济学与因果推断

2026-03-09

高级

tidymodels 全流程简介

本项目演示了如何使用 R 语言中的 tidymodels 框架完成一个完整的机器学习分类任务。tidymodels 是一系列用于建模和机器学习的 R 包的集合，旨在提供统一、整洁的语法。

数据分割 (Data Splitting): 使用 initial_split() 将数据划分为训练集和测试集，确保模型评估的公正性。
数据预处理 (Preprocessing): 通过 recipe() 定义数据处理流程，包括数值特征的标准化 (step_normalize) 和分类特征的独热编码 (step_dummy)。
模型设定 (Model Specification): 定义模型类型（本例为随机森林 rand_forest）、引擎（ranger）及模式（分类 classification）。
工作流构建 (Workflow): 使用 workflow() 将预处理配方和模型规范捆绑在一起，简化后续操作。
重采样评估 (Resampling): 利用 vfold_cv() 进行 K 折交叉验证，并通过 fit_resamples() 评估模型在未见数据上的泛化能力。
最终拟合与预测 (Final Fit): 使用 last_fit() 在完整训练集上训练模型并在测试集上进行最终评估。

本示例使用 palmerpenguins 数据集，目标是根据企鹅的体型测量数据（如喙长、鳍长等）预测其物种（Adelie, Chinstrap, 或 Gentoo）。

下载代码

兑换码获取

文件名称： C00107.zip

文件大小： 0MB

更新时间： 2026-03-09