【C0164】LLM文本指标增强出口预测:机器学习模型与实证复现

经济学
大规模计算 计量经济学与因果推断 机器学习与深度学习
Python
时间图标 2026-06-04
高级

本项目围绕“非结构化数据能否增强出口预测”这一主题展开,基于公开复现材料整理形成一套可运行的核心代码与数据复现包。项目以出口预测为研究对象,在传统结构化宏观变量的基础上,引入大语言模型生成的文本指标,比较加入 LLM 指标前后模型预测效果的变化。

传统出口预测通常依赖工业生产、价格指数、PMI、汇率、国际需求、物流运输、全球风险等结构化数据。这些变量具有可量化、可建模的优势,但也存在发布滞后、难以及时捕捉市场预期和外部风险冲击等问题。非结构化文本中包含大量关于政策变化、国际贸易环境、供应链扰动、市场预期和风险情绪的信息,因此有可能为出口预测提供额外增量信息。

本复现包主要包括结构化宏观数据、LLM 文本指标、核心模型代码、预训练模型文件、特征列文件、标准化器文件以及核心运行脚本。代码覆盖基准预测、SHAP 解释、机制检验、词典法对比、国别/省份扩展检验和多特征引入检验等模块。为了便于本地运行,复现包对路径读取、缺失字段处理、scaler 列对齐、GPU/CPU 兼容、Excel 输出等部分进行了本地化适配,使其能够在 Windows + Anaconda 环境下稳定执行。

项目使用 ARIMA、GBDT、LightGBM、随机森林、XGBoost、LSTM 等多类模型进行对比,并重点展示 XGBoost 模型在加入 LLM 指标后的预测表现。复现结果显示,加入 LLM 文本指标后,多数机器学习模型的预测误差下降,尤其在 T+6 中长期预测中提升更明显,说明非结构化文本信息能够补充传统结构化宏观变量难以捕捉的预期与风险信号。


下载代码
兑换码获取图标 兑换码获取
文件名称: replication-elite-universities.zip
文件大小: 0.27MB
更新时间: 2026-06-04