【C0164】LLM文本指标增强出口预测：机器学习模型与实证复现

经济学

大规模计算计量经济学与因果推断机器学习与深度学习

Python

2026-06-04

高级

本项目围绕“非结构化数据能否增强出口预测”这一主题展开，基于公开复现材料整理形成一套可运行的核心代码与数据复现包。项目以出口预测为研究对象，在传统结构化宏观变量的基础上，引入大语言模型生成的文本指标，比较加入 LLM 指标前后模型预测效果的变化。

传统出口预测通常依赖工业生产、价格指数、PMI、汇率、国际需求、物流运输、全球风险等结构化数据。这些变量具有可量化、可建模的优势，但也存在发布滞后、难以及时捕捉市场预期和外部风险冲击等问题。非结构化文本中包含大量关于政策变化、国际贸易环境、供应链扰动、市场预期和风险情绪的信息，因此有可能为出口预测提供额外增量信息。

本复现包主要包括结构化宏观数据、LLM 文本指标、核心模型代码、预训练模型文件、特征列文件、标准化器文件以及核心运行脚本。代码覆盖基准预测、SHAP 解释、机制检验、词典法对比、国别/省份扩展检验和多特征引入检验等模块。为了便于本地运行，复现包对路径读取、缺失字段处理、scaler 列对齐、GPU/CPU 兼容、Excel 输出等部分进行了本地化适配，使其能够在 Windows + Anaconda 环境下稳定执行。

项目使用 ARIMA、GBDT、LightGBM、随机森林、XGBoost、LSTM 等多类模型进行对比，并重点展示 XGBoost 模型在加入 LLM 指标后的预测表现。复现结果显示，加入 LLM 文本指标后，多数机器学习模型的预测误差下降，尤其在 T+6 中长期预测中提升更明显，说明非结构化文本信息能够补充传统结构化宏观变量难以捕捉的预期与风险信号。

预测步长	模型	MAPE	R²	同比方向准确率
T+1	noLLM	0.0351	0.7788	1.0000
T+1	withLLM	0.0246	0.8968	1.0000
T+3	noLLM	0.0414	0.6824	0.7778
T+3	withLLM	0.0350	0.7470	1.0000
T+6	noLLM	0.0533	0.5163	0.5714
T+6	withLLM	0.0318	0.7208	0.8571

下载代码

兑换码获取

文件名称： replication-elite-universities.zip

文件大小： 0.27MB

更新时间： 2026-06-04

订阅代码会员

模型	T+1 noLLM MAPE	T+1 withLLM MAPE	T+3 noLLM MAPE	T+3 withLLM MAPE	T+6 noLLM MAPE	T+6 withLLM MAPE
GBDT	0.0542	0.0385	0.0488	0.0319	0.0490	0.0425
LightGBM	0.0475	0.0399	0.0458	0.0357	0.0453	0.0324
RF	0.0575	0.0461	0.0643	0.0511	0.0472	0.0389
XGBoost	0.0351	0.0246	0.0414	0.0350	0.0533	0.0318

检验方法	预测步长	noLLM MAPE	withLLM MAPE	结果说明
TSCV	T+1	0.0445	0.0295	LLM 明显提升
TSCV	T+3	0.0500	0.0389	LLM 有效提升
TSCV	T+6	0.0538	0.0318	LLM 提升明显

预测步长	noLLM MAPE	LLM 残差指标 MAPE	结果说明
T+1	0.0351	0.0266	残差信息有效
T+3	0.0414	0.0354	残差信息有效
T+6	0.0533	0.0392	残差信息有效

【C0164】LLM文本指标增强出口预测：机器学习模型与实证复现

1. XGBoost 基准预测结果

2. 多模型对比结果

3. 稳健性检验结果

4. SHAP 解释结果

5. 机制检验结果

预测步长	LLM SHAP 贡献占比
T+1	约 4.98%
T+3	约 3.67%
T+6	约 8.59%