
【C0010】用大语言模型分析经济学文献:因果主张提取与知识图谱构建
项目概述
本项目是一个基于大语言模型的学术研究辅助工具,专门用于从经济学文献中自动提取因果逻辑关系并构建知识图谱。代码复现了经济学顶刊中关于因果推断演进的分析方法,帮助研究者量化分析学术文献中的因果主张和叙事复杂性。
核心思路
系统通过大语言模型(使用 OpenAI API 接口)批量处理经济学论文摘要,自动识别文本中的核心经济概念和因果关系。基于“因果革命”的理论框架,将非结构化的学术文本转化为结构化的知识图谱,通过图论算法计算因果主张比例、叙事复杂性等核心指标,从而量化分析经济学研究方法的演进趋势。
使用流程
1. 环境配置
需要配置 OpenAI API 密钥,安装 openai、pandas、networkx、matplotlib 等 Python 库。
2. 数据准备
准备“期刊样例.xlsx”数据文件,放置在 ./data/ 目录下。文件应包含“文章标题”和“文章摘要”两列必要数据,代码会自动清理缺失值。
3. 模型调用
通过多线程并行处理大量文献,使用精心设计的提示词让大模型提取概念和因果关系。
4. 知识图谱构建
将提取结果构建为有向图,节点代表经济概念,边代表因果关系。
5. 指标计算
自动计算因果主张比例、叙事复杂性、最长因果链等核心指标。
6. 结果可视化
生成特定领域的概念网络图,展示因果关系的分布和结构特征,并自动设置中文字体确保中文显示正常。
技术特色
支持 OpenAI API 调用,具备自动重试和错误处理机制
采用多线程并行处理,显著提升大批量文献处理效率
内置环路检测和修复算法,确保因果逻辑的合理性
提供完整的诊断报告,帮助研究者理解文献中的逻辑结构
自动处理数据清洗,去除缺失值,确保分析质量
支持中文可视化,自动配置中文字体避免乱码
该系统为经济学研究方法论研究提供了强大的计算支持,能够自动分析大量文献并提取有价值的模式特征,适用于学术趋势分析、研究方法评估等应用场景。
参考文献
Garg, P and T Fetzer (2025), “Causal Claims in Economics”, arXiv preprint arXiv:2501.06873.