
【C0097】STM结构主题模型
经济学
管理科学
新闻传播
计量经济学与因果推断
R
STM 结构主题模型 (Structural Topic Model)
概述
STM (Structural Topic Model) 是一种允许研究者将文档的元数据(如作者、时间、来源等协变量)直接纳入主题建模过程的统计方法。与传统的 LDA 模型不同,STM 不仅关注文档中包含哪些主题,还能量化协变量如何影响主题的流行度(Prevalence)以及协变量如何影响主题的具体内容(Content)。
核心功能
本 main.R 脚本实现了以下核心流程:
- 数据预处理:自动进行分词、去停用词、词干提取等操作,构建文档 - 词项矩阵。
- 模型拟合:基于光谱初始化(Spectral Initialization)算法估计主题分布,支持引入时间序列平滑项和分类变量。
- 协变量分析:
- 流行度回归:分析不同群体(如政党、部门)或不同时间段对特定主题关注度的差异。
- 内容回归:分析不同群体在描述同一主题时使用的词汇差异。
适用场景
- 社会科学文献分析(如分析不同党派演讲的主题差异)。
- 舆情监控(分析时间推移下公众关注点的演变)。
- 客户反馈分析(分析不同用户群体的投诉焦点)。
依赖环境
- R 语言环境 (>= 4.0)
- 主要包:
stm,tidytext,dplyr