【C0097】STM结构主题模型

经济学 管理科学 新闻传播
计量经济学与因果推断
R
时间图标 2026-03-09
高级

STM 结构主题模型 (Structural Topic Model)

概述

STM (Structural Topic Model) 是一种允许研究者将文档的元数据(如作者、时间、来源等协变量)直接纳入主题建模过程的统计方法。与传统的 LDA 模型不同,STM 不仅关注文档中包含哪些主题,还能量化协变量如何影响主题的流行度(Prevalence)以及协变量如何影响主题的具体内容(Content)

核心功能

main.R 脚本实现了以下核心流程:

  1. 数据预处理:自动进行分词、去停用词、词干提取等操作,构建文档 - 词项矩阵。
  2. 模型拟合:基于光谱初始化(Spectral Initialization)算法估计主题分布,支持引入时间序列平滑项和分类变量。
  3. 协变量分析
    • 流行度回归:分析不同群体(如政党、部门)或不同时间段对特定主题关注度的差异。
    • 内容回归:分析不同群体在描述同一主题时使用的词汇差异。

适用场景

  • 社会科学文献分析(如分析不同党派演讲的主题差异)。
  • 舆情监控(分析时间推移下公众关注点的演变)。
  • 客户反馈分析(分析不同用户群体的投诉焦点)。

依赖环境

  • R 语言环境 (>= 4.0)
  • 主要包:stm, tidytext, dplyr
下载代码
兑换码获取图标 兑换码获取
文件名称: C0097.zip
文件大小: 0MB
更新时间: 2026-03-09