【C0099】quanteda文本分析

经济学管理科学新闻传播

计量经济学与因果推断

2026-03-09

高级

quanteda 文本分析简介

quanteda 是 R 语言中一个强大且高效的包，专门用于量化文本数据分析。它提供了从文本导入、清洗、处理到统计建模和可视化的完整工作流。其核心优势在于处理大规模文本数据时的速度和内存效率。

本 main.R 脚本演示了使用 quanteda 进行基础文本分析的典型流程：

数据加载：载入 R 内置的美国总统就职演说数据集 (data_corpus_inaugural)，并筛选出 2000 年以后的演讲。
构建 DFM (Document-Feature Matrix)：将非结构化文本转换为结构化的文档 - 特征矩阵。在此过程中执行了以下预处理步骤：
- 转换为小写
- 去除标点符号和数字
- 去除英语停用词 (如 "the", "and", "is" 等)
描述性统计：提取并展示整个语料库中出现频率最高的前 10 个词汇。
关键词分析 (Keywords)：通过卡方检验 ($\chi^2$)，对比 2020 年演讲内容与历年其他演讲内容的差异，找出 2020 年特有的显著关键词。
共现分析准备：构建前 20 个高频词的词项共现矩阵 (Feature Co-occurrence Matrix)，为后续的网络分析提供数据基础。

在 R 或 RStudio 环境中，确保已安装所需包，然后直接 sourcing main.R 文件即可看到控制台输出结果。

下载代码

兑换码获取

文件名称： C0099.zip

文件大小： 0MB

更新时间： 2026-03-09