
【C0099】quanteda文本分析
经济学
管理科学
新闻传播
计量经济学与因果推断
R
quanteda 文本分析简介
什么是 quanteda?
quanteda 是 R 语言中一个强大且高效的包,专门用于量化文本数据分析。它提供了从文本导入、清洗、处理到统计建模和可视化的完整工作流。其核心优势在于处理大规模文本数据时的速度和内存效率。
本脚本功能概述
本 main.R 脚本演示了使用 quanteda 进行基础文本分析的典型流程:
- 数据加载:载入 R 内置的美国总统就职演说数据集 (
data_corpus_inaugural),并筛选出 2000 年以后的演讲。 - 构建 DFM (Document-Feature Matrix):将非结构化文本转换为结构化的文档 - 特征矩阵。在此过程中执行了以下预处理步骤:
- 转换为小写
- 去除标点符号和数字
- 去除英语停用词 (如 "the", "and", "is" 等)
- 描述性统计:提取并展示整个语料库中出现频率最高的前 10 个词汇。
- 关键词分析 (Keywords):通过卡方检验 ($\chi^2$),对比 2020 年演讲内容与历年其他演讲内容的差异,找出 2020 年特有的显著关键词。
- 共现分析准备:构建前 20 个高频词的词项共现矩阵 (Feature Co-occurrence Matrix),为后续的网络分析提供数据基础。
运行环境要求
- R 版本 >= 4.0
- 已安装套件:
quanteda,quanteda.textplots,quanteda.textstats
如何运行
在 R 或 RStudio 环境中,确保已安装所需包,然后直接 sourcing main.R 文件即可看到控制台输出结果。