【C0099】quanteda文本分析

经济学 管理科学 新闻传播
计量经济学与因果推断
R
时间图标 2026-03-09
高级

quanteda 文本分析简介

什么是 quanteda?

quanteda 是 R 语言中一个强大且高效的包,专门用于量化文本数据分析。它提供了从文本导入、清洗、处理到统计建模和可视化的完整工作流。其核心优势在于处理大规模文本数据时的速度和内存效率。

本脚本功能概述

main.R 脚本演示了使用 quanteda 进行基础文本分析的典型流程:

  1. 数据加载:载入 R 内置的美国总统就职演说数据集 (data_corpus_inaugural),并筛选出 2000 年以后的演讲。
  2. 构建 DFM (Document-Feature Matrix):将非结构化文本转换为结构化的文档 - 特征矩阵。在此过程中执行了以下预处理步骤:
    • 转换为小写
    • 去除标点符号和数字
    • 去除英语停用词 (如 "the", "and", "is" 等)
  3. 描述性统计:提取并展示整个语料库中出现频率最高的前 10 个词汇。
  4. 关键词分析 (Keywords):通过卡方检验 ($\chi^2$),对比 2020 年演讲内容与历年其他演讲内容的差异,找出 2020 年特有的显著关键词。
  5. 共现分析准备:构建前 20 个高频词的词项共现矩阵 (Feature Co-occurrence Matrix),为后续的网络分析提供数据基础。

运行环境要求

  • R 版本 >= 4.0
  • 已安装套件:quanteda, quanteda.textplots, quanteda.textstats

如何运行

在 R 或 RStudio 环境中,确保已安装所需包,然后直接 sourcing main.R 文件即可看到控制台输出结果。

下载代码
兑换码获取图标 兑换码获取
文件名称: C0099.zip
文件大小: 0MB
更新时间: 2026-03-09