
【C0039】TF-IDF文本向量化
新闻传播
自然语言处理
Python
TF-IDF 文本向量化简介
TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索和文本挖掘的常用加权技术。它用于评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。
核心原理
- 词频 (TF): 某个词在文章中出现的频率。
- 逆文档频率 (IDF): 衡量一个词普遍重要性的指标。如果一个词在很多文章中都出现,那么它的 IDF 值就会较低。
公式:
- $TF(t, d) = \frac{\text{词 t 在文档 d 中出现的次数}}{\text{文档 d 的总词数}}$
- $IDF(t) = \log \frac{\text{语料库中文档总数}}{\text{包含词 t 的文档数 + 1}}$
- $TF\text{-}IDF = TF \times IDF$
本代码功能
本脚本使用 Python 的 scikit-learn 库,对预设的中文文档列表进行 TF-IDF 向量化处理,并将结果以 JSON 格式打印输出,展示每个文档中关键词及其对应的权重分数。