
【C0127】上市公司AI漂洗(AI Washing)指标计算Python代码
经济学
会计金融
管理科学
数据整理与描述分析
科研图表与可视化
计量经济学与因果推断
自然语言处理
Python
1. AIW 指标的复刻原理
代码把 AIW 拆成两个部分:
1. AI_disclosure:企业在年报中披露 AI 相关内容的强度。2. AI_invest:企业在样本期内相对于同行业同年份平均水平的 AI 实质投入强度。
最后将这两个指标标准化后做差:
含义是:
• AI_disclosure越高,说明企业越喜欢在年报里讲 AI。• AI_invest越高,说明企业的 AI 投入越扎实。• AIW越高,说明“说得多、投得少”的倾向越明显。
1.1 构造 AI_disclosure
2.2 关键词加权公式
文中给出的关键词权重为:
其中:
• w_{k,i}:企业i文本中关键词k的权重• N:语料库中年报总数• N_k:包含关键词k的年报数量• fr_{k,i}:关键词k在企业i文本中的原始出现频次• word_i:企业i文本总长度
2.3 AI_disclosure 的形成
在得到关键词加权结果后,作者进一步计算企业年度的调整后词频 frw_{i,t},再除以企业当年文本总长度,得到:
• AI_disclosure:企业当年 AI 披露强度
文中解释为:值越高,代表企业披露的 AI 相关信息越丰富、AI 话语密度越高。
1.2 构造 AI_invest
作者使用 CSMAR 数据库中的人工智能投资数据来刻画企业 AI 实质性投入,具体口径为:
• 使用企业财务报表中披露的 AI 相关资本化支出 • 这些支出在会计上被计入无形资产或固定资产 • 已费用化的 AI 支出由于无法按技术类别单独识别,因此不纳入该指标
为增强可比性,作者进一步对 AI 投资进行了 行业-年份均值调整:
• 以企业当年 AI 投资减去所属行业当年平均 AI 投资 • 得到最终变量 AI_invest
因此,AI_invest 反映的是企业相对于行业同年平均水平的 AI 实质性投入强弱。
本项目的代码还做了两步常见处理:
• 剔除金融行业样本: J66、J67、J68、J69• 剔除 ST企业• 对 AI_disclosure和ai_invest都做 1% 双侧缩尾
1.3 最终指标:构造 AIW
将 AI_disclosure 和 ai_invest 分别标准化后,再相减:
也就是说,作者先分别对披露和投入做标准化,再取二者差值:
• 标准化后的 AI 披露越高,AIW 越高 • 标准化后的 AI 投入越高,AIW 越低 • 因而 “高披露、低投入” 的企业会表现出更高的 AIW
