1914 中国上市公司数智化(1991-2024)
| 数据来源 | 原始数据来源于A股上市公司年报文本,由数据皮皮侠团队人工整理,全部内容真实有效。 |
| 时间跨度 | 1991年-2024年 |
| 区域跨度 | A股上市公司 |
| 数据格式 | 数据格式为Excel形式 |
企业数智化是一项系统性变革,其指标的数据价值在于能够客观量化企业数字化与智能化融合的深度和广度,通过Python文本分析构建的数智化关键词词频指标,不仅可识别企业技术应用的真实水平,还能动态追踪数智化转型进程,为研究企业行为变革提供可观测的微观基础。从研究价值看,该指标揭示了数智化对企业信息披露行为的重塑机制:一方面拓展了数字化转型经济后果的研究边界,从传统关注的治理效率、市场表现延伸至信息披露策略选择;另一方面通过验证数智化对正式渠道量化预测信息的替代效应,揭示了企业利用非正式渠道定性披露规避风险、优化沟通的新范式,为理解数字经济时代企业信息披露的渠道偏好、形式创新及风险应对机制提供了理论突破,因此本数据参考刘凌冰,王语彤,耿会欣(2024)的做法,构建上市公司数智化指标。
首先,我们基于A股上市公司年报的文本数据,利用上市公司行业分类名单,剔除金融业和保险业的公司以及ST和期间退市的样本,对筛选出的制年报进行中文分词处理,参考哈工大停用词表,过滤掉年报文本中的停用词,即提取有效词汇,随后基于预定义的数智化专业词典识别行业特征术语,其中部分数智化识别术语如下:
“智能金融合约”,“机器学习”,“流计算”,“深度学习”,“混合现实”,“差分隐私技术”,“智能医疗”,“电子商务”,“…..”
分别计算各公司年报中特征术语的绝对出现频次及其占总文本词汇量的相对比重,由于这类数据具有典型的 “右偏性” 特征, 对其进行对数化处理 (即加 1 后取自然对数) , 从而得到刻画企业数智化程度的整体指标,包含股票代码、公司名称、总词数、特征词频次及占比的结构化数据集,为监管部门完善信息披露规则、投资者提升信息甄别能力提供了实践启示。
股票代码 | 公司名称 | 年份 |
总文本词数 | 对数化词频 | 标准化词频 |

[1]刘凌冰,王语彤,耿会欣.企业数智化与量化预算目标信息披露行为[J].会计研究,2024,(11):63-78.