2322 数据资产信息披露水平(2010-2024)
| 数据来源 | 由数据皮皮侠团队人工整理,全部内容真实有效。 |
| 时间跨度 | 2010-2024 |
| 区域跨度 | 上市公司年报 |
| 数据格式 | Excel形式 |
企业数据资产信息披露水平变量,是依托文本分析技术,通过年报内容挖掘与关键词识别方法测算企业年度数据资产信息披露强度,并在跨期比较基础上,构建对数化与相对比例两种衡量指标作为量化判断企业数据资产信息披露透明度的分析视角。核心是通过关键词出现的绝对频次、对数化变换与相对比例,揭示企业在年报中对数据资产相关概念、应用与战略的披露强度与透明度。
基于此可展开多方面研究:一是数据资产信息披露的驱动因素研究,分析不同产权性质、融资约束、管理层背景、行业特征与数字化转型环境下企业披露数据资产信息的影响因素差异,探究数据资源禀赋、数字化投入、竞争压力、监管要求与治理结构对企业披露行为的差异化影响机制;二是数据资产信息披露的经济后果研究,验证数据资产信息披露对企业价值、资本市场定价效率、融资成本、经营绩效与创新能力的促进作用,分析其通过信息透明度提升、降低信息不对称、增强投资者信心与改善决策质量等中介路径产生影响的条件与边界;三是数据资产信息披露的动态演进与行业差异研究,追踪企业数据资产信息披露在时间序列上的演变趋势与结构特征,揭示不同行业、不同规模企业在数据资产披露内容、深度与广度上的异质性规律;四是数据资产信息披露的治理效应研究,探索高质量数据资产信息披露如何通过完善内部治理、强化外部监督、优化资源配置等渠道提升企业治理水平与风险管理能力;五是数据资产披露政策的评估与优化研究,考察会计准则完善、信息披露指引、数据要素市场建设等政策环境对企业数据资产披露行为的引导效果与结构影响,为构建科学合理、激励相容的数据资产信息披露体系提供循证依据。
本数据在参照李世刚,邵宏彬等(2025)的基础上,对识别方法进行了优化,基于上市公司年度报告文本数据构建"企业数据资产信息披露水平数据集",即通过文本挖掘、关键词识别与面板数据处理方法提取标准化企业数据资产信息披露强度信息,步骤如下:1、构建基于扩展关键词集的数据资产信息披露识别规则:在初始种子词"数据资产"和"数据资源"的基础上,利用FastText词向量模型在全体样本年报语料库中训练语义相似度,扩展获取语义最相近的前23个关键词,形成最终的数据资产相关关键词词典,以全面捕捉企业年报中与数据资产相关的各类表述2、对企业面板年报文本数据进行清洗、解析与公司-年度匹配:收集20010至2024年全部A股上市公司年度报告,经解析转换为仅有MD&A部分的纯文本格式,并按公司与年份进行匹配对齐;3、进行文本分析并计算最终指标:对每份年报文本进行中文分词,并加载自定义关键词词典以确保关键词不被误分,在分词后的文本中,统计数据资产相关关键词的出现总频次(TDA),计算年报文本的总词数(过滤掉长度小于2个中文字符的词)。按企业与报告年度分组,计算以下两个最终指标:
LNDA= Ln(1 + 数据资产相关关键词年度总频次)
PERDA = 数据资产相关关键词年度总频次 / 年报文本总词数。
Stkcd | StkName | Year | TDA |
TotalWords | LNDA | PERDA |
