2316 碳信息披露水平(CID)2010-2024
| 数据来源 | 由数据皮皮侠团队人工整理,全部内容真实有效。 |
| 时间跨度 | 2010-2024 |
| 区域跨度 | . |
| 数据格式 | Excel形式 |
企业碳信息披露水平(CID)是衡量制造业企业在其社会责任报告中主动、量化地披露碳减排相关信息程度的综合指标。本数据集基于2007—2024年中国制造业上市公司正式发布的社会责任报告构建,覆盖多个制造业细分行业。核心指标包括:股票代码、公司全称、年份、行业代码、报告总字数、加权总词频_TF_i以及计算得到的CID值。CID定义为“经行业-年份TF-IDF加权后的碳信息关键词总词频”除以“报告总字数”,数值越大表明企业在单位文字内披露的碳战略与碳治理信息越密集、越系统化。低碳战略维度涵盖长期减排规划、目标设定、低碳技术研发等关键词;低碳治理维度涵盖碳管理部门、管理制度、内部定价等关键词。本数据集严格遵循词项加权法,考虑了同行业同年份内关键词的稀有性及报告篇幅差异,能够较客观地反映企业宣称的碳减排努力水平。
基于本数据集,研究者可从以下三方面展开系统分析。一是制造业碳信息披露的驱动因素研究。将CID指标与公司治理结构、环境规制强度、媒体监督等变量匹配,采用面板固定效应模型或Tobit模型,检验不同所有制、不同地区企业在碳信息披露行为上的异质性,识别影响企业碳透明度的关键内外部因素。二是碳信息披露对企业绿色创新的影响研究。利用CID指标与企业绿色专利数量、环保研发投入等创新变量进行回归分析,探究碳信息自愿性披露是否能够倒逼企业增加低碳技术投入、提升绿色创新绩效,并检验融资约束的中介作用。三是碳信息披露的经济与环境后果评估。将CID指标与企业财务绩效、托宾Q值、碳排放强度等变量关联,分析高质量的碳信息披露是否有助于降低企业权益资本成本、增强投资者信心,并同时带来实质性的碳减排效果,为“双碳”目标下的企业信息披露政策提供量化依据。
本数据集的CID指标通过Python代码计算完成。首先,使用jieba分词库对社会责任报告文本进行预处理,并加载自行构建的“低碳战略”与“低碳治理”两个维度的关键词库(共57个关键词)以及停用词表(749个词)。其次,遍历2007—2024年收集到的制造业企业的报告文本,统计每个报告中各关键词的原始词频(tf_{c,i})及报告总字数(l_i,去除空白字符)。再次,以同行业(证监会三位行业代码)、同年份为分组单位,计算每组内的报告总数(N)以及每个关键词在该组内出现的报告数(df_c)。接着,应用词项加权法计算每个关键词的权重w_{c,i} = ((1+log(tf_{c,i}))/(1+log(l_i))) * log(N/df_c),并将同一报告内所有关键词的加权词频求和得到TF_i。最后,计算CID = TF_i / l_i,并将结果按股票代码和年份排序后保存为Excel文件。数据缺失的处理方式为:若某报告无法提取6位股票代码或该股票不在制造业行业代码表中,则直接剔除该报告;若报告文本为空则跳过。
股票代码 | 公司全称 | 年份 | 行业代码 |
报告总字数 | 加权总词频_TF_i | 碳信息披露水平_CID |

[1] Zhao, K., Wu, R. and Yang, J. (2026). 'Climate policy uncertainty and corporate carbon information disclosure catering behavior: An empirical study based on Chinese manufacturing enterprises', Business Strategy and the Environment. doi:10.1002/bse.70453.