2321 地市级数字技术创新水平(2000-2025)

关键字:数字技术创新 发布时间:2026-05-14 查看更多详细信息
数据来源 由数据皮皮侠团队人工整理,全部内容真实有效
时间跨度 2000-2025
区域跨度 .
数据格式 Excel形式
数据简介

数字技术创新水平是衡量地级及以上城市在政府工作报告中系统提及数字技术相关词汇密度的综合指标,用以反映该地区数字技术创新活动的活跃程度与发展态势。本数据集基于全国地级及以上城市的政府工作报告文本构建,覆盖各年度、各城市的官方政策表述。核心指标包括:省份、省份代码、城市、城市代码、年份、关键词频次、总词数、数字技术创新水平、关键词详情。数字技术创新水平定义为“数字技术创新关键词出现总频次”除以“报告清洗后的总词数”,数值越大表明该城市政府在单位文字内对大数据、人工智能、区块链、物联网等数字技术议题的关注越密集、越系统化。本指标严格遵循词频比重法,考虑了报告篇幅差异,能够客观反映地方政府推动数字技术创新的政策注意力与战略导向。

基于本数据集,研究者可从以下三方面展开系统分析。一是数字技术创新的驱动因素与地区差异研究。将数字技术创新水平指标与城市经济发展水平、产业结构、人力资本、财政分权等变量匹配,采用面板固定效应模型或空间计量模型,检验不同区域、不同资源型城市在数字技术创新注意力上的异质性,识别影响地方政府推动数字技术创新的关键因素。二是数字技术创新对高质量发展的影响机制研究。利用数字技术创新水平指标与城市全要素生产率、绿色经济效率、产业结构升级等高质量发展指标进行回归分析,探究数字技术创新是否通过促进产业非空间集聚、扩大对外开放、提升交通运输效率、提高金融资源丰度等渠道赋能高质量发展,并检验文化分割程度与人口资源丰度的调节作用。三是数字技术创新的政策效应评估。将数字技术创新水平指标与创新型城市试点、智慧城市试点等外生政策冲击变量关联,采用多时点DID方法评估政策对数字技术创新的推动作用,并结合知识产权保护强度,分析制度环境对数字技术创新经济效果的调节效应,为“数字中国”战略下的地方科技政策提供量化依据。

本数据集的数字技术创新水平指标通过Python代码计算完成。首先,参考吴非等(2021)、戚聿东和肖旭(2020)的研究,选择64个词汇作为数字技术创新关键词。使用jieba分词库对各地级市政府工作报告文本进行预处理,加载自定义关键词词典停用词表(749个词)。其次,遍历收集到的报告文本,对每篇报告进行清洗(保留中文、英文、数字),然后分词并去除停用词,统计每篇报告中关键词出现总频次(keyword_freq)以及去除停用词后的总词数(total_words)。最后,计算数字技术创新水平:digiino_ratio = (keyword_freq / total_words) × 100,单位为百分比。若某年某城市的报告文本为空或无法提取有效内容,则跳过该观测值。计算结果按城市和年份排序后保存为Excel文件。本数据严格遵循胡久凯和王艺明(2022)的词频比重法,确保指标在不同报告长度间具有可比性。

 

数字技术创新关键词

大数据、数据挖掘、增强现实、混合现实、虚拟现实、数字孪生、数据可视化、云计算、云平台、量子计算、征信、物联网、射频识别、红外感应器、定位系统、激光扫描器、导航系统、区块链、数字货币、人工智能、机器学习、机器人、专家系统、智能技术、计算机视觉、决策支持系统、商业智能、深度学习、人脸识别、语音识别、自动驾驶、自然语言处理、移动互联网、工业互联网、移动互联、互联网医疗、电子商务、移动支付、第三方支付、智能能源、B2B、B2C、C2B、O2O、网联、智能穿戴、智慧农业、智能交通、智能医疗、智能家居、智能环保、智能营销、数字营销、无人零售、互联网金融、数字金融、金融科技、网络安全、4G、5G、6G、通信、卫星、数字技术。


数据指标

省份

省份代码

城市

城市代码

年份

关键词频次

总词数

数字技术创新水平

关键词详情





数据展示

image.png

参考文献

席增雷, 杨永君, 梁佳林. 数字技术创新对高质量发展的影响机制研究——来自地级及以上城市政府工作报告的经验证据[J]. 经济研究, 2025(10).