中国制造业上市企业数字化水平影响因素研究——基于年报文本挖掘的方法

doi:10.12677/orf.2024.144415

期刊菜单

中国制造业上市企业数字化水平影响因素研究——基于年报文本挖掘的方法
Research on Influencing Factors of Digitization Level of Listed Manufacturing Enterprises in China—A Method Based on Annual Report Text Mining

DOI: 10.12677/orf.2024.144415, PDF, HTML, XML, 科研立项经费支持
作者: 王夏薇, 蔡依婷, 周怡云：武汉科技大学管理学院，湖北武汉
关键词: 制造业数字化水平；影响因素；文本挖掘；TOE框架；固定效应模型；Manufacturing Digitization Level； Influencing Factors； Text Mining； TOE Frame； Fixed Effect Model

摘要: 制造业是国民经济的支柱产业，在数字经济大环境下，推进制造业数字化转型是实现制造业由大到强的必由之路。本文基于文本挖掘法，对2013年至2022年423家制造业上市企业年报中数字化相关关键词进行词频统计以量化其数字化水平，进而采用TOE框架确定企业数字化水平的影响因素，并基于固定效应模型探究各个影响因素对企业数字化水平的影响，最后从企业规模、企业所属地区展开异质性分析。研究表明：企业研发投入越高、研发人员占比越大、企业规模越大、高管拥有的决策自主权越高、固定资产比率越低、财务冗余度越低、管理层的平均年龄越小、行业竞争强度越小，越有利于提高企业的数字化水平。内源融资能力、财务冗余度、行业竞争强度对大小规模企业的数字化水平影响不一致，固定资产比率对东中西三个区域的企业数字化水平都有显著的负向影响。

Abstract: The manufacturing industry is the pillar industry of the national economy. In the context of the digital economy, promoting the digital transformation of the manufacturing industry is the only way to achieve the manufacturing industry from large to prosperous. Based on the text mining method, this paper conducted word frequency statistics on digital-related keywords in the annual reports of 423 listed manufacturing enterprises from 2013 to 2022 to quantify their digitalization level, then adopted TOE framework to determine the influencing factors of enterprise digitalization level, and explored the influence of each influencing factor on enterprise digitalization level based on fixed effect model. Finally, the heterogeneity analysis is carried out from the scale and region of the enterprise. The research shows that the higher the enterprise R&D investment, the larger the proportion of R&D personnel, the larger the enterprise scale, the higher the decision-making autonomy of executives, the lower the ratio of fixed assets, the lower the financial redundancy, the younger the average age of management, and the smaller the intensity of industry competition, the more conducive to improving the digitalization level of enterprises. Internal financing ability, financial redundancy and industry competition intensity have inconsistent influences on the digitalization level of enterprises of all sizes. The ratio of fixed assets has a significant negative impact on the digitalization level of enterprises in the three regions.

文章引用：王夏薇, 蔡依婷, 周怡云. 中国制造业上市企业数字化水平影响因素研究——基于年报文本挖掘的方法[J]. 运筹与模糊学, 2024, 14(4): 463-479. https://doi.org/10.12677/orf.2024.144415

1. 引言

制造业在国民经济中占据核心地位，直接反映了一个国家或地区生产力的整体水平。在当前全球背景下，我国传统制造业的出口需求面临下滑，同时人口红利带来的劳动力成本优势也在逐渐减弱。然而，随着5G、人工智能等数字技术的飞速发展，这些新兴技术正成为推动制造业资源高效配置、产业转型升级的强大动力，对于国家在国际竞争中保持优势至关重要。根据“十四五”规划和2035年远景目标纲要，我国明确提出要增强制造业的竞争力，并推动其向高质量发展。这一过程中，制造业的数字化转型是不可或缺的一环，它不仅能帮助我们突破关键核心技术，还能推动产业向价值链的高端攀升，是实现制造业高质量发展的必经之路。因此，探讨中国制造业上市企业数字化水平的影响因素具有重要的理论和实践意义。

2. 文献综述

国内外学者围绕企业数字化转型的研究较为丰富，大多文献关注数字化转型对企业绩效的影响，认为数字化转型显著提升了企业运营绩效，有利于改善公司治理、提升企业价值水平等[1] [2]。也有部分文献围绕企业数字化转型的驱动因素展开研究。陈飞等[3]通过熵权法构建长江中游城市群制造业数字化水平指数，认为数字化技术升级、数字化创新升级及数字化效益升级对于推动制造业的数字化转型具有重要的推动作用；余澳等[4]基于文件调查数据采用结构方程模型进行实证研究，分析“专精特新”中小企业数字化转型的关键影响因素，发现外部支持、数字化生产要素、数字运营能力是“专精特新”中小企业数字化转型的三大关键影响因素；胡凤等[5]基于动态能力理论和TOE分析框架，分析了组织结构、高层管理者和数字技术能力对广东省制造企业数字化能力构建的作用机理。

在文本挖掘方面，吴非等[6]借助爬虫技术归集企业年报中的“数字化转型”关键词，刻画出企业数字化转型强度，实证检验企业数字化转型对股票流动性的影响及其渠道机制。谢诗蕾等[7]采用文本分析技术从2009~2020年A股上市公司提炼可读性指标衡量信息披露质量，考察了ESG绩效对信息披露质量的影响。杨兵等[8]以2010~2018年沪深两市上市企业为研究样本，运用计算机文本挖掘技术并结合情感分析，测算企业风险预期指数，实证研究了企业风险预期对投资策略选择的影响机制和内在逻辑。Gaizka Garechana等[9]通过文本挖掘样本公司的信息披露，分析了标准化对样本公司创新态度和价值观的影响。

可以发现：尽管国内外对于企业数字化转型影响因素的研究较为丰富，但是多采用定性研究方法，如模糊集定性比较分析等；少数文献采用定量方法探讨企业数字化转型的影响因素，但大多基于单因素视角，如增长目标、融资方式、地方经济等[10] [11]。此外，基于年报的文本挖掘技术已经成为刻画企业数字化转型的重要手段，能够通过年报文本挖掘技术实现企业数字化水平的量化。鉴于此，本文基于文本挖掘法对我国制造业上市企业年报中数字化相关关键词进行词频统计以量化其数字化水平，采用TOE框架确定企业数字化水平的影响因素，并探究各个影响因素对企业数字化水平的影响机制。

3. 相关概念与方法

3.1. TOE框架

TOE框架(Technology-Organization-Environment)是研究分析中常用的一种理论模型，主要用于分析技术采纳、技术创新以及组织变革过程中的影响因素。该框架由Tornatzky和Fleisher两位学者在1990年首次提出[12]，经过发展，现已广泛应用于多个领域的研究。TOE框架涵盖了技术(T)、组织(O)和环境(E)三个维度。在技术方面，它考虑技术的相对优势、兼容性和复杂性等特性。在组织方面，它评估企业的规模、管理结构、人力资源等因素如何影响技术采纳。在环境方面，它关注市场竞争、政府政策等宏观环境对组织决策的影响。TOE框架为理解组织如何采纳新技术提供了一个综合的分析框架，帮助企业和研究者全面考虑影响技术采纳的多个因素。

通过综合考虑技术、组织和环境三个维度的因素，TOE框架能够帮助研究者更全面地理解组织在技术采纳和创新过程中的行为模式，以及这些行为如何受到不同因素的影响。因此，该框架在信息系统、制造业、服务业等多个领域的研究中得到了广泛应用，为研究企业技术创新及技术采纳提供了重要的理论视角。

3.2. 固定效应模型

固定效应模型(Fixed Effects Model)即固定效应回归模型，简称FEM，是一种面板数据分析方法，它旨在比较不同个体或时间点的特定类别差异及其交互作用效果，而不将这些结果推广到未包含的类别。该模型通过控制潜在变量如时间、地点和个体差异，来准确评估特定变量的影响。在面板数据线性回归模型中，若不同个体或时间点的截距项不同但斜率系数相同，则可采用固定效应模型进行分析。

固定效应模型可分为三类：个体固定效应模型、时点固定效应模型以及时点个体固定效应模型。个体固定效应模型主要用于控制个体间的差异。在研究中，不同个体可能具有一些不随时间变化的特性，这些特性可能影响因变量。个体固定效应模型通过引入个体的固定效应，从而消除这些特性对结果的干扰。时点固定效应模型则主要用于控制时间和趋势的影响。在某些情况下，某些因素可能在整个研究期间内的不同时点对结果产生不同的影响。时点固定效应模型通过引入时点的固定效应，从而消除这些时间因素对结果的干扰。时点个体固定效应模型是前两者的结合，它同时控制个体和时点的固定效应，这种模型在研究中更为复杂，但也更为全面，可以同时消除个体和时间因素对结果的干扰。

4. 研究方案设计

4.1. 数据来源

本文研究的是中国制造业上市企业数字化水平的影响因素，企业数字化水平为被解释变量，影响因素为解释变量。相关数据来自国泰安数据库(CSMAR)和巨潮资讯网。对于解释变量相关数据的获取主要是来自国泰安数据库；对于被解释变量，其研究所需的年度报告主要是通过编写Python爬虫程序从巨潮资讯网爬取获得。

本文选取2013~2022年制造业上市企业的数据作为研究样本，并进行如下处理：(1) 剔除计算机、通信和其他电子设备制造业；(2) 剔除st，^*st企业；(3) 剔除数据严重缺失的企业。通过数据采集与处理，共得到样本423家。

根据证监会2012年4季度上市公司行业分类结果，将样本企业划分为不同行业，其数量分布见表1。

Table 1. Research sample industry distribution

表1. 样本企业所属行业分布

所属行业名称	企业数量
医药制造业	57
电气机械及器材制造业	52
化学原料及化学制品制造业	44
专用设备制造业	36
汽车制造业	31
通用设备制造业	26
有色金属冶炼及压延加工业	26
非金属矿物制品业	24
金属制品业	13
橡胶和塑料制品业	13
化学纤维制造业	11
农副食品加工业	11
纺织服装、服饰业	10
纺织业	10
黑色金属冶炼及压延加工业	10
酒、饮料和精制茶制造业	8
食品制造业	7
铁路、船舶、航空航天和其它运输设备制造业	7
造纸及纸制品业	6
石油加工、炼焦及核燃料加工业	5
仪器仪表制造业	5
印刷和记录媒介复制业	5
家具制造业	2
其他制造业	2
文教、工美、体育和娱乐用品制造业	2
合计	423

本文将制造业上市企业所在地划分为东、中、西三个区域。其中，东部地区包括：上海市、北京市、天津市、山东省、广东省、江苏省、河北省、浙江省、海南省、福建省、辽宁省；中部地区包括：安徽省、山西省、江西省、河南省、湖北省、湖南省、内蒙古自治区、吉林省、黑龙江省；西部地区包括：陕西省、四川省、云南省、贵州省、广西壮族自治区、甘肃省、青海省、宁夏回族自治区、西藏自治区、新疆维吾尔自治区、重庆市。样本企业所属区域数量分布见表2。

Table 2. The region of the research sample

表2. 样本企业所属区域

区域	数量
东部	278
中部	88
西部	57
合计	423

4.2. 变量定义

(1) 被解释变量

本文借鉴吴非等(2021) [8]的研究，借助Python爬虫技术归集制造业上市企业的年报，并利用Python中的jieba库对年报文本进行分词，得到与云计算、区块链、数字经济、电子商务、信息管理、智能化等有关“数字化”的关键词词频来量化企业数字化水平(DigLevel)。其中“数字化”相关关键词分成三个维度，分别是数字化技术、数字化商业模式、企业数字化建设，见表3。

Table 3. Digital level related keywords

表3. 数字化水平相关关键词

类别	关键词
数字化技术	区块链、云计算、虚拟现实、数字编码、人工智能、机器学习、计算机视觉、增强现实、5G、AI、物联网、算法、自然语言处理、智能学习分析引擎、私有云、公有云、IT、云原生、云组件、RPA、机器人、前端、Hadoop、Flink、大数据、数据挖掘、Pow、PoS、Dapp、DAO、数据库、NLP、神经网络、深度学习、云服务器、云存储、ASIC、万物互联、软件、操作系统、RFID、驱动、汇编语言、数字技术、计算机技术、信息技术、智能技术、DT、EDA、GIS、NC、互联网、云服务、数据分析、计算机、无人、自动、网络、3D、3维、web、数据赋能、工业云、海量数据、算力、数字控制、数字通信、数字网络、云联网、人脸识别、数据开发
数字化商业模式	互联网+、互联网战略、互联网平台、数字经济、数字营销、电子商务、平台经济、新媒体、APP、小程序、公众号、智慧零售、网上商城、网络零售、B2B、B2C、C2B、C2C、B2F、O2O、短视频、数字文创、OMO、融媒体、直播、智慧商业、智能产品体验、智慧物业、线上营销、智慧物流、云超、云专柜、线上销售、智能客服、数字科技、产业互联网、B2G、G2B、B2M、M2C、ABC、BAB、P2C、P2P、B2S、UGC、PGC、网络营销、营销网络、营销网点、线上、移动互联网、互联网模式、在线、新渠道、CRM、引流、移动端、主播、博主、朋友圈、大众点评、自媒体、微商、网购、数字创意、智能快递柜
企业数字化建设	信息化、数字化、智能化、数据化、智慧化、信息管理、信息系统、信息软件、信息终端、智能终端、知识管理、网络化、移动办公、智能办公、在线办公、工业信息、工业通信、ERP、智能工厂、电子化、管理软件、检验检测系统、管理平台、指挥系统、OA、产品系统、企业微信、线上运营、数字经营、数智化、自动控制系统、数据中心机房、管理系统、数字措施、智慧运营、智慧财务、运营系统、数据管理、数据网络、数据平台、数据中心、数据科学、数字终端、BI、智能制造、智能设备、智能管理、智能识别、商务智能、自动控制、自动监测、自动生产、MES、Oracle、信息网络、智慧制造、智慧工厂、信息安全、网络安全、信息资产、智能成本控制、系统运维

通过python中的jieba库，将年报中的文本进行分词，得到如表4所示的示例结果，其中以“总词频”来衡量企业数字化水平。

Table 4. Example of word frequency statistics

表4. 词频统计结果示例

股票代码	公司名称	年份	行业代码	所属省份	数字化技术词数	数字化商业模式词数	企业数字化建设词数	总数	总词频
000559	万向钱潮	2013	C36	浙江省	33	5	15	53	0.000266
000559	万向钱潮	2014	C36	浙江省	31	6	29	66	0.000390
$⋮$	$⋮$	$⋮$	$⋮$	$⋮$	$⋮$	$⋮$	$⋮$	$⋮$	$⋮$
000559	万向钱潮	2022	C36	浙江省	55	22	126	203	0.001357
$⋮$	$⋮$	$⋮$	$⋮$	$⋮$	$⋮$	$⋮$	$⋮$	$⋮$	$⋮$

(2) 解释变量

通过对国内外相关文献研究的梳理，综合数据的可获得性和权威性，本文依据TOE框架，从技术、组织、环境三个维度分别确定了企业数字化水平的影响因素指标。经过筛选，本文确定了11个中国制造业上市企业数字化水平影响因素指标。指标所属维度以及计算方法见表5。

Table 5. Index of influencing factors of digitization level of listed manufacturing enterprises in China

表5. 中国制造业上市企业数字化水平影响因素指标

指标所属维度	变量名称	英文表示	计算方法	参考文献
技术维度(T)	研发投入强度	RDI	研发投入/营业收入	唐文秀(2018)
技术维度(T)	技术密集度	TI	研发人员数量/员工总人数	白雪洁(2024)
组织维度(O)	企业规模	Size	员工总人数加一的自然对数	邱洋冬(2024)
	内源融资能力	IFC	经营活动现金流量净额/资产总额	陈洁(2023)
	固定资产比率	FAR	固定资产净额/资产总额	邱洋冬(2024)
	财务冗余度	FS	现金及现金等价物/资产总额	傅皓天(2018)、O'Brien (2003)
	人力资源冗余度	HRr	员工人数/营业收入	傅皓天(2018)
	两职合一	ConP	当企业董事长与总经理为同一人时取值为1，否则为0	白雪洁(2024)
	独立董事占比	IDR	独立董事人数/董事会总人数	叶志强(2017)
	管理层平均年龄	MA	管理层年龄总和/管理层总人数	孙海法(2006)
环境维度(E)	行业竞争强度	ICI	sum[(某个公司的主营业务收入/该公司所属行业的主营业务收入合计)²]	周瑜胜(2016)

相关影响因素说明如下：

① 研发投入强度(RDI)

企业数字化转型主要依托数字化技术的应用和研发。唐文秀等[13]研究发现，研发投入会正向影响当期企业财务绩效。因此研发强度在一定程度上影响着企业的数字化水平。

② 技术密集度(TI)

企业的数字化进程依赖于相关人才的研发创新贡献，研发人才是企业实现数字化的动力源泉，因此，研发人员的占比在一定程度上会影响到数字技术的发展和有效实施[14]。

③ 企业规模(Size)

企业规模在一定程度上可以反映一个企业的综合实力。规模大的企业往往拥有更多的资源、机会和人脉，也会积极顺应时代发展趋势，更快拥抱新型经营模式[15]。

④ 内源融资能力(IFC)

内源融资能力能够体现企业抵抗风险的能力，是企业行稳致远的重要保障。在发达的市场经济国家，企业将内源融资作为首选的融资方式[16]。

⑤ 固定资产比率(FAR)

固定资产比率的大小可以反映企业固定资产资金闲置的多少，固定资产比率越低企业资产才能更快的流动，从资金运营能力来看，固定资产比率越低企业营运能力越强[15]。

⑥ 财务冗余度(FS)

在环境动态性较高时，公司的财务冗余能够为其即时转型到新的领域提供必要的内部资源，并且也能够降低潜在的转型失败所导致的风险[17]。对于追求以创新为前提的竞争战略的企业来说，财务冗余应该是一项特别关键的战略要求[18]。

⑦ 人力资源冗余度(HRr)

与财务冗余不同，企业人力资源冗余会导致企业容易产生组织的惯性，从而阻碍公司在动态环境中进行战略变革[17]。这可能会导致企业中有太多人无法适应数字化转型带来的工作方式的变化，从而在组织内部产生抵触情绪，阻碍企业的数字化进程。

⑧ 两职合一(Conp)

两职合一可以反应企业董事长与总经理同时兼任的情况，由于决策权集中在一个人手中，可以更加迅速地做出数字化转型的决策，减少决策过程中的阻碍和延误由此加速数字化转型的决策进程、提高数字化转型的执行力[14]。

⑨ 独立董事占比(IDR)

独立董事占比在一定程度上能够反映企业的治理结构，该指标能够反映董事会独立监督和判断的能力，独立董事占比越高越能促进公司决策的公正性和透明度，从而提高公司的市场信誉度和战略决策的质量。此外，独立董事在董事会的人数比例能够显著地促进研发投入的增加[19]。

⑩ 管理层平均年龄(MA)

管理曾年龄在一定程度上影响着企业面对风险和挑战的态度。研究显示，年龄较大的主管会更加倾向于避免风险性的决定，比如对公司战略方向的大改变，而年轻的主管相对较愿意承担风险。因此，激烈的市场竞争中，年轻的高管团队也许更能抓住机会，积极地部署战略转型方案[20]。

⑪ 行业竞争强度(ICI)

行业竞争强度用行业赫芬达尔指数来表征。市场竞争导致优胜劣汰，这会影响企业的生存和发展，企业为应对竞争，会预先培育竞争优势，因此竞争可能倒逼企业增加研发投资[21]。

4.3. 模型构建

本文整合2013年到2022年这10年间中国制造业的423家上市企业数字化水平以及各个影响因素指标数据，形成一个平衡面板数据。面板数据，是指在不同时间截面上选取多个样本观测值所构成的样本数据，它既有个体维度(423家企业)，又有时间维度(2013~2022年)，可以克服时间序列分析受多重共线性的困扰，能够提供更多的信息、更多的变化、更少共线性、更多的自由度和更高的估计效率。

上市企业数字化水平受多种因素的影响，为了比较不同因素、不同时期对上市企业数字化水平的作用，本文将采用面板数据模型分析中国制造业上市企业数字化水平影响因素，构建以下面板线性回归模型：

$D i g L e v e l_{i t} = β_{0} + β_{1} x_{1 i t} + β_{2} x_{2 i t} + \dots + β_{k} x_{k i t} + μ_{i} + v_{t} + ε_{i t}$ (1)

其中，DigLevel是企业数字化水平，i代表不同企业，t代表时间，x代表企业数字化水平的影响因素，μ_i为个体不可观测因素，v_t为时间不可观测因素，ε_it为随机扰动项。

常见的面板数据模型有固定效应模型、随机效应模型、混合效应模型。混合效应模型的基本假设是μ_i = v_t = 0，即不存在个体和时间的不可观测因素，截距项和系数都不变。随机效应模型和固定效应模型的基本假设是存在个体效应或时点效应，即截距项是变化的，二者的区别在于：随机效应模型认为误差项和解释变量不相关，而固定效应模型认为误差项和解释变量相关。本文会在5.4节进行相关检验并选择最优模型。

5. 实证分析

基于面板线性回归模型，利用Stata17软件对面板数据进行分析，分析的步骤主要包括描述性统计、变量相关性分析、多重共线性检验、最优模型选择、固定效应模型基准回归、稳健性检验和异质性分析。

5.1. 描述性统计

通过描述性统计能够很清晰地了解每个变量的具体情况，对各变量数据通过Stata软件进行统计，得出结果如表6所示。

Table 6. Descriptive statistics

表6. 描述性统计

变量	含义	观测值	均值	标准差	最小值	最大值
DigLevel	数字化水平	4230	0.0458	0.0533	0	0.552
RDI	研发投入强度	4230	3.864	3.334	0	58.25
TI	技术密集度	4230	9.816	8.676	0	83.30
Size	企业规模	4230	3.485	0.495	1.919	5.221
IFC	内源融资能力	4230	0.0561	0.0663	−0.438	0.839
FAR	固定资产比率	4230	0.241	0.134	0.00415	0.808
FS	财务冗余度	4230	0.133	0.0993	0.00235	0.784
HRr	人力资源冗余度	4230	1.178	0.822	0.0350	9.091
ConP	两职合一	4230	0.238	0.426	0	1
IDR	独立董事占比	4230	37.47	5.766	16.67	80
MA	管理层平均年龄	4230	50.06	2.977	38.86	59.92
ICI	行业竞争强度	4230	0.181	0.0807	0.0716	0.698

5.2. 相关性分析

为了判断变量之间是否存在多重共线性问题，首先检验各变量之间的相关关系。本文运用皮尔逊(Pearson)相关系数来检验，得到变量的相关性分析表，见表7，其中^*、^**、^***分别表示10%、5%和1%显著性水平。

Table 7. Correlation analysis

表7. 相关性分析

Dig Level

RDI

Size

IFC

FAR

HRr

ConP

IDR

ICI

Dig Level

RDI

0.241

^***

0.304

^***

0.421

^***

Size

−0.002

−0.155

^***

−0.141

^***

IFC

−0.070

^***

−0.064

^***

−0.057

^***

0.185

^***

FAR

−0.276

^***

−0.183

^***

−0.180

^***

0.144

^***

0.135

^***

0.02

0.061

^***

−0.038

^**

−0.089^***

0.212

^***

−0.293

^***

HRr

0.067

^***

0.218

^***

−0.114

^***

−0.053

^***

−0.084

^***

−0.029

0.059

^***

ConP

0.108

^***

0.109

^***

0.062

^***

−0.074

^***

−0.006

−0.097

^***

0.002

0.052

^***

IDR

0.035

^**

0.044

^***

0.080

^***

0.006

0.018

0.047

^***

−0.033

^**

−0.094

^***

0.130

^***

−0.046

^***

0.001

0.042

^***

0.295

^***

0.103

^***

0.027

0.077

^***

−0.140

^***

−0.143

^***

−0.069

^***

ICI

−0.080

^***

−0.148

^***

−0.064

^***

0.160

^***

0.032

^**

0.081

^***

−0.017

−0.082

^***

−0.053

^***

−0.047

^***

0.095

^***

由表7可知，被解释变量制造业上市企业数字化水平(DigLevel)与解释变量的相关系数大多在1%的显著性水平上显著，说明被解释变量与各个解释变量之间存在一定的关联性。此外，解释变量之间的相关系数绝对值大部分较小，但是技术密集度(TI)与研发投入强度(RDI)的相关系数达到了0.421，相对较大，因此，目前不能判断变量之间是否存在多重共线性问题。

5.3. 多重共线性检验

为保证各变量符合回归模型标准，不存在伪回归情况，对变量进行多重共线性检验。方差膨胀系数(VIF)的值越大，多重共线性就越严重，大于10时表示变量之间存在较强多重共线性。从表8可以看出，VIF最大值为1.38，均值为1.18，各变量之间不存在多重共线性，可以进行回归检验。

Table 8. Multicollinearity test

表8. 多重共线性检验

Variable	VIF	1/VIF
RDI	1.38	0.722786
TI	1.33	0.749698
FS	1.22	0.816478
FAR	1.22	0.819944
Size	1.21	0.825107
MA	1.17	0.855285
HRr	1.16	0.864247
IFC	1.15	0.871051
ConP	1.06	0.9455
ICI	1.05	0.949918
IDR	1.05	0.955049
Mean VIF	1.18

5.4. 模型的选择

在进行模型选择之前，先进行F检验和Hausman检验以验证所选实证回归方法的合理性。首先，进行混合回归模型与固定效应模型的选择，由表9可知，F检验的结果显示P值趋近0，故拒绝混合回归模型的假设，选择固定效应模型。

Table 9. F-test

表9. F检验

F统计量检验	统计量	P值
统计量	40.17	0.0000

同时运用Hausman检验对随机效应模型和固定效应模型进行选择，由表10结果可知，应拒绝模型为随机效应模型的假设，建立固定效应模型。

Table 10. Hausman test

表10. Hausman检验

Hausman检验
Prob > chi2	0.0000

基于上述选择以及现有面板数据，构建个体时点双因素固定效应模型：

$D i g L e v e l_{i t} = β_{0} + β_{1} x_{1 i t} + β_{2} x_{2 i t} + \dots + β_{k} x_{k i t} + E n t P_{i} + Y e a r_{t} + ε_{i t}$ (2)

其中，DigLevel是企业数字化水平，i代表不同企业，t代表时间，x代表企业数字化水平的影响因素， $E n t P_{i}$ 为企业个体固定效应， $Y e a r_{t}$ 为时间固定效应， $ε_{i t}$ 为随机扰动项。

5.5. 基准回归结果

经过上述F检验和Hausman检验，选取固定效应模型对面板数据进行回归，回归结果如表11所示。表中N代表样本数量，小括号内给出的是t统计量，^*、^**、^***分别表示10%、5%和1%显著性水平显著，Year表示时间固定效应，EntP表示企业个体固定效应。列(1)至列(11)是逐步加入解释变量的回归结果。

Table 11. Baseline regression result

表11. 基准回归结果

	(1)	(2)	(3)	(4)	(5)	(6)	(7)	(8)	(9)	(10)	(11)
variables	Dig Level	Dig Level	Dig Level	DigLevel	DigLevel	DigLevel	DigLevel	DigLevel	DigLevel	DigLevel	DigLevel
RDI	0.004^***	0.002^***	0.002^***	0.002^***	0.002^***	0.002^***	0.002^***	0.001^***	0.001^***	0.001^***	0.001^***
RDI	(16.13)	(8.55)	(8.92)	(8.83)	(7.40)	(7.51)	(5.84)	(5.54)	(5.49)	(5.72)	(5.45)
TI		0.002^***	0.002^***	0.002^***	0.001^***	0.001^***	0.001^***	0.001^***	0.001^***	0.001^***	0.001^***
TI		(15.39)	(15.69)	(15.64)	(14.37)	(14.02)	(14.79)	(14.79)	(14.70)	(14.93)	(14.95)
Size			0.006^***	0.007^***	0.009^***	0.009^***	0.009^***	0.010^***	0.010^***	0.011^***	0.012^***
Size			(3.82)	(4.46)	(5.95)	(5.69)	(5.80)	(6.05)	(6.03)	(6.93)	(7.18)
IFC				−0.047^***	−0.028^**	−0.021^*	−0.016	−0.018	−0.018	−0.017	−0.017
IFC				(−3.98)	(−2.46)	(−1.74)	(−1.32)	(−1.47)	(−1.48)	(−1.41)	(−1.45)
FAR					−0.088^***	−0.092^***	−0.093^***	−0.091^***	−0.091^***	−0.091^***	−0.090^***
FAR					(−15.17)	(−15.07)	(−15.17)	(−14.78)	(−14.84)	(−14.76)	(−14.64)
FS						−0.018^**	−0.020^**	−0.019^**	−0.019^**	−0.015^*	−0.015^*
FS						(−2.22)	(−2.46)	(−2.29)	(−2.28)	(−1.84)	(−1.81)
HRr							0.005^***	0.005^***	0.005^***	0.004^***	0.004^***
HRr							(4.83)	(4.69)	(4.80)	(4.23)	(4.11)
ConP								0.008^***	0.008^***	0.007^***	0.007^***
ConP								(4.54)	(4.31)	(3.83)	(3.80)
IDR									0.000	0.000	0.000
IDR									(1.40)	(1.09)	(0.98)
MA										−0.001^***	−0.001^***
MA										(−3.88)	(−3.77)
ICI											−0.024^**
ICI											(−2.54)
Constant	0.031^***	0.022^***	0.001	−0.000	0.015^***	0.020^***	0.014^**	0.011^*	0.004	0.051^***	0.053^***
Constant	(25.41)	(17.22)	(0.11)	(−0.08)	(2.61)	(3.21)	(2.25)	(1.70)	(0.51)	(3.54)	(3.66)
Year	Yes	Yes	Yes	Yes	Yes	Yes	Yes	Yes	Yes	Yes	Yes
EntP	Yes	Yes	Yes	Yes	Yes	Yes	Yes	Yes	Yes	Yes	Yes
N	4230	4230	4230	4230	4230	4230	4230	4230	4230	4230	4230

从表中第(11)列的回归结果可以发现：

研发投入强度(RDI)、技术密集度(TI)、企业规模(Size)、人力资源冗余度(HRr)、两职合一(ConP)与企业数字化水平之间呈现为显著的正相关关系，表明企业研发投入越高、研发人员占比越多、企业规模越大、人力资源冗余度越高、高管拥有的决策自主权越高，越有利于提高企业的数字化水平。

固定资产比率(FAR)、财务冗余度(FS)、管理层平均年龄(MA)、行业竞争强度(ICI)与企业数字化水平之间呈现为显著的负相关关系，表明固定资产比率越低、财务冗余度越低、管理层的平均年龄越小、行业竞争强度越小，企业的数字化水平越高。

内源融资能力(IFC)和独立董事占比(IDR)与制造业企业数字化水平没有显著的相关关系，说明在制造业企业数字化转型的过程中，单纯依赖内部融资能力的提升或独立董事在董事会中占比的增加，可能并不会直接带来企业数字化水平的提升。内源融资能力代表了企业通过内部经营活动积累资金的能力，它主要关注的是财务稳健性和经营灵活性，可能并非直接与企业数字化战略的执行和效果挂钩。独立董事占比体现了公司治理结构中的独立性和监督能力，可能这一指标更多地关注公司治理的透明度和公正性，而非直接促进企业的数字化转型。

综合上述分析，得到如表12所示的实证分析结果。

Table 12. Study results of influencing factors

表12. 影响因素研究结果

影响因素	对制造业上市企业数字化水平的影响
研发投入强度(RDI)	显著的正向影响
技术密集度(TI)
企业规模(Size)
人力资源冗余度(HRr)
两职合一(ConP)
固定资产比率(FAR)	显著的负向影响
财务冗余度(FS)
管理层平均年龄(MA)
行业竞争强度(ICI)
内源融资能力(IFC)	未发现显著影响
独立董事占比(IDR)	未发现显著影响

5.6. 稳健性检验

在稳健性检验时，进行样本分割，选择2015年至2022年共8年的数据作为检验数据样本，并进行模型回归分析，得到如表13所示的结果。

Table 13. Robustness test regression results

表13. 稳健性检验回归结果

	(1) 10年	(2) 8年
Variables	DigLevel	DigLevel
TI	0.001^***	0.001^**
TI	(14.95)	(2.41)
RDI	0.001^***	0.002^***
RDI	(5.45)	(14.19)
Size	0.012^***	0.016^***
Size	(7.18)	(8.36)
IFC	−0.017	−0.015
IFC	(−1.45)	(−1.11)
FAR	−0.090^***	−0.096^***
FAR	(−14.64)	(−13.36)
FS	−0.015^*	−0.020^**
FS	(−1.81)	(−2.08)
HRr	0.004^***	0.006^***
HRr	(4.11)	(4.95)
ConP	0.007^***	0.008^***
ConP	(3.80)	(3.74)
IDR	0.000	0.000
IDR	(0.98)	(0.93)
MA	−0.001^***	−0.001^***
MA	(−3.77)	(−2.94)
ICI	−0.024^**	−0.020^*
ICI	(−2.54)	(−1.85)
Constant	0.053^***	0.028^*
Constant	(3.66)	(1.66)
Year	Yes	Yes
EntP	Yes	Yes
N	4230	3384

其中，(1)列是完整数据，(2)列是样本分割后得到的回归分析结果。从表中数据可以看到各个影响因素的显著性和正负性与前文的基准回归结果基本一致，说明模型稳健有效。

5.7. 异质性分析

为了更深入地探索不同规模和地域制造业企业数字化水平的主要影响因素，并为这些企业在数字化转型过程中提供有针对性的参考依据，本文进一步对收集的面板数据进行企业规模与区域异质性的分析。

5.7.1. 企业规模异质性分析

根据企业规模(Size)这一指标设定中位数，将企业规模大于中位数的样本看作大规模企业，企业规模小于中位数的样本看作小规模企业，得到212家大规模企业，211家小规模企业，进而探究各个同影响因素对不同规模企业数字化水平影响作用的差异，回归结果见表14。

分析表14数据可以发现，内源融资能力(IFC)只对小规模企业的数字化水平有显著的负向影响，对大规模企业没有显著影响，说明了小规模企业可能更注重短期生存和盈利，因此在面临财务压力时可能会牺牲一些长期投资，而大规模企业则可能更注重长期发展和竞争优势的构建，因此更愿意在数字化方面进行投入以提升企业的整体竞争力。

财务冗余度(FS)、行业竞争强度(ICI)只对大规模企业的数字化水平有显著的负向影响，对小规模企业没有显著影响，说明了大规模企业可能因为拥有过多的未充分利用的财务资源或面临较高的行业竞争压力，会减少在数字化转型上的投入，小规模企业可能因为自身更加灵活，资源有限，会更注重短期的业务需求。人力资源冗余度(HRr)只对大规模企业的数字化水平有显著的正向影响，对小规模企业没有显著影响，表明大规模企业具备更复杂的组织结构和更强的管理能力，从而能更有效地整合内部资源和重新调配冗余的人力资源，推动其数字化进程；相比之下，对小规模企业来说，由于资源有限、管理结构简单以及更关注短期业务需求，人力资源冗余度对其数字化水平的影响并不显著。

Table 14. Regression results of firm size heterogeneity

表14. 企业规模异质性回归结果

	(1) 大规模	(2) 小规模
Variables	DigLevel	DigLevel
RDI	0.001^***	0.002^***
RDI	(3.90)	(4.38)
TI	0.001^***	0.002^***
TI	(9.09)	(10.52)
Size	0.010^***	0.030^***
Size	(4.18)	(6.70)
IFC	0.010	−0.039^**
IFC	(0.71)	(−2.02)
FAR	−0.080^***	−0.103^***
FAR	(−11.23)	(−10.01)
FS	−0.020^*	−0.007
FS	(−1.79)	(−0.55)
HRr	0.004^***	0.003
HRr	(3.45)	(1.45)
ConP	0.009^***	0.005^*
ConP	(4.21)	(1.82)
IDR	0.000	0.000
IDR	(0.99)	(0.85)
MA	−0.001^**	−0.001^***
MA	(−2.50)	(−2.97)
ICI	−0.025^**	−0.023
ICI	(−2.31)	(−1.39)
Constant	0.047^**	0.008
Constant	(2.55)	(0.30)
Year	Yes	Yes
EntP	Yes	Yes
N	2120	2110

5.7.2. 区域异质性分析

本文将制造业上市企业所在地划分为东、中、西三个区域。同影响因素对不同区域企业数字化水平影响作用有差异，分别对东中西三个地区的企业进行回归分析，回归结果见表15。

Table 15. Regression results of regional heterogeneity analysis

表15. 区域异质性分析回归结果

	(1) 东	(2) 中	(3) 西
Variables	DigLevel	DigLevel	DigLevel
RDI	0.001^***	0.004^***	−0.000
RDI	(2.71)	(5.55)	(−0.33)
TI	0.002^***	0.002^***	−0.000
TI	(13.62)	(5.30)	(−0.16)
Size	0.016^***	−0.002	0.003
Size	(8.11)	(−0.46)	(1.26)
IFC	−0.027^*	−0.017	−0.008
IFC	(−1.81)	(−0.56)	(−0.52)
FAR	−0.096^***	−0.107^***	−0.030^***
FAR	(−12.95)	(−5.97)	(−4.05)
FS	−0.006	−0.052^**	0.008
FS	(−0.63)	(−2.24)	(0.80)
HRr	0.008^***	−0.002	−0.002
HRr	(5.62)	(−1.14)	(−1.25)
ConP	0.002	0.029^***	0.005^*
ConP	(0.76)	(5.48)	(1.68)
IDR	0.000^***	−0.001^***	0.001^***
IDR	(3.00)	(−2.77)	(2.77)
MA	−0.002^***	0.000	0.000
MA	(−5.01)	(0.21)	(0.56)
ICI	−0.022^**	−0.014	−0.014
ICI	(−2.01)	(−0.52)	(−0.98)
Constant	0.053^***	0.088^*	−0.003
Constant	(3.23)	(1.91)	(−0.14)
Year	Yes	Yes	Yes
EntP	Yes	Yes	Yes
N	2780	880	570

对比东中西三个区域可以发现，固定资产比率(FAR)对三个区域的企业数字化水平都有显著的负向影响，说明企业在固定资产管理和使用上可能面临效率不高或资金配置不合理的问题，固定资产的过度投入或闲置可能限制了企业数字化转型的步伐。

独立董事占比(IDR)对东、西两个区域的企业数字化水平有显著的正向影响，对中部地区有显著的负向影响。在东部发达地区，IDR的提高显著促进了企业数字化水平的提升，反映了东部地区企业较强的实力和先进的管理理念，以及完善的数字化基础设施和政策环境。在西部地区，尽管经济相对不发达，但IDR的增加同样对企业数字化水平产生了正向影响，这可能得益于西部地区企业在数字化转型方面的积极态度和政策支持。然而，在中部地区，IDR的提高却对企业数字化水平产生了显著的负向影响，这可能与中部地区在数字化基础设施、政策环境和企业内部认识等方面的不足有关。

6. 研究结论与启示

6.1. 研究结论

科学理解和正确把握企业数字化转型的驱动机制，对中国抓住数字经济发展先机、赢得竞争主动权至关重要。本文基于文本挖掘法，对2013年至2022年423家制造业上市企业年报中数字化相关关键词进行了词频统计，量化企业数字水平，采用TOE框架从技术、组织、环境三个维度确定了影响因素指标，并基于个体时点双因素固定效应模型探究各个影响因素对企业数字化水平的影响，最后从企业规模、企业所属地区展开异质性分析。

基于以上分析结果，总结出以下研究结论：

(1) 从整体来看，企业研发投入越高、研发人员占比越多、企业规模越大、人力资源冗余度越高、高管拥有的决策自主权越高、固定资产比率越低、财务冗余度越低、管理层的平均年龄越小，行业竞争强度越小，越有利于提高企业的数字化水平。

(2) 在异质性分析中发现，内源融资能力只对小规模企业的数字化水平有显著的负向影响，对大规模企业没有显著影响；财务冗余度、行业竞争强度只对大规模企业有显著的负向影响，对小规模企业没有显著影响。固定资产比率对东中西三个区域的企业数字化水平都有显著的负向影响；独立董事占比(IDR)对东、西两个区域有显著的正向影响，对中部地区有显著的负向影响。

6.2. 管理启示

基于研究结论，本文分别从政府层面和企业层面对提升中国制造业上市企业整体数字化水平提出以下政策建议：

(1) 政府继续加大对企业研发活动的支持，包括提供研发资金补贴、税收优惠等措施，鼓励企业增加研发投入，提高创新能力。优化人才政策，出台更具吸引力的人才政策，吸引和留住高素质的研发人才，同时加强职业教育和技能培训，提升整体人力资源素质。

(2) 政府应优化区域发展，针对固定资产比率对东中西三个区域企业数字化转型的负向影响，政府应制定差异化政策，推动区域均衡发展，特别是在固定资产投入和资源配置上给予更多指导和支持。

(3) 企业应充分认识到研发投入对提升数字化水平的重要性，加大研发投入，提升自主创新能力。同时应重视人才队伍建设，吸引和留住高素质的研发人才，同时加强内部培训，提升员工整体素质和技能水平。

(4) 企业应合理配置资源，避免固定资产过度投入导致的资源浪费和数字化转型滞后，同时加强内源融资能力和财务冗余度的管理。企业也应积极响应政府号召，加快数字化转型步伐，提升数字化水平，以应对日益激烈的市场竞争。

6.3. 研究展望

限于现有的能力，本文的研究存在一些不足：

(1) 企业数字化水平是一个复杂的概念，涉及多个维度和层面。本文仅仅通过年报中与“数字化”相关关键词词频来量化企业数字化水平，维度较为单一。

此外，年报中的信息可能受到公司公关策略的影响，导致部分公司可能过度夸大或低估其数字化水平，从而影响统计结果的准确性。

(2) 样本选择存在局限性，本研究仅选取了423家制造业上市企业作为样本，可能无法全面代表整个制造业的数字化水平。在未来的研究中，可以进一步扩大样本范围，增加制造业上市企业的数量，以提高研究结果的代表性和普适性。同时，可以采用更客观、准确的数据收集和处理方法，如利用自然语言处理技术对年报中的文本进行深度分析和挖掘，以更准确地量化企业数字化水平。

(3) 在未来的研究中可以探索新的研究方法与模型，如机器学习、深度学习等，以更准确地预测和评估企业数字化水平的发展趋势和潜在风险。为政策制定者和企业管理者提供更科学、更可靠的决策支持。

基金项目

湖北省大学生创新创业训练计划项目“基于年报文本分析的制造业上市企业数字化能力的影响因素研究(S202310488095)”。

参考文献

[1]	任碧云, 郭猛. 基于文本挖掘的数字化水平与运营绩效研究[J]. 统计与信息论坛, 2021, 36(6): 51-61.
[2]	张叶青, 陆瑶, 李乐芸. 大数据应用对中国企业市场价值的影响——来自中国上市公司年报文本分析的证据[J]. 经济研究, 2021, 56(12): 42-59.
[3]	陈飞, 刘清泉, 朱李灵, 等. 长江中游城市群制造业数字化转型升级水平及其影响因素[J]. 科技和产业, 2024, 24(4): 8-13.
[4]	余澳, 张羽丰, 刘勇. “专精特新”中小企业数字化转型关键影响因素识别研究——基于1625家“专精特新”中小企业的调查[J]. 经济纵横, 2023(4): 79-89.
[5]	胡凤, 李漫青, 宾宁. 企业数字化能力影响因素分析——以广东省制造业为例[J]. 中国商论, 2024(1): 57-60.
[6]	吴非, 胡慧芷, 林慧妍, 等. 企业数字化转型与资本市场表现——来自股票流动性的经验证据[J]. 管理世界, 2021, 37(7): 130-144, 10.
[7]	谢诗蕾, 周波兰. ESG绩效、投资者关注与企业信息披露质量——基于年报文本挖掘的分析[J]. 中国注册会计师, 2022(10): 54-61.
[8]	杨兵, 杨杨, 杜剑. 企业风险预期与投资策略选择——基于年报文本挖掘的实证研究[J]. 经济管理, 2022, 44(2): 122-140.
[9]	Garechana, G., Río-Belver, R., Bildosola, I. and Salvador, M.R. (2017) Effects of Innovation Management System Standardization on Firms: Evidence from Text Mining Annual Reports. Scientometrics, 111, 1987-1999. [Google Scholar] [CrossRef]
[10]	杨贤宏, 宁致远, 向海凌, 等. 地方经济增长目标与企业数字化转型——基于上市企业年报文本识别的实证研究[J]. 中国软科学, 2021(11): 172-184.
[11]	张建伟. 融资方式对企业数字化转型类型的影响[J]. 财会月刊, 2022(22): 48-55.
[12]	Tornatzky, L.G. and Fleischer, M. (1990) The Process of Technological Innovation. Lexington Books.
[13]	唐文秀, 周兵, 徐辉. 产品市场竞争、研发投入与财务绩效——基于产权异质性的比较视角[J]. 华东经济管理, 2018, 32(7): 110-119.
[14]	白雪洁, 王欣悦, 宋培. 中国企业数字化转型的影响因素研究——基于TOE框架的实证分析[J/OL]. 科学学研究: 1-18. 2024-06-30.[CrossRef]
[15]	邱洋冬. 影响企业数字化转型的关键因素研究——基于多维指标的贡献度分析[J]. 西部论坛, 2024, 34(3): 74-94.
[16]	陈洁, 屈李莹, 宋梦莹, 等. 不同产权性质下内外源融资约束对企业创新投入能力的影响研究[J]. 天津城建大学学报, 2023, 29(6): 443-448.
[17]	傅皓天, 于斌, 王凯. 环境不确定性、冗余资源与公司战略变革[J]. 科学学与科学技术管理, 2018, 39(3): 92-105.
[18]	O’Brien, J.P. (2003) The Capital Structure Implications of Pursuing a Strategy of Innovation. Strategic Management Journal, 24, 415-431. [Google Scholar] [CrossRef]
[19]	叶志强, 赵炎. 独立董事、制度环境与研发投入[J]. 管理学报, 2017, 14(7): 1033-1040.
[20]	孙海法, 姚振华, 严茂胜. 高管团队人口统计特征对纺织和信息技术公司经营绩效的影响[J]. 南开管理评论, 2006, 9(6): 61-67.
[21]	周瑜胜, 宋光辉. 公司控制权配置、行业竞争与研发投资强度[J]. 科研管理, 2016, 37(12): 122-131.

为你推荐

友情链接