1. 引言
随着技术的不断变革与发展,当今世界已然进入数字经济的时代。在数字经济时代背景下,数据要素作为核心所在,发挥着创新引擎的作用,为经济发展注入源源不断的动力。伴随数据要素市场的发展,数据要素对银行业乃至整个金融市场的影响日益深化,特别是重塑传统金融的业务模式与服务,从风险控制、支付结算、产品设计、业务管理、技术水平几个方面对商业银行的信贷效率带来了深远影响。
本文通过文本挖掘的方法,选取了2013~2021年间34家上市商业银行年报中的原始词频数据,并经过一系列数据整理得到并构建了具有各家银行个体因素的数据要素指数,并对商业银行数据要素指数与信贷效率的关系进行了研究,检验了不同银行类型和不同资产规模的商业银行数据要素水平对其信贷效率的影响差异,随后在检验稳健性后进一步探究了两者之间的影响机制。
2. 理论分析与研究假设
随着大数据、区块链、云计算等新兴科学技术不断取得突破和发展,作为生产资料“数据”已经成为重要的经济资源。数据的生产和合理利用、数据技术和有关产业创新已经逐步成为全世界经济发展的重要推动力。于立等以生产要素理论作为切入点,重新定义了包括数据要素在内的生产要素基本概念,其次探讨了数据要素的共性和特性 [1] 。李政等从政治经济学的角度分析了数据作为生产要素如何参与分配,认为数据作为生产要素参与分配,要遵循马克思主义政治经济学原理和“以按劳分配为主体,多种分配方式并存”的分配原则 [2] 。内在属性方面,戚聿东等指出,数据要素是数字经济时代最为重要的生产要素,并且进一步指出数据独具非竞争性、非排他性、可重复性和网络外部性等特点 [3] 。
2.1. 数据要素对商业银行信贷效率的影响
商业银行作为传统金融体系的中坚力量,近年来受到科学技术发展的影响程度较深,关于数据要素与商业银行的相关研究也纷至沓来。目前已经有研究的切入点包括了经营绩效、风险管理、盈利能力等。数据的发展运用对商业银行收入盈利 [4] 、管理能力 [5] 、服务质量 [6] 、防范风险 [7] 带来提升;数据要素的发展从挤占市场份额 [8] [9] 、挤出效应 [10] 等方面给商业银行的发展带来负面的影响。现有研究就数据要素对于银行信贷效率的影响集中在以下两种观点:一是数据要素可以通过大数据分析 [11] [12] 提升银行风控能力 [13] ,对商业银行信贷效率有正向影响。二是数据要素对商业银行信贷效率有负向影响 [14] [15] [16] 。
从长尾理论角度来看,商业银行可以通过数据挖掘和分析,更加精准地了解长尾小微客户的需求和行为,进而为他们提供更加个性化、贴心的金融服务。唐也然认为,银行对数字技术的运用可以提升商业银行信贷普惠性和配置效率 [17] 。根据信息不对称理论,数据要素不断发展有助于降低银行信贷业务中的道德风险,改善了逆向选择现象,对促进降低商业银行的不良贷款率有积极作用。李权洋认为,商业银行可以通过移动支付、云计算、大数据等技术手段数据有效地解决由于信息不对称所带来的风险损失,进而降低银行营运成本 [18] 。从金融中介理论来看,商业银行目前是我国最重要也是最常见的一种金融机构。Muganyi等认为,金融科技的发展可以促进金融创新、提高金融效率和降低金融成本,从而推动金融业向着更加普惠、高效和可持续的方向发展 [19] 。由此,提出第一个假设:
假设1:商业银行对数据要素的使用提高了其信贷效率。
商业银行的信贷配置效率与商业银行的类型有关。国有银行、股份制银行、城商行、农商行等不同类型商业银行的数据战略不同,目标客户人群存在显著差异。顾海峰指出,相较于其他类型的商业银行,大型国有商业银行拥有较高的信贷配置效率 [20] 。股份制银行有着最具活力与创作力,往往具有相对更高的信贷配置效率。城商行往往在其所在城市内占有举足轻重的地位,同时信贷业务的区域也相对集中,会导致其客户集中度可能较高,会影响其信贷配置的效率。农商行聚焦农村与普惠金融,触及长尾客户,相对来说,对数据要素的使用程度不高,较难通过技术手段提升其信贷效率。由此,提出第二个假设:
假设2:不同类型的商业银行,其运用数据要素对信贷配置效率的影响效果存在差异。
商业银行信贷配置效率与商业银行规模有关。资产规模较大的银行因其规模大、服务范围广最先受到数据要素的冲击,与资产规模较小的银行相比,大银行实力强、技术水平高,具备发展数据要素的先发优势,其面对数据要素浪潮时投入大量资金成立数据要素中心,在发展初期可能会对其盈利造成负面影响。规模较小的商业因其自身特殊的发展路径,服务客群主要是当地广大群众,客户黏性较大,受到数据要素冲击的幅度较小。面对数据要素的冲击,不同规模的银行反应有差异,其中数据要素加重了大型商业银行风险承担,而中小型商业银行表现则较为迟缓。基于此,提出第三个假设:
假设3:不同资产规模的商业银行,其运用数据要素对信贷配置效率的影响效果存在差异。
2.2. 数据要素对商业银行的影响机制
影响机制方面,风险承担是数据要素对商业信贷效率的作用渠道之一。郭品等发现,对于数据要素的应用可以促进商业银行提高借款人信息的透明度和准确性,从而帮助商业银行更好地评估借款人的信用风险 [21] 。例如,通过分析经济趋势、市场状况和客户行为的数据,商业银行可以评估风险并制定策略来减轻风险。通过分析客户信用记录、交易行为等数据,银行可以更好地评估客户的信誉度,更有效地分配信贷。通过使用数据分析工具来监控交易行为,商业银行可以发现潜在的欺诈行为,并采取积极的措施来预防。通过分析客户数据、交易数据及其他数据来源,银行可以识别客户需求、发现新市场,使得服务产品的开发与市场需求变化保持紧密联系,以减轻产品服务创新失败的风险。商业银行运用数据分析工具和技术,可以显著提高其防范风险的能力,进一步提高信贷业务的配置效率。通过利用数据,银行可以做出更明智的决策,更有效地分配信贷,并为客户提供更有针对性和个性化的服务。由此提出第四个假设:
假设4:商业银行对数据要素的使用可以提高银行风险承担能力,从而提高其信贷效率。
信贷结构调整也是数据要素作用于商业银行信贷效率的渠道之一。宋献中等发现,信贷集中度对商业银行绩效和信贷效率具有显著的正向影响 [22] 。商业银行可以利用数据要素评估贷款项目的可行性。例如,通过分析贷款项目的市场需求、行业前景、财务状况等数据要素,银行可以评估项目的风险水平,确定项目的还款期限、利率等信贷条件,并最终优化其信贷结构,提高信贷效率。在投资组合优化方面,通过分析贷款组合的数据,商业银行可以确定潜在客户高度集中的领域,并采取措施降低这种集中度。例如,银行可以利用数据来确定贷款高度集中的行业或地区,并制定策略来降低这种集中度。这有助于降低贷款违约风险,提高信贷业务的配置效率。其次,通过使用数据分析工具监测贷款组合,银行可以发现潜在问题,并采取积极措施解决这些问题。例如,若某商业银行发现它在某个特定行业或地区的贷款高度集中,它可以采取相应措施降低集中度。通过持续监测贷款组合并报告潜在风险,银行可以降低贷款违约风险,提高信贷业务的配置效率。总之,商业银行运用数据分析工具和技术,可以显著降低客户贷款集中度,提高信贷业务配置效率。通过利用数据,银行可以做出更明智的决策,更有效地分配信贷,并为客户提供更有针对性和个性化的服务。这可以帮助银行在不断变化的市场中保持竞争力,并与客户建立长期关系。由此提出五个假设:
假设5:商业银行对数据要素的使用可以优化银行信贷结构,从而提高其信贷效率。
3. 研究设计
3.1. 构建数据要素指数
近年来,国内不少机构为了更好地衡量和量化数字经济的发展水平,尝试构建出诸如互联网金融指数、金融科技指数等科技类指数。2015年,北京大学互联网金融研究中心联合蚂蚁金服、中国人民银行等机构共同编制并发布了中国首个北京大学互联网金融发展指数。2017年,深圳交易所运用71家金融科技公司的数据测得了香蜜湖金融科技指数这一我国首个金融科技指数。目前学界对于数据要素的定量研究较少,而基于金融科技的相关定量研究较多,考虑到数据要素指数与金融科技指数两者在内容上紧密联系,从金融功能理论入手,通过划分依据互联网金融模式建立原始词库,利用百度引擎计算词频、量化原始词库,借助因子分析法的方式构建互联网金融指数的方式,构建数据要素指数。
本研究采用规范度更高、可靠性更强、可信度更好的商业银行年度报告信息作为数据来源。首先本研究采用Python中的PyPDF2库,对PDF文件进行拆分合并解密等操作,以便对商业银行年报进行文本数据的分析。其次,借助文本挖掘中的Word2vec对银行年报进行分词处理,生成可用于执行自然语言处理任务的词的向量表示。最后,本研究将数据要素原始词库分为风险控制、支付结算、产品设计和业务管理、技术水平五个维度,梳理出20个原始关键词,构建数据要素关键词(见表1)。

Table 1. Thesaurus of data index keywords
表1. 数据要素指数关键词词库
资料来源:本研究整理,下同。
最后,合成数据要素指数。本文采取姜世超等合成银行数据要素指数时所采用的熵值法 [23] 。在文本挖掘获取了词库中各个关键词词频后,进一步采取熵值法合成数据要素指数:
第一,标准化处理数据要素指数关键词。用
表示第
个样本年份,第i家银行(
),第j个关键词(
)出现的次数。由于每个数据要素关键词的出现次数是非负整数,因此进行标准化处理的公式是:
(1)
其中,第j个数据要素关键词在2013~2021年34家银行年度报告中出现的最大次数为
,最少次数为
。
表述标准化之后数据,其数值分布在[0, 1]闭区间上。经过第一步处理之后,部分
的数值为0,本研究对所有标准后的数据进行了平移处理,有
,
。
第二,计算34家商业银行各自对于数据要素指数关键词的贡献度:
(2)
其中,h指样本期间年度数,m指商业银行个数,分别为9和34。
第三,得出数据要素指数关键词的熵值:
(3)
第四,得出数据要素指数关键词的差异性系数:
(4)
第五,得出各个数据要素指数关键词权重:
(5)
第六,测得各年份各商业银行数据要素指数,公式为:
(6)
将文本挖掘分析的结果进行上述处理后,得到了34家银行2013~2021年的数据要素指数。
3.2. 样本选取与数据来源
在充分考虑了数据的可读性、可获取性之后,本文在上市商业银行中选取了34家商业银行2013年~2021年的年报数据作为研究样本,其中包括6家国有商业银行、9家股份制商业银行、11家城商行和8家农商行。银行相关的财务数据来源于Wind金融终端,缺失数据通过查找相应商业银行年报和同花顺数据库进行补充。宏观经济数据来源于国家统计局,数据要素指数来源于作者整理计算。
3.3. 变量定义
本文参照王秀丽等 [24] 的方法,将不良贷款率作为衡量信贷效率的指标。高不良贷款率会使银行面临更多的风险和损失,因此银行可能会减少信贷额度或者提高贷款利率,从而限制贷款规模和范围,影响信贷效率。文本核心解释变量为自行构建的数据要素指数。本文选取银行存贷比(LDR)、银行资产收益率(ROA)、银行收入成本比(CIR)、银行资本充足率(CAR)、银行总资产规模(Lnsize)、宏观经济指标(GDP)和货币政策(M2)作为七个控制变量。上述变量汇总在下表2中。
3.4. 实证模型
为了验证研究假设1,本文结合前文理论分析和相关参考文献,加入了对时间、个体因素的考量后,设定如下的多元回归模型:
(7)
其中,α为截距项,β1为核心解释变量数据要素指数的系数,β2~β8为各个控制变量的系数,μi代表商业银行个体固定效应,δt代表时间固定效应,εi,t代表随机扰动项,i代表银行数量,t代表时间。
假设2和假设3分别根据商业银行类型和商业银行规模对样本进行异质性检验,并通过对比核心解释变量DataF前系数的组间差异以检验假设。
在主回归模型的基础之上,本文进一步研究数据要素通过何种渠道影响作用于商业银行的信贷配置效率,在回归方程中加入调节变量、数据要素指数与调节变量的交叉相乘项。
为检验商业银行风险承担能力的调节效应(假设4),本文构建如下模型:
(8)
其中,RISKi,t表示银行i在第t年的风险承担能力,DataFi,t*RISKi,t表示商业银行风险承担能力在数据要素影响银行信贷效率的调节效应。
为检验商业银行信贷结构的调节效应(假设5),本文构建如下模型:
(9)
其中,LNCi,t表示银行i在第t年的信贷集中度情况,DataFi,t*LNCi,t表示商业银行信贷结构在数据要素影响银行信贷效率的调节效应。γ1衡量商业银行信贷结构对其信贷效率的影响,γ2衡量商业银行信贷结构与数据要素水平的交乘项影响的大小。
4. 实证分析
4.1. 描述性统计
表3列出了相关变量的观测值、均值、标准差、最小值和最大值,可见,各变量标准差都比它们平均值小。表明原始数据波动范围较小,数据质量良好。

Table 3. Descriptive statistics of variables
表3. 变量描述性统计
4.2. 基准回归
在全样本回归中,本文先根据静态面板的混合效应、固定效应和随机效应进行估计,回归结果如表4前三列所示,根据Breusch与Pagan拉格朗日乘子检验的结果,在混合效应模型与随机效应模型之间选择随机效应模型。本文进一步根据Hausman检验的结果判断回归模型在固定效应与随机效应间如何选择,Hausman检验的原假设为个体效应与回归变量无关,检验结果显示P值为0.0000,故强烈拒绝原假设,故选择固定效应模型。

Table 4. Baseline regression results
表4. 基准回归结果
注:*、**、***分别表示在10%、5%、1%显著性水平下显著;括号内数值为回归标准差,下同。
本研究最终选择加入个体效应与时间效应的双向固定效应模型进行回归,并将回归结果记录在表4第四列中。根据回归结果,核心解释变量数据要素指数的系数为−1.094,并且在1%的水平上显著。说明解释变量数据要素指数与被解释变量商业银行信贷效率之间为显著的负相关关系,因此假设1:商业银行对数据要素的使用提高了其信贷效率得到了验证。
4.3. 稳健性检验
为了验证上述估计结果的稳健性。本文将被解释变量不良贷款率(NPL)替换成不良贷款拨备覆盖率(NPC),以此为基础进行稳健性检验。不良贷款拨备覆盖率用于衡量银行应对不良贷款风险的能力。较高的不良贷款拨备覆盖率意味着较高的信贷效率,稳健性检验的具体结果如表5所示。

Table 5. Robustness test of the replacement of credit efficiency measures
表5. 更换信贷效率衡量方式稳健性检验
核心解释变量DataF的估计系数是我们主要关心的系数。列(1)是单变量回归的结果;列(2)是加入了一系列控制变量后的回归结果;列(3)表示在双向固定效应模型下的回归结果。综上,DataF的系数在1%的显著度水平下为正,数据要素可以显著提升商业银行信贷效率,这一结论与基准回归相同。
4.4. 异质性分析
为了进一步研究不同类型的商业银行在运用数据要素对其信贷效率影响的异质性,本文选择分组样本回归的方法。本文将34家商业银行样本按照银行类型为国有商业银行、股份制商业银行、城市商业银行与农村商业银行四组,分别带入回归模型,回归结果如表6所示。

Table 6. Regression results of sample grouping by bank category
表6. 按银行类别分组样本回归结果
从分组样本实证结果中可以看出,不同类型的商业银行存在组间差异。国有商业银行、股份制商业银行和城商行均在1%的水平上显著,而农村商业银行组数据要素指数的估计系数不显著,说明国有商业银行、股份制商业银行和城市商业银行运用数据要素对信贷效率提升作用显著,而农村商业银行运用数据要素对信贷效率的提高不显著。故验证本文研究的假设2:不同类型的商业银行,其运用数据要素对信贷配置效率的影响效果存在差异。
参考喻微锋等以商业银行资产规模作为分类标准 [25] ,本文将34家商业银行样本按照资产规模的大小分为两组。其中,资产规模在样本中排名前50%的银行纳入大规模的银行组,剩下的银行纳入小规模的银行组。具体的回归结果记录在表7中。

Table 7. Regression results of sample grouping by bank size
表7. 按银行规模分组样本回归结果
结果显示,当商业银行按照资产规模大小分为规模大和规模小两组时,数据要素指数的估计系数显著为负,说明资产规模较大的商业银行与资产规模较小的银行相比,数据要素指数对信贷效率的影响更大,即验证了本文的研究假设3:不同资产规模的商业银行,其运用数据要素对信贷效率的影响效果存在差异。
4.5. 影响机制分析
本文进一步研究数据要素影响商业银行信贷效率的潜在传导机制。
一是数据要素提高了商业银行的抗风险能力,进而提高了银行的信贷效率。本文借鉴江曙霞等 [26] 的研究,选取加权风险资产(RISK)表示商业银行的风险承担能力,RISK越高说明商业银行风险承担能力越强。二是数据要素降低了银行的贷款集中度,进而提高了银行的信贷效率。本文选用商业银行最大十家客户贷款占资本净额(LNC)表示商业银行贷款集中度,该比率越高贷款集中度越高。
结合第四章提到的检验调节效应的模型进行回归,结果展示在表8中。
在第(1)列中,加权风险资产的估计系数为负,在10%的水平上显著,表明商业银行风险承担能力越高,其信贷配置效率就越高,但这一影响作用有限。在第(2)列中,交互项系数的显著负值表明,对于风险承担能力较强的商业银行而言,数据要素对其信贷配置效率的促进作用越大。可以验证本研究假设4:商业银行对数据要素的使用可以提高风险承担能力,从而提高其信贷效率。在第(3)列中,衡量商业银行贷款集中度的指标显著为正,说明商业银行信贷结构中贷款集中度越低,其信贷配置效率越高。在第(4)列中,数据要素指数与银行信贷结构指标的交互项系数显著为正,可以验证文本研究假设5:商业银行对数据要素的使用可以优化信贷结构,从而提高其信贷效率。
5. 结论与建议
5.1. 研究结论
本文得出以下结论:第一,不同商业银行其数据要素发展程度不同。国有商业银行与股份制商业银行由于体量规模较大且具备先发优势,故其数据要素发展程度较城市商业银行和农村商业银行高。第二,商业银行对于数据要素的使用有助于提高其信贷效率。在实证分析中,本文采用自行构建的数据要素指数作为解释变量,选用不良贷款率来衡量信贷效率,得到了这一结论。第三,不同类型、不同资产规模的商业银行,其运用数据要素对信贷配置效率的影响效果存在差异。第四,商业银行对数据要素的使用可以通过提高银行风险承担能力和优化信贷结构两方面提高信贷效率。
5.2. 对策建议
对于商业银行而言,发展数据要素可以显著提升信贷效率。银行可以加大建设数字化平台等软硬件基础设施的力度;具备一定实力的银行可以考虑成立金融科技子公司,集中力量提升数据要素水平;此外,银行可以注重金融科技类人才的引进与内部职工的培训与转型,以适应不断提升的数据要素水平。
对于整个银行业来说,应当承担一定的社会责任,为推进数据要素市场的建设探索出针对金融业的发展模式,鼓励同业银行之间就数据要素相互交流,不断推动数据资产的开放与共享,促进银行业不断向好发展。行业内监管机构应当积极探索出与数据要素发展水平相适配的监管体系,防范发展数据带来的信息技术风险,也要防止系统性金融风险。