基于Lasso回归的福州市财政收入分析与预测
Analysis and Forecasting of Fuzhou City’s Fiscal Revenue Based on Lasso Regression
摘要: 本文深入探讨了福州市财政收入的影响因素及其预测方法,首先运用描述性统计分析、Pearson相关性分析等方法,对影响福州市财政收入的关键因素进行了初步分析,揭示了各因素之间的相关性和变化趋势。其次,为减轻多重共线性对模型预测准确性和稳定性的不利影响,本文采用了逐步回归法、岭回归法以及Lasso回归法来进行数据拟合。结果表明,Lasso回归表现出色,能够准确识别对财政收入影响最为显著的变量,这为政策制定提供了有力的实证依据。然后运用ARIMA模型对关键因素数值进行预测,得到2023年及2024年财政总收入预测值。最后,文章总结了研究的主要结论和政策建议,强调政府应加强对财政收入的预测和管理,制定科学合理的财政政策,以促进经济的可持续增长。
Abstract: This article deeply explores the influencing factors and prediction methods of Fuzhou’s fiscal revenue. Firstly, descriptive statistical analysis, Pearson correlation analysis and other methods are used to conduct a preliminary analysis of the key factors affecting Fuzhou’s fiscal revenue, revealing the correlation and changing trends between each factor. Secondly, in order to mitigate the adverse effects of multicollinearity on the accuracy and stability of model predictions, this paper used stepwise regression, ridge regression, and Lasso regression to fit the data. The results indicate that Lasso regression performs better and can accurately identify the variables that have the most significant impact on fiscal revenue, providing strong empirical evidence for policy-making. Then, the ARIMA model is used to predict the key factor values and obtain the predicted total fiscal revenue for 2023 and 2024. Finally, the article summarizes the main conclusions and policy recommendations of the research, emphasizing that the government should strengthen the prediction and management of fiscal revenue, formulate scientific and reasonable fiscal policies, and promote sustainable economic growth.
文章引用:胡欣瑜, 林耿. 基于Lasso回归的福州市财政收入分析与预测[J]. 统计学与应用, 2024, 13(5): 1982-1994. https://doi.org/10.12677/sa.2024.135193

1. 引言

地方财政收入作为国家财政体系中的关键一环,不仅是衡量地区经济实力的重要指标,也是支撑地方经济建设与社会发展的重要基石。福州市,这座位于东南沿海的璀璨明珠,凭借其优越的地理位置、深厚的历史文化底蕴以及新世纪以来的迅猛发展,财政收入实现了显著跃升,为城市的蓬勃发展及持续进步构筑了稳固的财政基石,确保了各项建设与发展项目拥有充足的资金支持。

在福州市的经济发展过程中,财政收入的合理预测与管理显得尤为重要。通过精准选取和分析影响财政收入的各项指标,可以更加科学地制定财政预算和财政政策,有效避免收支失衡的风险,确保地方财政的稳健运行。这种科学的管理模式,不仅显著增强了财政政策的精准度与实施效果,还极大地促进了经济资源的合理分配与高效利用,为经济的长期稳定增长和健康发展注入了强劲动力。

2. 国内外研究现状

2.1. 国外研究现状

Gizem Topaloğlu等采用了三种不同的方法来准确预测收入[1]。第一种方法,在对数据集应用简单的预处理步骤后,使用随机森林(RF)开发预测模型。第二种方法,隔离林(IF)用于检测数据集上的异常值,最小冗余最大相关性(mRMR)用于正确选择影响收入预测质量的特征。第三种方法,首先执行特征选择过程,然后使用基于密度的空间聚类和噪声应用(DBSCAN)对数据集进行聚类。在执行这些过程后,使用RF开发预测模型,利用平均绝对百分比误差进行评估预测模型的性能。

Yifu Sheng等提出一种创新的预测模型——融合Lasso回归的灰色神经网络模型[2]。该模型先利用Lasso方法精简数据维度,随后结合灰色预测模型与BP神经网络的优势。通过灰色模型高效处理少量数据,对各解释变量进行独立预测,再利用BP神经网络综合多因素进行财政收入预测,有效克服了传统方法的精度局限。

G Duncan提出了一种创新的贝叶斯预测框架[3],即C-MSKF,将传统的多步卡尔曼滤波与条件独立分层技术相融合。根据15年的所得税收入案例研究,C-MSKF与单纯的单变量MSKF方法进行了实际应用对比。研究结果显示C-MSKF在预测精度上显著优于传统的MSKF方法,尤其在数据少、预测时间长或经济敏感度高时。

2.2. 国内研究现状

罗鑫采用灰色关联分析法识别财政收入关键指标,用灰色预测模型初步预测,再以灰色马尔科夫模型修正预测结果。最后结合支持向量机回归和BP神经网络模型进行最终预测,进一步提升预测结果的准确性和可靠性[4]

荣腾创新性地融入了定性指标——科技创新政策,并通过灰色变权聚类评估模型实现其量化。对所有指标数据进行了详尽的描述性分析和相关性分析,为精准而高效地识别出对财政收入具有决定性影响的关键因素,创新性地运用了Lasso回归、自适应Lasso回归以及随机森林(RF)三种数据挖掘技术。基于筛选结果,分别构建了Lasso-BP、自适应Lasso-BP及RF-BP模型,以实现对财政收入的精准拟合与预测[5]

倪杰提出了一种融合了统计学与机器学习的变量筛选与预测策略。首先运用自适应Lasso方法对初步挑选的自变量进行筛选,识别出对预测目标具有显著影响的变量。进一步采用了机器学习中的随机森林算法挑选出关键的自变量。随后分别应用于半参数回归模型中,进行财政收入的预测[6]

薛李娜采用定性与定量结合的方法,通过Nonnegative-Lasso筛选关键影响因素,再基于灰色理论构建p GM(1,1)模型预测这些因素的数值,最后利用灰色神经网络模型预测财政收入[7]

袁孟嘉用Lasso和交叉验证筛选主要变量,建立灰色GM(1,1)模型预测这些变量未来值,再结合灰色预测与BP神经网络,进行财政收入预测[8]

李敏通过Lasso方法筛选出影响财政收入的关键因素,随后在预测模型中直接运用这些筛选结果。基于半参数回归理论,对关键经济因素和财政收入之间的关系进行拟合估计构建了部分线性可加模型,进行财政收入的变化趋势预测[9]

徐向辉选取国家财政收入数据为基础,引入国内生产总值作为关键协变量,构建了ARIMAX多元动态回归模型。旨在捕捉财政收入与国内生产总值之间的动态关系,并据此预测未来五年内全国财政收入的演变趋势[10]

范敏等提出了一种组合预测法针对地方财政收入预测的多因素复杂性和经济系统的非线性。用灰色关联分析筛选关键指标,再通过灰色预测模型预测这些指标,最后以预测值训练神经网络模型以预测财政收入。该方法有效剔除了非关键干扰,提供了高质量输入,并捕捉了复杂关联[11]

徐子卿采用Adaptive-Lasso变量选择技术,识别出影响地方财政收入的核心因素。利用灰色预测模型对筛选出的关键指标的数值进行了预测。再构建了BP神经网络模型以进一步预测地方财政一般预算收入[12]

张雨乾采用了一种创新的Lasso-XGBoost组合预测模型,通过Lasso方法进行特征选择与权重优化,结合XGBoost算法的强大预测能力,实现了对财政收入相对精确的预测[13]

任爽等利用SARIMA时间序列模型对税收收入进行了建模和预测,通过比较模型预测值和实际值之间的平均绝对百分比误差以及均方根误差,对模型的预测能力进行了评估,该模型具有较高的准确性和可靠性[14]

张梦瑶等采用了Box-Jenkins ARIMA模型,构建了一个全面的月度税收收入预测分析框架。该框架涵盖了模型的建立、验证、预测、评估以及根据新的数据动态调整模型等关键步骤,确保了预测过程的系统性和科学性[15]

以往的研究中,财政收入预测大部分采用传统的统计方法,而本文先通过将描述性分析和Pearson相关性分析相结合进行变量选择,再结合Lasso回归模型与ARIMA模型展开预测。

3. 数据处理及分析

3.1. 数据来源

本文相关数据均来自于《福州统计年鉴2023》,数据真实可靠。由于数据仅更新至2022年,故从其中选取了从2000年至2022年10个对财政收入有影响的因素来进行分析。选取的影响因素及变量名称如表1所示。

Table 1. Influencing factors and variable names

1. 影响因素及变量名称

影响因素

变量名称

生产总值(亿元)

X1

常住人口(万人)

X2

就业数据(万人)

X3

社会消费品零售总额(亿元)

X4

工业增加值(亿元)

X5

农林牧渔业总产值(亿元)

X6

城镇人均可支配收入(万元)

X7

农村人均可支配收入(万元)

X8

一般公共预算收入(亿元)

X9

一般公共预算支出(亿元)

X10

财政总收入(亿元)

Y

3.2. 数据分析及筛选

3.2.1. 描述性分析

描述性分析是一种数据分析的基本形式,主要目的是总结和描述数据集的特征,而不试图推断超出数据本身的信息或做出因果推断。描述性分析提供了数据的基本概况,帮助我们理解数据的分布,本文对数据进行了最大值、最小值、平均值、标准差的描述性统计分析。结果如下表2

Table 2. Descriptive analysis of variables

2. 变量的描述性分析结果

变量

最大值

最小值

平均值

标准差

X1

12308.23

876.39

4720.038696

3524.651915

X2

844.8

589.2

723.7086957

84.96327551

X3

420

290.53

368.0843478

42.82277826

X4

4679.5215

327.6424

2059.544504

1492.324013

X5

3020.19

321.15

1416.945217

853.7435315

X6

1194.751

215.3911

565.8050913

301.1383366

X7

5.5638

0.7944

2.771930435

1.522996914

续表

X8

2.6826

0.386

1.196034783

0.72128969

X9

749.847

55.3534

363.3337522

245.8648258

X10

1006.0892

54.0439

458.6080174

357.016983

Y

1250.26

68.79

571.3413043

400.6464691

根据表2数据可知,福州市的财政总收入在2020至2021年期间经历了显著的波动,其均值达到了571亿元人民币,然而标准差高达400亿元,这反映出收入增长速度的不稳定性和较大的年度间差异。同时,福州市的生产总值从876.39亿元增长至12308.23亿元,这一巨大的增幅凸显了其经济的迅猛扩张和持续的高增长态势。过去23年,尤其在过去10年中,绝大多数宏观经济指标展现出了显著的增长趋势,这体现了福州市经济体系的健康和活力显著提升。

3.2.2. Pearson相关性分析

Pearson相关性分析是一种统计方法,用于衡量两个连续变量之间的线性相关程度。Pearson相关系数通常记作r的值介于−1和+1之间,其中:

r = 1表示完全正相关,意味着一个变量增加时,另一个变量也确定性地按比例增加;

r = −1表示完全负相关,意味着一个变量增加时,另一个变量确定性地按比例减少;

r = 0表示没有线性相关性,即两个变量的变化彼此独立。

Pearson相关系数的计算公式如下:

r XY = ( X i X ¯ )( Y i Y ¯ ) ( X i X ¯ ) 2 ( Y i Y ¯ ) 2 (1)

其中, X i Y i 分别是变量XY的观测值, X ¯ 和是 Y ¯ 它们各自的平均值。Pearson相关性分析分析结果如下表3所示:

Table 3. Pearson correlation analysis of retained variables

3. 保留变量的Pearson相关性分析结果

X1

X2

X3

X4

X5

X6

X7

X8

X9

X10

Y

X1

1

X2

0.938

1

X3

0.867

0.975

1

X4

0.99

0.963

0.91

1

X5

0.98

0.976

0.925

0.992

1

X6

0.997

0.955

0.893

0.993

0.989

1

X7

0.988

0.976

0.928

0.995

0.995

0.995

1

X8

0.998

0.949

0.885

0.995

0.987

0.999

0.993

1

X9

0.96

0.973

0.936

0.988

0.988

0.971

0.983

0.973

1

X10

0.963

0.954

0.912

0.988

0.978

0.969

0.977

0.973

0.991

1

Y

0.962

0.972

0.939

0.989

0.985

0.972

0.984

0.973

0.998

0.989

1

根据表3可知大部分变量之间呈现出强正相关关系,这表明这些变量在变化趋势上具有很高的相似性。特别是,Y与各个自变量(X1X10)之间的相关系数普遍较高,显示出Y与这些自变量之间的紧密关联。由于自变量之间的高度相关性,数据可能存在多重共线性问题。多重共线性会影响回归分析中参数的稳定性和准确性。故选用方差选择法进行特征筛选,筛选结果显示将X8元素移除。移除X8后再一次进行Pearson相关性分析,所得结果如下表4所示:

Table 4. Pearson correlation analysis of variables

4. 变量的Pearson相关性分析结果

X1_保留

X2_保留

X3_保留

X4_保留

X5_保留

X6_保留

X7_保留

X9_保留

X10_保留

Y

X1_保留

1

0.938

0.867

0.99

0.98

0.997

0.988

0.96

0.963

0.962

X2_保留

0.938

1

0.975

0.963

0.976

0.955

0.976

0.973

0.954

0.972

X3_保留

0.867

0.975

1

0.91

0.925

0.893

0.928

0.936

0.912

0.939

X4_保留

0.99

0.963

0.91

1

0.992

0.993

0.995

0.988

0.988

0.989

X5_保留

0.98

0.976

0.925

0.992

1

0.989

0.995

0.988

0.978

0.985

X6_保留

0.997

0.955

0.893

0.993

0.989

1

0.995

0.971

0.969

0.972

X7_保留

0.988

0.976

0.928

0.995

0.995

0.995

1

0.983

0.977

0.984

X9_保留

0.96

0.973

0.936

0.988

0.988

0.971

0.983

1

0.991

0.998

X10_保留

0.963

0.954

0.912

0.988

0.978

0.969

0.977

0.991

1

0.989

Y

0.962

0.972

0.939

0.989

0.985

0.972

0.984

0.998

0.989

1

表4可知,变量间仍然具有多重共线性,再依次进行方差选择法进行特征筛选,结果显示变量全部保留,故在进行后续回归分析时应选择恰当的模型来减轻多重共线性的影响,以确保模型的有效性和可靠性。

4. 模型建立及预测

4.1. 模型建立

由于数据中仍存在自变量间的高相关性,即多重共线性,这在线性回归模型中表现为解释变量间的线性依赖。这种情况可能会引起模型估计的偏差、增加参数估计的不确定性、削弱统计检验的有效性,以及降低模型预测的准确性。所以选择合适的模型以减轻或消除这种共线性对模型估计和预测的影响至关重要。本文分别选择使用逐步回归、岭回归、Lasso回归这些模型方法来处理多重共线性。

4.1.1. 逐步回归

1. 逐步回归步骤

(1) 通过逐步回归模型结果表确定经过逐步回归被筛选和被保留的变量。

(2) 通过R2值分析模型拟合情况,同时对VIF值进行分析,检查是否出现共线性(VIF大于10或者5,严格为10)。

(3) 分析X的显著性,如果呈现出显著性(P < 0.05),用于探究XY的影响关系。

(4) 结合回归系数B值,对比分析XY的影响程度。

2. 逐步回归结果

逐步回归模型的结果如下表5所示。

Table 5. Stepwise regression model results

5. 逐步回归模型结果

线性回归分析结果n = 23

非标准化系数

标准化系数

t

P

VIF

R2

调整R2

F

B

标准误

Beta

常数

−19.322

10.734

0

−1.8

0.086*

-

0.995

0.995

F = 4414.307, P = 0.000***

X9

1.626

0.024

0.998

66.44

0.000***

1

因变量:Y

注:******分别代表1%、5%、10%的显著性水平。

根据表5的F检验结果表明,显著性P值为0.000***,水平呈现显著性,拒绝回归系数为0的原假设。VIF全部小于10,因此模型没有多重共线性问题。

逐步回归模型的公式如下:

Y=19.322+1.626× X 9 (2)

逐步回归拟合效果如下图1所示。

Figure 1. Stepwise regression fitting renderings

1. 逐步回归拟合效果图

尽管模型拟合效果表现良好,但模型仅保留一个变量X9,牺牲了其他重要信息,模型可能忽略了其他潜在的复杂影响因素或变量间的交互作用,导致模型无法全面反映数据的复杂性。这种简化可能基于不充分的信息,影响系数估计的准确性,降低模型的全面性和准确性。

4.1.2. 岭回归

1. 岭回归分析步骤

(1) 通过岭迹图选择使各个自变量的标准化回归系数趋于稳定时的最小K值。

(2) 通过F值分析该模型是否有意义(P < 0.05),若呈显著性,表明之间存在着回归关系。

(3) 通过R2值分析模型拟合情况。

(4) 分析X的显著性;如果呈现出显著性(P < 0.05),则用于探究XY的影响关系。

(5) 结合回归系数B值,分析XY的影响程度。

2. 岭回归结果

岭回归模型结果如下表6所示。

Table 6. Ridge regression analysis results

6. 岭回归分析结果

K = 0.109

非标准化系数

标准化系数

t

P

R2

调整R2

F

B

标准误

Beta

常数

−582.764

145.899

-

−3.994

0.002***

0.989

0.982

134.731 (0.000***)

X1

0.007

0.003

0.058

2.496

0.027**

X2

0.372

0.123

0.079

3.032

0.010***

X3

1.102

0.325

0.118

3.387

0.005***

X4

0.035

0.004

0.129

9.541

0.000***

X5

0.045

0.01

0.097

4.634

0.000***

X6

0.078

0.026

0.058

3.021

0.010***

X7

22.131

3.33

0.084

6.645

0.000***

X9

0.327

0.039

0.201

8.283

0.000***

X10

0.193

0.034

0.172

5.626

0.000***

因变量:Y

注:******分别代表1%、5%、10%的显著性水平。

根据表6岭回归的结果可知:基于F检验显著性P值为0.000***,水平上呈现显著性,拒绝原假设,表明自变量与因变量之间存在着回归关系。同时,模型的拟合优度R2为0.989,模型表现较为优秀,且有效地解决了自变量之间的共线性问题。岭回归模型的公式:

Y=582.764+0.007× X 1 +0.372× X 2 +1.102× X 3 +0.035× X 4 +0.045× X 5 +0.078× X 6 +22.131× X 7 +0.327× X 9 +0.193× X 10 (3)

岭回归拟合效果如下图2所示。

图2可得岭回归的拟合效果虽然表现出色,但预测仍然存在一些潜在的缺点或局限性,在实际值出现峰值时,预测值与实际值差别较大。

Figure 2. Ridge regression fitting renderings

2. 岭回归拟合效果图

4.1.3. Lasso回归

1. Lasso回归分析步骤

(1) 通过交叉验证方法,选择使得Lasso模型的均方误差最小的λ值。

(2) 通过λ和回归系数图,确定模型筛选的变量情况,剔除标准化系数为零的变量。

(3) 得到Lasso回归模型的公式和预测情况,并且列出保留和被剔除的变量。

2. Lasso回归结果

Lasso回归模型的系数如表7所示。

Table 7. Lasso regression model coefficient table

7. Lasso回归模型系数表

变量名

标准化系数

非标准化系数

R2

截距

112.445

106.977

0.998

X1

−0.002

−0.004

X2

−0.743

−0.734

X3

1.069

1.063

X4

0.14

0.14

X5

−0.113

−0.11

X6

−0.254

−0.231

X7

64.662

62.386

X9

1.585

1.569

X10

−0.278

−0.271

表7可知:所选自变量与因变量之间存在显著的回归关系,且模型拟合度非常高。Lasso回归方法不仅解决了潜在的共线性问题,还提供了变量影响的分析和模型精简的可能性。从标准化系数可以看出,X2X7X9的系数绝对值较大,故可知对因变量Y的影响较大,而X1的影响相对较小。并且正负号表示了自变量与因变量之间的相关方向,例如X2X5Y负相关,而X3X4X7X9Y正相关。

Lasso回归模型的非标准化公式:

Y=106.9770.004× X 1 0.734× X 2 +1.063× X 3 +0.14× X 4 0.11× X 5 0.231× X 6 +62.386× X 7 +1.569× X 9 0.271× X 10 (4)

Lasso回归拟合效果如下图3所示。

Figure 3. Lasso regression fitting renderings

3. Lasso回归拟合效果图

根据图3显示Lasso回归模型在拟合数据和解释自变量对因变量影响方面表现出色,具有较高的拟合优度和显著性。

4.2. 时间序列预测变量

采用时间序列分析(ARIMA)对变量X1X2X3X4X5X6X7X9X10进行2023年及2024年预测。

时间序列分析步骤:

1) 通过ADF检验的t值分析其是否可以显著性地拒绝序列非平稳的假设(P < 0.05)。

2) 对比差分前后的序列图以评估平稳性,同时对时间序列进行自相关性分析,估算其pq值。

3) 根据模型检验表Q统计量的P值(P > 0.05)对模型白噪声进行检验,也可以结合信息准则AIC和BIC值进行分析,也可以通过模型残差ACF/PACF图进行分析,根据模型参数表,得出模型公式结合时间序列分析图进行综合分析,得到预测结果。

变量的预测结果如下表8所示。

Table 8. Variable predictive value

8. 变量预测值

变量

2023年预测值

2024年预测值

X1

13384.86212

14509.832

X2

856.4181818

868.0363636

X3

409.0172727

414.0345455

X4

4955.076087

5146.799104

X5

3142.873636

3265.557273

X6

1281.071699

1371.035297

X7

5.902212988

6.251201808

X9

727.7585045

756.9935091

X10

1011.808806

1076.884783

4.3. 预测财政总收入

经过深入探讨并比较了逐步回归、岭回归与Lasso回归三种建模方法在预测财政总收入方面的表现后,本文最终决定采用Lasso回归模型作为预测工具。将选定的自变量(X1X7X9X10)的2023年及2024年预测值代入Lasso回归模型后,得到了如下预测结果:2023年财政总收入预计为1147.547亿元,而2024年则预计达到1182.424亿元。这一预测不仅为政府及相关部门提供了未来两年财政收入的量化参考,还揭示了财政状况可能的发展趋势,有助于政策制定者提前规划财政政策和资源配置。

4.4. 对福州市财政局给出建议

在国内外复杂严峻的市场经济形势下,多种因素的影响仍在持续,经济下行压力依然较大。近年来,福州市的社会经济发展迅速,但其财政状况存在一些挑战。因此,基于上文的分析影响因素,主要从4个方面进行建议:

(1) 财政支出方面,保障基础公共设施服务满足市民需求的同时,福州市应支持纳入国家“十四五”规划的重点发展项目,并对重大战略项目给予更多支持。政府应提高对民生以及公共服务领域的财政投入,特别是在医疗卫生、教育事业和科技创新等关键社会事业上扩大投资。同时,政府应出台相应政策,鼓励并引导民间资本积极参与基础设施的建设和发展,以实现公共与私营部门的合作共赢。

(2) 一般公共预算收入方面,福州市应通过对税收趋势分析和预测,来指导税收政策的制定。在执行税收减免政策的同时,与税务机关协作,对关键行业、税种和企业实施更为严格的税收监管。市政府应充分利用财政部门的职能,强化税收和非税收入的征收管理。同时,市政府可以通过增加社会保障基金的投入和提高非税收入的比例,来多元化财政收入来源。

(3) 在固定资产投资方面,福州市需不断改进其固定资产投资的构成,重点关注工业技术改造、高端制造业以及与民生和公共服务相关的领域,有助于构建一个现代产业体系,为城市经济增长提供必要的物质支撑。市政府应出台具体政策,扶持新兴产业的成长。通过不断的创新,提高这些领域的投资效益和回报率,以吸引更多的国内外投资,确保固定资产投资的可持续性。

(4) 在金融机构方面,福州市具备通过加强对金融机构的扶持来推动地方经济增长的潜力。地方财政和金融部门是地方经济发展资金的主要来源,二者相互依存,共同发挥作用。金融行业通过更新服务理念、强化体系构建和优化业务流程,能够更高效地助力地方经济。福州市政府可以采取政策激励和加强监管等措施,鼓励金融机构提高服务水平和运营效率。

5. 结语与展望

5.1. 结语

文章数据来源于《福州统计年鉴2023》,选取了从2000年至2022年对福州市财政收入有影响的10个关键因素。

描述性分析揭示了财政总收入在2020至2021年间的显著波动,以及地区生产总值的大幅度增长,表明福州市经济体系的健康和活力显著提升。Pearson相关性分析显示了大部分变量间存在强正相关关系,提示数据中可能存在多重共线性问题,需要进一步处理。

逐步回归结果仅保留了X9变量,虽然模型拟合效果好,但可能忽略了其他变量的复杂影响,模型可能缺乏全面性。岭回归分析有效缓解了多重共线性,模型拟合度较高,但预测值在实际值出现峰值时与之有较大差异。Lasso回归不仅解决了共线性问题,还提供了模型精简和变量影响分析,模型拟合度极高,X2X7X9对因变量影响较大。

运用ARIMA模型预测2023年和2024年的各变量的数值。最后得到2023年、2024年财政总收入预测值为1147.547亿元、1182.424亿元。

5.2. 展望

鉴于Lasso回归的优异表现,未来可以进一步探索其在模型预测中的应用,同时考虑集成学习方法,如随机森林或梯度提升树,以提高预测的准确性和鲁棒性。并且考虑到岭回归在处理共线性方面的优势,可以结合Lasso回归和岭回归,利用弹性网络回归,以寻找预测财政收入的最佳模型。

财政收入受全球经济环境、政策变动等外部因素影响较大,本文在预测模型中未充分考虑这些动态变化的影响。未来可尝试引入情景分析或敏感性分析,评估不同外部条件变化对预测结果的敏感度,增强模型的适应性和实用性。

基于Lasso回归分析,可以针对影响财政收入的关键因素制定更具针对性的经济政策,促进经济的可持续增长。鉴于财政收入的波动性,政府应加强财政风险管理,建立更加灵活的财政政策框架,以应对经济周期的不确定性。

综上,本文为财政收入影响因素分析与预测提供了一定的理论基础,但未来应更全面地整合多元信息源,深化模型技术进行研究,增强对外部冲击的敏感性分析,建立更为精准和全面的财政收入预测体系。

基金项目

本研究受到闽江学院华纳数字孪生系统研发实验室(MJUGJSYS2022004)、虚拟仿真实验课程项目(MJUYLKC2022029)的支持。

参考文献

[1] Topaloğlu, G., Kalaycı, T.A., Pekel, K. and Akay, M.F. (2023) Revenue Forecast Models Using Hybrid Intelligent Methods. International Journal of Mathematics and Computer in Engineering, 2, 117-124.
https://doi.org/10.2478/ijmce-2024-0009
[2] Sheng, Y., Zhang, J., Tan, W., Wu, J., Lin, H., Sun, G., et al. (2021) Application of Grey Model and Neural Network in Financial Revenue Forecast. Computers, Materials & Continua, 26, 4043-4059.
https://doi.org/10.32604/cmc.2021.019900
[3] Duncan, G., Gorr, W. and Szczypula, J. (1993) Bayesian Forecasting for Seemingly Unrelated Time Series: Application to Local Government Revenue Forecasting. Management Science, 39, 275-293.
https://doi.org/10.1287/mnsc.39.3.275
[4] 罗鑫. 成都市财政收入影响因素分析及短期预测[D]: [硕士学位论文]. 桂林: 广西师范大学, 2024.
[5] 荣腾. 基于灰色马尔可夫——BP神经网络组合模型的山东省财政收入预测分析[D]: [硕士学位论文]. 济南: 山东大学, 2024.
[6] 倪杰. 山东省财政收入影响因素及预测分析[D]: [硕士学位论文]. 济南: 山东师范大学, 2022.
[7] 薛李娜. 广东省财政收入预测分析——基于Nonnegative-Lasso与灰色神经网络模型[D]: [硕士学位论文]. 重庆: 重庆大学, 2022.
[8] 袁孟嘉. 基于变量选择与灰色神经网络的深圳市财政收入预测分析[D]: [硕士学位论文]. 济南: 山东大学, 2020.
[9] 李敏. 甘肃省财政收入影响因素与财政收入预测分析[D]: [硕士学位论文]. 济南: 山东大学, 2019.
[10] 徐向辉. 基于ARIMAX模型的全国财政收入的预测与分析[D]: [硕士学位论文]. 大连: 大连理工大学, 2020.
[11] 范敏, 石为人, 等. 组合预测模型在地方财政收入预测中的应用[J]. 重庆大学学报(自然科学版), 2008(5): 536-540.
[12] 徐子卿. 贵州省财政收入影响因素分析及预测[J]. 农村经济与科技, 2019, 30(6): 158-159.
[13] 张雨乾. 基于Lasso-XGBoost的财政收入预测方法研究[J]. 天津经济, 2023(1): 48-52.
[14] 任爽, 崔海波. SARIMA时序分析在税收预测中的应用: 以贵州省为例[J]. 湖北大学学报(自然科学版), 2021, 43(1): 6-10.
[15] 张梦瑶, 崔晋川. 基于时间序列法的国税月度收入预测模型研究[J]. 系统科学与数学, 2008, 28(11): 1383-1390.