基于大数据技术的重庆市璧山区城市燃气客户销量预测模型构建
Construction of a Customer Sales Forecasting Model for Urban Gas in Bishan District, Chongqing, Based on Big Data Technologies
摘要: 外部市场和环境因素对不同类型天然气用户的消费影响的客观量化,构成了燃气企业制定有针对性的营销策略和推动高质量发展流程的核心基础。本研究旨在深化对燃气行业客户消费特征的系统理解,基于其消费行为特征对用户群体进行分类,并对不同用户类型的消费模式及其对内外部影响因素的反应机制进行深入分析。通过引入机器学习算法并利用实际运营数据,建立了针对细分客户群的月度消费预测模型,明确了行业类型、宏观经济波动与天然气消费水平之间的定量关系。本研究为燃气企业实施以客户为中心的差异化营销策略和动态资源配置提供了科学依据,以提升市场反应能力和运营决策的效率。
Abstract: The objective quantification of the impact of external market and environmental factors on the consumption behaviors of various natural gas user segments constitutes a fundamental basis for gas enterprises to develop targeted marketing strategies and promote high-quality development processes. This study aims to deepen the systematic understanding of customer consumption characteristics within the gas industry, classifying user groups based on their behavioral traits, and conducting an in-depth analysis of consumption patterns and their reactive mechanisms to internal and external influencing factors across different user types. By integrating machine learning algorithms with operational data, a monthly consumption forecasting model tailored to segmented customer groups was established, elucidating the quantitative relationships among industry type, macroeconomic fluctuations, and natural gas consumption levels. The findings provide a scientific foundation for gas companies to implement customer-centric, differentiated marketing strategies and dynamic resource allocation, thereby enhancing market responsiveness and operational decision-making efficiency.
文章引用:陈曦, 周小兆, 钟杰, 郭子涵, 夏震杰, 卢志伟, 鄢巍源. 基于大数据技术的重庆市璧山区城市燃气客户销量预测模型构建[J]. 可持续发展, 2025, 15(11): 18-27. https://doi.org/10.12677/sd.2025.1511305

1. 引言

精准预测天然气需求,是构建高效、合理且经济可行的天然气供应系统的基础。这样一种兼具成本效益、响应实际用气模式并具备未来扩展能力的系统,正是运营企业和政府机构共同追求的关键目标。对政策制定者而言,可靠的需求预测是制定宏观能源规划和产业政策不可或缺的依据,它不仅支撑行业的有序发展,更直接关系到国家能源安全和民用天然气稳定供应。此外,天然气需求分析也为研判区域能源消费强度乃至经济活跃程度提供了重要参考。对运营企业来说,精确的需求预测能够指导基础设施投资规划、优化供应方案、保障运行安全、提升经济效益,是科学决策和经济评估的根本依据。正因其多层面的重要意义,具有不同应用场景和目标导向的天然气需求预测持续受到全球学术界的广泛关注与研究。

2. 城市燃气用户销量预测研究现状

天然气需求预测作为能源系统工程中的关键问题,长期以来受到学术界与工业界的广泛关注。现有研究主要从影响因素识别与预测方法构建两个维度展开,形成了较为丰富的理论成果与实践经验。在影响因素研究方面,Apergis等[1]基于异质面板协整检验与误差修正模型,发现独联体国家天然气消费与经济增长在短期呈单向因果关系,长期则存在双向因果关联;Kum等[2]通过自举格兰杰因果检验在G7国家中验证了这一结论,但也指出因果方向可能因国家而异。Kani等[3]利用平滑过渡回归模型分析伊朗天然气需求,表明国内生产总值的影响显著大于价格与温度等因素。付佳鑫等[4]借助对数平均迪氏指数法(LMDI)分解了北京市天然气消费的主要影响因素及其贡献度;叶倩等[5]则通过通径分析进一步解析了自变量对因变量的直接与间接作用路径。综上,有效的天然气需求分析需结合具体目标,既要识别关键影响因素,也需借助适用方法揭示多因素协同作用下的内在机制。

在预测方法层面,天然气需求预测与电力负荷预测类似,均依托历史数据规律与外部变量建立预测模型,并按时间尺度划分为长、中、短期。Zhu等人[6]为代表,提出了一种将支持向量回归与伪邻域滤波相结合的短期需求预测方法,该方法将支持向量回归于时间序列法的重构特性相结合,Tonkovic等人[7]通过多层感知器和径向基函数网络对克罗地亚某地区的天然气短期需求进行了预测。后续发展出终端用途模型[8]与逻辑建模–遗传算法耦合方法[9]等,灰色模型[10]、时间序列及经济学模型也广泛应用。多数研究集中于宏观总量的预测,缺乏对终端用户用气行为模式的深入细分与建模。中期预测(月/季度尺度)常用回归模型(如考虑度日因子与价格变量的工业与居民需求预测[11])、时间序列方法(如季节性ARIMA模型[12])、以及基于用气定额与市场参数的细分预测[13]、灰色神经网络[14]等方法也被用于捕捉季节性波动。尽管有研究提及用户分类,但多停留在行业类型的简单划分,未能有效融合用气曲线聚类与行为标签构建,导致预测模型对用户群体差异的刻画能力有限。短期预测(日/小时尺度)近年来在机器学习推动下迅速发展,从早期的指数平滑模型[15]与人工神经网络[16],到支持向量回归与时间序列重构的混合方法,进一步演进为多算法组合预测[17],通过耦合不同模型的优势显著提升预测精度。现有研究多直接沿用经典经济变量,缺乏针对具体城市或区域的特征变量筛选体系。灰色关联分析等方法虽被引入,但在多因素耦合、高维数据环境下的变量降维与解释能力仍有待加强。

3. 城市燃气用户分类

由于不同类型用户的用气习惯不同,用气曲线也存在较大的差异,因此在进行用户标签构建时首先需要将用户分为城市燃气用户、电厂用户、工业用户、化工用户、CNG、LNG用户,然后再利用时间簇聚类方法K-shape方法对用户用气量曲线进行聚类,通过聚类结果,对用户进行标签构建如图1所示。

基于用气模式、需求波动性及保供优先级差异,本研究将天然气用户划分为城市燃气、电厂、工业、化工和CNG/LNG等类别,为构建需求预测模型提供依据。通过分析各类用户的用气特征,可更准确预测需求,支撑天然气资源的优化配置。

Figure 1. User classification tags

1. 用户分类标签

城市燃气用户普遍呈现显著的季节性用气特征,表现为冬高夏低的负荷波动,部分用户还存在非周期性剧烈波动。其预测模型需重点关注气候因素导致的用量变化,并强化调峰保供能力。电厂用户用气量随季节变化明显,冬夏两季常出现陡增或陡降,预测模型需具备较强的动态响应能力,以保障连续稳定供应。工业、化工及CNG/LNG用户多具备可中断、可压减的用气特性,在气源紧张时具有一定调节能力。该类用户的需求预测需引入合同灵活性与市场供需信号机制。此外,分类结果还体现了不同用户群体对于供应保障的不同依赖程度。例如,城市燃气用户和电厂用户对稳定供应的需求远高于其他用户群体,这对于维持社会正常运行和满足居民生活需求至关重要。因此,需求预测模型在考虑这些用户时,需要特别关注保障供应的重要性。

总之,通过对不同用户群体用气特性的系统分析与分类,能够深入把握天然气市场需求的多样性与复杂性,为构建高精度需求预测模型提供关键依据。随着数据分析技术的持续进步,未来可进一步优化需求预测的准确性与实效性,为天然气行业可持续发展提供有力支撑。

4. 城市燃气用户销量预测

4.1. 燃气用户影响因素挖掘

已有研究普遍指出,天然气消费量受多元复杂因素的共同影响,在其多重约束下,消费量的演化规律呈现显著差异。因此,系统辨识各驱动因子与消费量之间的关联特征,筛选出关键影响因素并将其耦合到预测模型中,有助于显著提升预测精度。相反,若引入关联性较弱的变量,则可能干扰模型性能,导致预测效果下降。为此,有必要构建科学的因子分析体系,通过量化评估各类因素与天然气消费需求之间的关联程度,为模型输入变量的合理选择提供依据。

随着经济社会持续发展,天然气作为一种重要的清洁能源,其消费规模预计将继续扩大。天然气的消费水平与区域经济发展密切相关,常被视为衡量地区经济活跃度的重要指标之一。天然气需求预测本身是一个涉及多因素耦合、具有高度不确定性的复杂系统问题。现有研究表明,经济发展、人口规模与结构、政策导向等是驱动天然气消费变化的关键要素。基于既有研究成果,本文结合地域特征,分别从经济与人口两个维度选取代表性指标。经济类指标包括地区生产总值(GDP)、居民可支配收入和消费水平;人口类指标涵盖常住人口数量与城镇化率等。最终共遴选11项可量化因素作为预测变量,具体如表1所示:

Table 1. Statistical table of influencing factors

1. 影响因素统计表

因素类别

因素名称

单位

经济类

国民生产总值GDP

亿元

全市居民人均可支配收入

万元

城镇居民人均可支配收入

万元

农村居民人均可支配收入

万元

全市居民消费水平

万元

城镇居民消费水平

万元

农村居民消费水平

万元

人口类

常住人口

万人

城镇人口

万人

农村人口

万人

城镇化率

%

为消除不同维度数据在数值范围上的差异,本文首先对各类指标数据进行归一化处理。在此基础上,采用灰色关联分析法(Grey Relational Analysis, GRA)量化各影响因素与天然气消费量之间的关联程度,并依据关联度大小进行排序,从而为后续变量筛选与预测建模提供依据,以提高模型精度。GRA将影响因素与历史消费量之间的动态关系视为一个灰色系统,通过分析各因素序列与参考序列(消费量序列)之间随时间变化的曲线几何形状相似度,判断其变化趋势是否一致。关联度越高,表明该因素与天然气消费量的变化态势越接近,即其影响作用越显著。具体计算步骤如下所示:

(1) 建立原始数据矩阵:

将历史天然气消费量数据设为参考序列,其余影响因素数据作为比较序列,构建原始数据矩阵 x i ,在该矩阵中,行方向表示不同时间点上的数据记录(自上而下按时间顺序排列),列方向分别对应参考序列与各比较序列(即各类影响因素的数据),从而形成规范的时间序列数据表结构:

x i =( x i ( 1 ), x i ( 2 ),, x i ( n ) ) (1)

式中, x i ( n ) ——n个因素对应的时间序列。

(2) 形成变换矩阵:

对原始数据做归一化变换,消除数据由于量纲、数值范围不同带来的影响,形成变换矩阵 x i

x i =( x i ( 1 ) x i ( 1 ) , x i ( 2 ) x i ( 2 ) ,, x i ( n ) x i ( n ) )=( x i ( 1 ), x i ( 2 ),, x i ( n ) ) (2)

(3) 形成求差序列:

对归一化后的因素数据与消费数据求差,形成求差序列 Δ oi

Δ oi ( k )=| x 0 ( k ) x i ( k ) |=( Δ oi ( 1 ), Δ oi ( 2 ),, Δ oi ( k ) ) (3)

(4) 计算关联系数 ζ oi

ζ oi ( k )= min i min k Δ oi ( k )+0.5 max i max k Δ oi ( k ) Δ oi ( k )+0.5 max i max k Δ oi ( k ) (4)

(5) 计算灰色关联度 γ oi

γ oi = 1 n1 i=1 r ζ oi ( k ) (5)

天然气需求是一个受多因素耦合影响、具有高度时变特性的复杂系统行为。本研究以璧山区为例,在全面分析其各类潜在影响因素的基础上,通过系统筛选与关联性分析,最终确定将经济类因素和人口类因素作为预测模型中的核心解释变量。在系统梳理常用预测模型(如长短时记忆网络(LSTM)、灰色模型、回归分析、支持向量机(SVM)和BP神经网络等)的基础上,本研究选用ARIMA-LSTM混合模型进行天然气销量预测模型的构建,以兼顾线性与非线性特征的捕捉能力,提升预测精度与稳健性。

4.2. 燃气用户销量预测模型构建

ARIMA (Autoregressive Integrated Moving Average Model)是一种经典的线性时间序列预测方法,广泛用于平稳序列的建模与预测,具有数据需求较少、计算效率较高的优点。LSTM (Long Short-Term Memory)网络作为一种特殊的循环神经网络(RNN),能够有效捕捉时间序列中的长期依赖关系和复杂非线性特征,克服了传统RNN存在的梯度消失问题,适用于具有高波动性和非平稳特性的序列建模。鉴于ARIMA和LSTM分别在处理线性与非线性模式中具有互补优势,本文构建了一种ARIMA-LSTM组合预测模型,以提升对综合系统中多类型能源负荷与风光资源预测的准确性与稳健性。

ARIMA模型是一种常用的时间序列预测模型,该模型结合了AR和MA模型。在模型建立之前首先要确定时间序列数据的平稳性。采用ADF进行单位根检验,如果通过检验则可以进行建模,如果数据不是平稳的,那么需要做差分处理直至数据平稳,此时需要用到ARIMA模型。ARIMA模型的表达式为:

( 1 i=1 p ϕ i L i ) ( 1L ) d X t =( 1+ i=1 q ϕ i L i ) ε t (6)

式中,d为差分次数;p为自回归中最大的滞后阶数;q为移动平均中最大的之后阶数;L为滞后算子。采用ARIMA模型预测用气量的步骤为:1) 用气时间序列获取;2) 平稳性检验:检验原始用气量的平稳性,对非平稳的时序数据采用差分法进行平稳化计算,直至数据平稳;3) 白噪声检验:检验数据是否为白噪声,如果为非白噪声则可以进行建模,如果为白噪声,则模型失效;4) 模型参数确定:式中d为步骤1的差分次数,通过观察自相关函数和偏自相关函数图像确定pq;5) 建立模型:确定数据和参数后输入模型并模型求解;6) 模型验证。具体的模型流程如图2所示。

Figure 2. The procedural framework of the ARIMA

2. ARIMA模型流程

LSTM是一种改进的循环神经网络(Recurrent Netural Network, RNN),通过不同功能的门结构实现时间序列信息的自适应记忆与遗忘,缓解了RNN 梯度爆炸和梯度消失的问题,在时间序列预测问题上表现优异。一个基础LSTM的神经元由遗忘门、输入门、输出门构成(图3)。

Figure 3. Schematic diagram of the fundamental architecture of an LSTM neural unit

3. LSTM神经元基本结构示意图

4.3. 燃气用户销量预测结果讨论

根据以上四个指标分别计算,计算各单一模型的训练集误差、测试集误差、平均误差的计算结果见表2所示。表中模型1、2、3、分别表示长短时记忆模型(LSTM)、支持向量回归模型(SVR)、多元回归模型(MR)。

Table 2. Results of error metrics for training and testing datasets across individual models

2. 各单一模型训练集、测试集误差计算结果

误差

模型

MAPE

MAE

MSE

RMSE

训练集误差

1

0.08

5.27

52.08

7.22

2

0.12

6.07

60.72

7.79

3

0.06

3.69

23.83

4.88

测试集误差

1

0.05

9.29

125.14

11.19

2

0.35

65.36

4984.40

70.60

3

0.03

6.00

57.25

7.57

平均误差

1

0.07

7.28

88.61

9.20

2

0.24

35.71

2522.56

39.20

3

0.04

4.85

40.54

6.22

各指标能分别从绝对和相对角度对模型效果进行了计算,不同模型在同一训练、测试集上的表现不同,同一模型在不同的数据集上表现也具有差异,因此通过平均误差的计算来判断模型在地区层面数据上的表现。

对重庆璧山天然气公司商业/集体用户、工业用户和燃气用户管理站的总用气需求量进行统计,以2021年、2022年两年数据作为输入,采用LSTM-ARIMA混合预测模型进行预测,预测结果如下图4所示,预测误差小于5%。

对商业/集体用户、工业用户及居民用户2023年不同时间维度下用气量进行预测,全年用气总量约为1.454亿方。对2024年全年总用气量进行预测,约为1.515亿方,具体参数见表3

Table 3. Table of predictive outcomes across multiple dimensions

3. 不同维度预测结果表

用户类型

1个月

3个月

6个月

10个月

工业用户总量

3415394.12

17036078.08

34874903.57

64650496.42

商业/集体用户总量

886438.26

4580279.92

8895861.06

16035630.83

居民用户总量

乡镇管理站

605367.20

3491153.08

5781728.55

7898594.00

新区管理站

2100458.24

6832104.40

12290617.63

15927680.50

璧山管理站

1881582.07

6503467.72

11673596.08

16581671.10

居民用户全体总量

4587407.51

16826725.20

29745942.26

40407945.61

Figure 4. Results of the ensemble forecasting model

4. 混合预测模型结果

5. 结论

本研究以重庆市璧山区为例,聚焦于城市燃气客户的销量预测问题,通过系统性的用户分类、影响因素挖掘与预测模型构建,得出以下主要结论:

(1) 科学有效的用户分类是提升预测精度的前提。本研究基于用气模式、需求波动性与保供优先级的差异,将燃气用户划分为城市燃气、电厂、工业、化工及CNG/LNG等类别,并进一步采用K-means聚类算法识别细分用户的用气曲线特征。分类结果表明,不同类别用户(如民用、工业与电厂)对气源供应稳定性、价格信号及气候因素的响应机理存在显著差异,此为构建差异化预测模型与营销策略奠定了坚实基础。

(2) 天然气消费量受到经济与人口等多维度因素的耦合影响。通过灰色关联分析法(GRA)对11项潜在影响因素进行量化筛选,发现地区生产总值(GDP)、居民可支配收入、消费水平等经济类指标与天然气消费量的关联度最高,城镇化率、人口规模等人口类因素次之。该分析结果为预测模型提供了关键输入变量集,有效避免了无关变量干扰,提升了模型解释能力与稳健性。

(3) ARIMA-LSTM混合预测模型显著优于传统单一模型。ARIMA模型善于捕捉时间序列中的线性趋势,LSTM网络则擅长刻画非线性与长期依赖关系。将两者耦合构建的组合模型,在测试集上预测误差小于5%,其性能明显优于单一LSTM、SVR及多元回归模型,证明了该混合模型在处理复杂燃气消费序列时的有效性与优越性。

预测结果具备良好的实际应用价值。基于2021~2022年实际运营数据,模型成功预测了璧山区2023年全年用气总量约为1.454亿立方米,2024年预计达1.515亿立方米。进一步提供了不同用户类型(工业、商业、居民)在不同时间尺度(1、3、6、10个月)下的细化预测结果,可为燃气企业在资源调度、管网规划、调峰保供等方面提供定量化决策支持。本研究通过“用户分类–因素分析–混合建模–多步预测”的一体化研究框架,构建了一套科学、准确且实用的城市燃气客户销量预测模型体系。该成果不仅有助于燃气企业深化对客户用气行为特征的理解,推动以客户为中心的精准营销与资源动态配置,也为我国城市燃气行业的可持续运营与高质量发展提供了有力的理论支撑与实践参考。

基金项目

重庆科技大学研究生创新计划项目“基于大数据技术的重庆市璧山区城市燃气客户销量预测模型构建”(编号:YKJCX2420158)。

参考文献

[1] Apergis, N. and Payne, J.E. (2009) Energy Consumption and Economic Growth: Evidence from the Commonwealth of Independent States. Energy Economics, 31, 641-647. [Google Scholar] [CrossRef
[2] Kum, H., Ocal, O. and Aslan, A. (2012) The Relationship among Natural Gas Energy Consumption, Capital and Economic Growth: Bootstrap-Corrected Causality Tests from G-7 Countries. Renewable and Sustainable Energy Reviews, 16, 2361-2365. [Google Scholar] [CrossRef
[3] Kani, A.H., Abbasspour, M. and Abedi, Z. (2014) Estimation of Demand Function for Natural Gas in Iran: Evidences Based on Smooth Transition Regression Models. Economic Modelling, 36, 341-347. [Google Scholar] [CrossRef
[4] 付佳鑫, 刘颖琦, 李孥. 北京市天然气消费影响因素分析研究[J]. 中国能源, 2020, 42(10): 42-47.
[5] 叶倩, 陈晓慧, 谢扬. 基于通径分析的重庆市天然气消费量影响因素分析及预测[J]. 机械, 2010, 37(9): 1-4.
[6] Zhu, L., Li, M.S., Wu, Q.H. and Jiang, L. (2015) Short-Term Natural Gas Demand Prediction Based on Support Vector Regression with False Neighbours Filtered. Energy, 80, 428-436. [Google Scholar] [CrossRef
[7] Tonković, Z., Zekić-Sušac, M. and Somolanji, M.J.T.V. (2009) Predicting Natural Gas Consumption by Neural Networks. Tehnički Vjesnik, 16, 51-61.
[8] Bartels, R., Fiebig, D.G. and Nahm, D. (1996) Regional End‐Use Gas Demand in Australia. Economic Record, 72, 319-331. [Google Scholar] [CrossRef
[9] Forouzanfar, M., Doustmohammadi, A., Menhaj, M.B. and Hasanzadeh, S. (2010) Modeling and Estimation of the Natural Gas Consumption for Residential and Commercial Sectors in Iran. Applied Energy, 87, 268-274. [Google Scholar] [CrossRef
[10] 余凤, 徐晓钟. 基于优化小波BP神经网络的燃气短期负荷预测[J]. 计算机仿真, 2015, 32(1): 372-376.
[11] Herbert, J.H., Sitzer, S. and Eades-Pryor, Y. (1987) A Statistical Evaluation of Aggregate Monthly Industrial Demand for Natural Gas in the U.S.A. Energy, 12, 1233-1238. [Google Scholar] [CrossRef
[12] Akkurt, M., Demirel, O.F., Zaim, S.J.E.J.O.E., et al. (2010) Forecasting Turkey’s Natural Gas Consumption by Using Time Series Methods. European Journal of Economic and Political Studies, 3, 1-21.
[13] 杨闻宇. 济南东部地区燃气日负荷及中期负荷预测研究[D]: [硕士学位论文]. 哈尔滨: 哈尔滨工业大学, 2016.
[14] 谭羽非. 城市燃气季节性负荷预测模型的建立及求解[J]. 煤气与热力, 2003(3): 131-133, 151.
[15] 焦文玲, 展长虹, 廉乐明, 等. 城市燃气短期负荷预测的研究[J]. 煤气与热力, 2001(6): 483-486.
[16] 佟敏, 陈忠源, 党乐, 等. 基于特征筛选BP神经网络的天然气需求量预测[J]. 天然气技术与经济, 2022, 16(3): 59-65.
[17] 周洲, 焦文玲, 任乐梅, 等. 蚁群算法分配权重的燃气日负荷组合预测模型[J]. 哈尔滨工业大学学报, 2021, 53(6): 177-183.