1. 引言
1.1. 研究背景与意义
随着近几年电子商务的快速发展,在国民经济中扮演了重要的角色,其运营过程中,产生的用户行为数据、销售数据等时序数据的商业价值越来越大[1] [2]。长记忆性、动态波动性及弱奇异特性是电商时序数据的基本特性,由于这些特性的存在会导致传统时序建模方法带来了挑战。
在电商时序分析中,ARIMA模型能够处理线性时序关系,但在捕捉非线性特征和长记忆性方面存在困难[3] [4];LSTM模型在非线性建模上具备优势,但是对数据中弱奇异波动的适应性较差,LSTM模型可解释性也较低[5] [6]。由于Volterra积分方程自然的记忆性结构,被广泛应用于描述具有历史依赖的动态系统,特别是弱奇异Volterra积分在处理存在奇异波动的数据时表现出独特的优势[7]。所以,传统的弱奇异Volterra积分使用固定的指数核函数,无法有效适应电商数据随时间变化的动态特性。
综上研究现状,本文研究结合了电商时序数据的复杂属性,并搭建了变指数弱奇异Volterra积分模型。因为模型的时变规律自适应调节核函数特征需依据电商时序数据,所以引入了动态变化的指数项参数,进而对传统模型在长记忆性刻画与弱奇异波动适配这两个方面的不足进行了有效的弥补。在以上的前提下,本文所搭建的模型针对性地应用在电商核心业务场景——销售预测与用户行为分析这两个方面,销量变动规律精确预测和用户行为演化趋势的分析,为电商企业的存量进行动态优化、营销个性化精准实施和制定促销策略等核心场景与决策提供科学技术的支撑。在理论层面,本文的研究不仅拓展了变指数弱奇异Volterra积分方程在电子商务的应用范畴,为复杂时序数据建模提供了数学工具;在实践层面,对电商企业运营决策的效率做出了有效的提升,帮助企业实现精细化运营,既具备重要的理论创新价值,也具备鲜明的实践指导意义。
1.2. 国内外研究现状
近几年变指数Volterra积分方程是研究的热门领域,特别是变指数弱奇异Volterra积分的数值求解一直是众多学者的研究焦点,求解这类方程的精确解具有很大的挑战。幸运的是,梁等人研究了变指数弱奇异Volterra积分方程解的存在性、唯一性和正则性,为构造合适的数值方法求解其数值解奠定了理论基础,此外他们还指出此类问题的解在初始点处具有弱奇异性[8]。马等人提出了Nyström方法,该方法基于乘积积分与分段多项式插值,成功解决了变指数弱奇异Volterra积分的数值求解难题,并通过误差分析的方法证实出了此方法的超收敛性[9]。在数值研究中,构造高效近似解的核心在于降低解的奇异性对数值解读的影响,因此提升解的正则性具有重要意义,已有研究表明,通过适当的光滑变换可以提高解的正则性,从而显著提升近似解的收敛速度和计算精度[8]。但是现有大多数的研究还是集中在数学理论,缺乏在实际应用的验证。
在电子商务时序建模领域,ARIMA模型在电商销售预测场景中应用较为普遍,但对非线性及长记忆性数据的适配性欠佳[10]。京东自主研发的十亿级时序大模型,借助海量电商数据训练实现了预测精度的提升,不过该模型存在复杂度高、训练成本高昂的问题。Taylor & Francis Online的相关研究则将Lotka-Volterra模型应用于移动电商主体的竞争合作模拟,证实了Volterra模型在电商场景的适用价值,但未涉及弱奇异特性相关研究及变指数方向的拓展[11]。
综上,现有研究存在“理论与应用脱节”“模型难以同步适配长记忆性与动态弱奇异特性”的核心问题,本文以此为研究切入点,完成变指数弱奇异Volterra积分模型的构建及电商场景下的应用落地。
1.3. 研究内容与技术路线
本文的研究内容主要包括三部分:(1) 模型的构建,对变指数弱奇异Volterra积分模型进行构建,包含核函数设计以及解的存在唯一性证明;(2) 数值求解方法的优化,基于高斯求积规则和Nyström方法,提出了适配变指数特性的求解算法;(3) 在电商核心场景中的销售预测和用户行为分析应用验证,构建出了销售预测与用户行为分析的模型,并通过实证的数据验证研究的有效性。
技术路线:(1) 梳理Volterra积分与电商时序数据相关理论;(2) 完成变指数弱奇异Volterra积分的构建与求解算法设计;(3) 再次采集电商实际数据构建实验数据集,设计对比实验;(4) 分析实验结果,总结模型的优势以及应用价值。
2. 相关理论基础
2.1. Volterra积分方程基础
Volterra积分方程是一类具有记忆性的积分方程,其一般形式为:
(1)
其中,
为核函数,
为未知函数,
为已知函数。当核函数满足
时,称为弱奇异Volterra积分方程。弱奇异核的存在使得方程在
处具有非光滑性,需通过特殊数值方法求解。
2.2. 变指数函数特性
变指数函数
是满足
的连续函数,定义域为
。对比固定指数α,变指数函数
由于具有数据动态调整的优势,更加适合于描述电子商务数据随着时间的变化的动态波动变化规律。为了实现真正的“自适应”,采用BP神经网络拟合变指数函数
,输入为电商时序数据的历史波动特征和时间戳,为使
自适应匹配数据波动的规律,通过反向传播优化网络参数来进行,实现变指数特性的自适应的动态调整。
2.3. 电子商务时序数据特性
时序数据是电子商务全链路运营过程中的核心数据资产之一,时序数据的类型广泛、内涵丰富,其中销售时序数据和用户行为时序数据这两部分是其主要的核心部分。这两部分的数据规模庞大、维度多元,且具备三大特性:一是长记忆性,指并非短期的关联,是历史数据对现在和未来的系统状态有着持续和显著的影响,例如之前的促销活动或者各种优惠对顾客的消费心理产生的影响会长期的作用当前和未来的购买决策,或是之前的某一类的商品的热销程度也会影响到当前和以后顾客的商品选择偏好,这些长期影响和依赖的关系是电商数据的重要特征;二是动态波动性,数据所受的影响一般不是单一的,会受到多重影响,外部、内部因素的综合影响,会使数据呈现出十分明显的时变波动特性,例如节假日或者是电商平台的促销活动会产生影响,但是除此之外,季节的交替,热销产品趋势的演变、大事件的发生和电商平台政策的变化都会影响到销售量和用户活跃等核心指标的不同程度的波动,并且波动的周期和幅度的变化有明显的不规律性;三弱奇异特性,在关键的时间点,比如大型的促销活动的开启节点、结束节点以及秒杀倒计时等,数据通常会出现大幅度的突变,可能会从一个比较平稳的数据瞬间到达一个很高的峰值过快速跌下来,这种瞬间大幅度的变化数据在对应的时间点呈现出了局部不可导、非光滑的弱奇异性,导致很难用常规的光滑时序模型进行刻画。长记忆性、动态波动性和弱奇异性这三个特性的共同作用影响到电商时序数据的复杂性和建模的难度。变指数弱奇异Volterra积分模型的固有属性和上述的三大特征形成了高度的契合,该模型的记忆性积分结构可以准确的捕捉数据长记忆性的依赖关系,动态变化的指数参数可自适应匹配数据的时变波动规律,弱奇异核函数和关键节点的数据突变特征可以有效的适配。这些特性层面的深度适配,为变指数弱奇异Volterra积分模型在电商场景的实际应用奠定科学的理论与数据基础。
3. 变指数弱奇异Volterra积分的构建
3.1. 模型定义与核函数设计
结合电商时序数据的特性,构建出变指数弱奇异Volterra积分模型如下:
(2)
其中:
为输出变量,主要描述电子商务中的销量、用户活跃度等核心的指标:
为已知驱动函数,主要对应描述电商场景中的基础的需求、营销的投入等外生变量;
为光滑核函数,选取
,主要用于描述之前的数据对当前状态的衰减效应;
为变指数弱奇异核,
为变指数函数,动态适配数据的弱奇异特性与波动规律。
3.2. 解的存在唯一性证明
数值基于压缩映射原理证明模型解的存在唯一性,定义积分算子T:
(3)
需证明T是Banach空间
上的压缩算子。
第一步,证明
。由于
为光滑函数,
连续且
,结合弱奇异积分的可积性理论,积分项在
上连续,又
,故
。
第二步,证明压缩性。取任意
,计算
:
(4)
令
,
,则:
(5)
由于
,积分项收敛,令
(6)
则
。当
时,T为压缩算子。由压缩映射原理,模型在
上存在唯一连续解。
3.3. 求解算法设计
结合Nyström方法与高斯求积规则,设计变指数弱奇异Volterra积分的数值求解算法,步骤如下:
(1) 区间离散化:将
均匀划分为n个子区间,节点
,步长
。
(2) 核函数近似:采用分段多项式插值近似光滑核
,在区间
上,
,其中
为m次插值多项式。
(3) 弱奇异积分求解:对每个
,处理变指数弱奇异积分项通过高斯求积规则。通过平滑变换
,将积分
转化为常规积分,再利用高斯求积公式近似计算。
(4) 迭代求解:利用Nyström方法构建线性方程组,求解
的数值解通过迭代法,迭代终止条件为
,其中
为预设的精度。
(5)算法稳定性分析:参考MISANU相关研究的误差估计的方法,证明出所提算法的误差阶为
,其中m为插值多项式次数,满足电商数据建模的精度要求。
为评估模型的实际落地可行性,对其积分模型的时间复杂度和空间复杂度进行分析。时间复杂度:计算环节包括核函数插值、区间离散化以及弱奇异积分求解与迭代。设核函数插值次数为m,区间离散节点为n,高斯求积点数为k。对于区间离散化,时间复杂度为O(n),对于核函数插值,时间复杂度为O(n2m),对于弱奇异积分求解时,时间复杂度为O(nk)。迭代求解的线性方程组规模为n × n,迭代次数为p,每一次的迭代时间复杂度为O(n2),所以迭代环节的时间复杂度为O(pn2),得到总的时间复杂度为O(n2(m + p)),n、m和p都是可调节的参数。空间复杂度:存储离散节点值、核函数插值参数、积分中间结果与迭代变量,都和离散节点数n成正比,所以空间复杂度为O(n),内存占用是可控的。对于落地可行性的评估,本文结合了电子商务场景中的实际需求,当n = 500时,模型一次的预测时间为0.8 s,对实时的预测是可行的,并且通过并行计算优化核函数插值和积分求解环节,时间复杂度为O(n(m + p)),有明显的降低,具备良好的实际落地前景。
4. 电子商务场景应用设计与实验
4.1. 应用场景选取与数据准备
构建了变指数弱奇异Volterra积分模型,需要验证该模型的有效性与实用性,本文结合了电商企业核心运营的需求,选取了电商销售预测和用户行为活跃度预测这两大高价值核心场景开展实证研究。这两个场景的时序数据特征比较显著,是电商经营的关键,而且能够验证该模型对长记忆性、动态波动性和弱奇异性数据的适配性。对于电商销售预测,是电商运营核心决策的科学数据支撑,可以直接影响到企业的供应链协同效率、库存周转和资金占用等;对于用户行为活跃度,对用户依赖性和周转效率的提升有着重要意义,可以实施精准销售、用户留存和提供个性化服务。为了得到具有完整性、权威性和代表性的实验数据,本文采用京东开放数据平台的多品类真实时序数据集。数据集需能覆盖电商数据的各类比较典型的波动场景,如节假日消费期、大型的促销活动爆发期和日常平稳销售期,采用这些时期时间跨度长达三年的数据,具体时间范围为2022年1月1日到2024年12月31日,完整包含日常平稳销售期、节假日消费期以及“双11”“618”“年货节”等大型促销爆发期的数据,数据总量为15亿,能够充分覆盖电商数据的各类典型波动场景。为明确数据特性,对核心指标进行系统性的分析:食品生鲜品类日均销量为862件,方差为12896,偏度为1.8,峰值为6.2;潮流服饰日均销量1245件,方差为21568,偏度为2.1,峰度为7.5;3C电子产品品类日均销量538件,方差为8972,偏度为1.5,峰度为5.8;用户行为活跃度均值为0.32,方差为0.08,偏度为1.2,峰度为4.3。
对于采用的初始数据需要进行预处理操作,才能保障模型训练和验证的可靠性和准确性,预处理操作的具体步骤主要分为4步:(1) 数据的清洗:该清洗工作采用多规则融合方法,确保数据的真实性和完整性,对孤立缺失值采用相邻时间节点的加权均值进行填补,通过缺失值检测算法识别并剔除连续缺失超过3个时间节点的样本,基于3σ准则与箱线图法双重识别异常值,并结合业务逻辑剔除无实际意义的异常样本。(2) 数据的归一化:对于不同的指标,量化也会有差异,为了消除量级差异性带来的干扰,让模型能够公平地学习各个特征的贡献度,本文将会影响模型收敛速度与预测精度,采用min-max标准化方法将销量、用户活跃度等核心指标统一标准化至[0, 1]区间。(3) 时序的划分:训练集和测试集是将数据集按8:2的比例来划分,并且遵循时序数据时间的先后顺序。这样的划分方式更加贴合实际业务场景中的预测,可以避免未来数据的泄流问题,以确保了模型验证结果的可信度。(4) 特征的构造:根据模型驱动函数的f(t)的定义,结合电商时序数据的长记忆性特征,针对性地构造输入特征。为确保输入的特征可以全面性地反映影响输出变量的关键因素,选取了滞后1~7天的数据,该数据包括节假日标识、促销活动标识、销量/活跃度数据,将这些特征整合之后作为驱动函数的输入。
4.2. 应用模型构建
电商销售预测模型:将构建的变指数弱奇异Volterra积分模型应用于电商销售预测,模型参数设置如下:采用BP神经网络自适应拟合变指数
,网络结构设置为12-20-1,训练迭代次数为250,初始学习为0.001,采用Adam优化器加速收敛,损失函数为销售预测的MAPE损失,以确保
拟合与预测目标协同优化;光滑核参数λ = 0.05,控制历史数据的衰减速度;插值多项式次数m = 3,高斯求积节点数为5,迭代精度ε = 10−5。模型输入为驱动函数f(t),表示滞后销量、促销标识、节假日标识,输出为未来1~7天的销量预测值。
用户行为活跃度预测模型:用户行为活跃度预测模型的参数进行调整,调整为:变指数
采用BP神经网络自适应拟合,网络结构为10-15-1,训练迭代次数为200,学习率为0.001,损失函数为MSE;光滑核参数λ = 0.08,适配用户行为的短期记忆特性;其他参数与销售预测模型一致。输入为滞后1~3天的用户活跃度、浏览时长、点击量等特征,输出为未来1天的用户活跃度预测值。
4.3. 对比实验设计
为验证变指数弱奇异Volterra积分模型的优越性,选取电商场景常用的ARIMA模型、LSTM模型作为对比模型。评价指标选取平均绝对误差(MAE)、均方根误差(RMSE)与平均绝对百分比误差(MAPE),指标值越小,模型预测精度越高:
(7)
(8)
(9)
其中,
为实际值,
为预测值,n为测试样本数。
4.4. 实验结果与分析
三大模型在电商销售预测中的性能对比如表1所示:
由表1结果表明,变指数弱奇异Volterra积分模型的MAE、RMSE、MAPE的预测值都低于ARIMA模型和LSTM模型的预测值,其中变指数弱奇异Volterra积分模型的MAPE预测值比ARIMA模型的低3.69个百分点,比LSTM模型的低1.04个百分点,证明出变指数弱奇异Volterra积分模型在电商销售预测中有更高的优越性。更进一步的数据发现,在“双11”促销峰值时段,变指数弱奇异Volterra积分模型的误差比对比模型有明显的降低,证明出该积分模型对弱奇异性波动有很好的适配性。
Table 1. Prediction of e-commerce sales using ARIMA model, LSTM model, and variable index weakly singular Volterra integral model, along with their MAE, RMSE, and MAPE metrics
表1. ARIMA模型、LSTM模型和变指数弱奇异Volterra积分模型电商销售的MAE、RMSE和MAPE预测
模型 |
MAE |
RMSE |
MAPE (%) |
ARIMA模型 |
12.65 |
15.82 |
8.32 |
LSTM模型 |
9.87 |
12.35 |
5.67 |
变指数弱奇异Volterra积分模型 |
8.37 |
10.02 |
4.63 |
用户行为活跃度预测的性能对比如表2所示:
表2结果表明,变指数弱奇异Volterra积分模型的MAPE预测值比LSTM模型降低了0.97个百分点,比ARIMA模型降低了3.33个百分点,在用户行为活跃度预测中有着最好的表现结果。该最优的表现结果是因为变指数核函数可以动态的适配用户行为的周度波动与短期记忆特性,从而提高了预测的精度。
Table 2. Prediction of activity metrics using ARIMA model, LSTM model, and variable index weakly singular Volterra integral model, along with their MAE, RMSE, and MAPE
表2. ARIMA模型、LSTM模型和变指数弱奇异Volterra积分模型活跃度的MAE、RMSE和MAPE预测
模型 |
MAE |
RMSE |
MAPE (%) |
ARIMA模型 |
0.086 |
0.105 |
7.25 |
LSTM模型 |
0.062 |
0.078 |
4.89 |
变指数弱奇异Volterra积分模型 |
0.051 |
0.064 |
3.92 |
5. 结论与展望
5.1. 研究结论
本文构建了变指数弱奇异Volterra积分模型,该模型适配其长记忆性、动态波动性及弱奇异特性,解决了电子商务时序数据的建模难点。提出了融合Nyström方法与高斯求积规则的数值求解算法,解决建模的求解难题,通过分段多项式插值近似光滑核函数、平滑变换处理弱奇异点,成功地解决了变指数核与弱奇异特性并存带来的数值求解难题。因此,将变指数弱奇异Volterra积分模型针对性地应用于电子商务销售预测与用户行为活跃度预测这两大核心业务场景。采用京东开放数据平台的多品类真实时序数据集,并且和电商场景主流的ARIMA模型、LSTM模型做对照实验验证表明:在电商销售预测中,变指数弱奇异Volterra积分模型的MAPE预测值比ARIMA模型的低3.69个百分点,比LSTM模型的低1.04个百分点,证明出变指数弱奇异Volterra积分模型在电商销售预测中有更高的优越性;在用户行为活跃度预测中,该积分模型的MAPE预测值比LSTM模型降低了0.97个百分点,比ARIMA模型降低了3.33个百分点,在用户行为活跃度预测中有着最好的表现结果。该最优的表现结果是因为变指数核函数可以动态的适配用户行为的周度波动与短期记忆特性,从而提高了预测的精度。变指数弱奇异Volterra积分模型整体性能优于两类对比模型,预测误差降低效果更为明显,充分验证了模型的有效性与实用性。
在整个研究中,本文主要有突破性的三个核心创新点:(1) 模型的构建方面,为了突破了传统弱奇异Volterra积分固定指数核函数的局限性,引入了弱奇异Volterra积分的核函数设计,使其可以根据电商数据的时变波动规律按需调整特性,并且实现了对动态时序数据的适配;(2) 数值的求解方面,为了平衡计算的效率和求解的精度,解决变指数和弱奇异这两方面叠加导致的积分求解难题,本文融合了分段多项式插值、乘积积分思想和高斯求积规则的协同算法,填补了变指数弱奇异Volterra积分高效求解方法的不足点;(3) 理论的应用方面,建立变指数弱奇异Volterra积分模型且应用在电子商务的核心场景,打破Volterra积分方程理论研究与电子商务实际应用脱节的壁垒,为电子商务上的核心场景预测应用提供了数学理论支持。
5.2. 实践启示
本文研究过程和结果可以在电子商务场景中提供以下3个方面的实践指导:
(1) 在仓库库存方面,通过积分模型精确预测销售量结果,降低货物积压或者短缺风险,优化库存配置。
(2) 在营销的实施方面,通过积分模型对用户行为活跃度精选精确预测,对不同的客户群体制定不同的营销方案。
(3) 在促销的决策方面,借助积分模型对奇异波动的适配能力,精准预测促销效果,合理规划营销投入。
5.3. 研究不足与展望
本文研究仍存在不足:变指数函数的选取比较依赖经验参数,没有自适应优化的方法;模型仅应用于单变量时序预测,没有考虑多变量电商数据建模。
未来研究方向:
(1) 引入智能优化算法实现变指数函数参数的自适应调整。
(2) 拓展模型至多变量场景,构建电商多指标协同预测体系。
(3) 探索模型在电商主体竞争合作模拟、供应链协同优化等场景应用。