1. 背景
近年来,随着互联网技术和移动终端的快速发展,电子商务已成为全球零售业和服务业的重要组成部分。电商平台通过整合商品展示、支付结算、物流配送等功能,为消费者提供了便捷、高效的购物体验。与此同时,消费者在电商平台上的行为数据不断积累,为企业挖掘用户潜在需求、制定精准营销策略提供了丰富的数据资源。
在这一背景下,在线购买者的购买意向(Online Purchase Intention)成为电商领域的重要研究主题。购买意向是指消费者在特定情境下倾向于进行实际购买行为的心理状态,它不仅反映了用户的兴趣与需求,还直接影响转化率和销售额。影响购买意向的因素多样,既包括价格、促销、节日等外部环境变量,也涵盖网站可用性、产品信息质量、支付安全性等平台因素,还涉及消费者的个人特征与历史行为模式。
对于电商企业而言,准确预测在线购买者的购买意向具有重要意义。一方面,预测结果可用于提前识别潜在客户,从而优化营销资源配置,提升广告投放的精准度;另一方面,可以辅助平台在产品推荐、库存管理、个性化优惠等环节进行策略优化,提高用户体验并促进客户忠诚度。在大规模电商平台中,用户行为数据往往具有高维度、非线性、噪声干扰及类别不平衡等特点,这对预测模型的鲁棒性与泛化能力提出了更高要求。因此,研究和构建高精度、强鲁棒性的购买意向预测模型,已成为电商数据挖掘与智能营销领域的核心任务之一。
支持向量机(Support Vector Machines, SVM)是由Vapnik [1]等人(1995年)基于统计学习理论中的VC理论和结构风险最小化理论提出的一种机器学习方法。支持向量机一经提出就被广泛应用于各个领域,如文本识别、人脸识别[2]-[4]。实际上,求解支持向量机就是求解一个带有约束问题的二次规划问题(Quadratic Programming Problem, QPP)。SVM的训练算法一般采用的是将原来的大规模的二次规划问题分解成若干个小规模的二次规划问题,然后根据某种迭代方法对这些小规模的二次规划问题反复求解,最后根据得到的小规模二次规划问题的解来构造大规模二次规划问题的近似解[5]。然而这样的训练算法时间成本往往很高,因此,为了提高SVM的训练速度,研究者们提出了许多的改进算法。其中比较经典的改进算法有块算法(Chunking Algorithm) [6]、分解算法(Decomposition Algorithm) [7]和序列最小优化算法(Sequential Minimal Optimization, SMO) [8]等。
随着SVM理论的不断完备和应用层面的扩展,其也逐渐暴露出一些局限性,例如对特征噪声和离群点敏感等问题。特征噪声通常在决策边界附近产生[9],因此特征噪声会对SVM中的支持向量的数量造成影响,从而影响决策超平面,导致相应的SVM分类器对噪声敏感,并且对于重采样不稳定。相比之下,弹球损失函数与分位数距离相关,对决策超平面附近的噪音不太敏感。Huang等人将弹球损失函数应用于SVM,提出了基于弹球损失函数的支持向量机(Pin-SVM) [10]。同时研究了Pin-SVM的性质,包括噪声不敏感性,稳健性和误分类误差最小化。与经典的SVM相比,Pin-SVM具有相同的计算复杂度,并且具有噪声不敏感性和重采样稳定性。多位学者也提出了各种方法来解决SVM对特征噪声不稳健的问题。铰链损失的另一个缺点是对离群点(标签噪声)敏感,所以基于铰链损失的SVM获得的决策超平面容易被离群点影响。为了改进SVM的性能,Wu和Liu构造了截断铰链损失函数,称为斜坡损失函数,同时证明了基于斜坡损失函数的SVM对离群点的稳健性[11]。在斜坡损失函数的基础上,Tang 等人提出了一种新的鲁棒性损失函数,并将其应用到SVM中进行多分类任务[12]。2007年,源于GEPSVM的思想,Jayadeva [13]等人提出了孪生支持向量机(Twin Support Vector Machines, TWSVM)。TWSVM将两个广义特征问题转化为两个较小的类似支持向量机的凸规划问题。相对于SVM,SVM将所有样本点都放在凸规划问题的约束条件中,而TWSVM将与目标函数有关的样本点的另一类样本点放在约束条件中。这样一来,TWSVM的训练速度显著提高,其训练时间仅为SVM的1/4。
随着互联网技术的深度普及与数字经济的蓬勃发展,电子商务已从一种新兴的商业模式演进为驱动国民经济高质量发展的重要引擎。对电商经济的研究不再局限于其交易效率的提升,更深入到其对宏观经济增长、微观商业模式创新以及市场结构变革的深刻影响。在此背景下,本研究旨在深入探讨电商经济的新特征、新动能及其演化机理。
从宏观层面看,电子商务通过降低交易成本、拓宽市场边界、促进消费升级,显著促进了经济增长、就业与产业融合。其作为一种深度融合互联网技术与金融服务的创新模式,为理解电商经济的价值创造奠定了理论基础[14]。
然而,电商经济的内涵远不止于宏观贡献。其生命力在于持续的模式创新与业态演化。近年来,以直播电商、社交电商为代表的新业态迅猛发展,彻底重塑了人、货、场的关系。新业态的成功并非偶然,其背后是网红与消费者之间新型信任关系与互动机制的建立,这极大地改变了传统的消费决策路径,构成了电商经济发展的新动能[15]。
这些不断涌现的新模式、新业态,本质上都依托于平台型企业的组织与创新。电商平台已从简单的交易中介演变为整合物流、支付、数据、社交的复杂生态圈。平台企业的商业模式创新,特别是其“属性–功能”认知的持续演化,是推动整个电商经济生态系统不断升级和扩张的核心驱动力[16]。
在此背景下,本研究将在前人工作的基础上,受Pin-TSVM和有界框架的启发,本文提出了一种新的基于弹球损失的有界弹球孪生支持向量机(BP-TSVM)模型应用于购买者购买意向的预测模型,提高预测精度。主要思想是将有界框架与Pin-TSVM结合,将无界损失函数变成有界,减少噪声对决策超平面的影响,使BP-TSVM在处理噪声数据时具有稳健性。BP-TSVM使用松弛变量的L1范数,可以使用拉格朗日乘子法求解对偶问题,然后通过clip-DCD算法求解模型。改进的基于弹球损失的有界弹球孪生支持向量机(BP-TSVM)模型对异常值具有鲁棒性。
2. 相关理论
假设
,
为训练样本,其中
定义样本矩阵
并称其为样本矩阵。
当
时,将
称为正类样本,反之,称为负类样本。
将正类样本与负类样本所构成的样本矩阵分别记为
和
,其中
并且
和
分别代表正类样本数和负类样本数,且有
2.1. 基于铰链损失的支持向量机
传统的SVM算法是基于铰链损失函数提出的,铰链损失函数定义如下:
(1)
通过引入调节参数
和松弛变量
,SVM可表示为如下形式
(2)
其中
是松弛向量,C是非负惩罚参数,
和
分别是元素全为1和0的n维列向量。
根据拉格朗日乘子法及KKT条件,可得(2)的对偶问题为:
(3)
其中
是拉格朗日乘子向量。若求得(3)的最优解
,即可确定超平面
。
给定一个新的样本点
,其判别函数为:
(4)
在非线性情况下,定义映射
:
并引入核函数:
(5)
通过核函数可将原本线性不可分的数据映射到高维空间,使数据线性可分,从而解决非线性分类问题。
2.2. 基于弹球损失的支持向量机
为了进一步提高支持向量机的性能,Huang et al.使用分位数距离来度量裕度,并提出相应的分类器,通过弹球损失来最大化分位数距离,弹球损失函数定义如下:
其中
是调节参数。引入弹球损失,Pin-SVM表达式如下:
(6)
其中
是松弛向量,
是非负的惩罚参数。同理SVM,(6)式对偶问题为
(7)
Pin-SVM的主要优点是对噪声不敏感,特别是对决策边界附近的特征噪声不敏感。
3. 基于有界弹球损失函数的支持向量机(BP-TSVM)
3.1. 基于有界弹球损失函数的支持向量机(BP-TSVM)
传统的分类方法在遇到噪声数据时效果变差。有界损失函数的应用是提高稳健性的有效手段。然而,大多数有界损失函数都以斜坡形式存在,由于硬截断,失去了原始函数的一些固有性质。此外,关于如何设计有界损失函数,目前还没有统一的框架。针对上述两个问题,Fu等人提出了一个可以平滑自适应地约束任何非负函数的通用框架。它不仅可以退化为原来的函数,而且可以继承其良好的性质,包括对称性、可微性和光滑性。有界损失函数的框架如下:
(8)
受有界损失函数框架启发,本文在有界损失函数的一般框架下构造了一种新的鲁棒损失函数,称为有界弹球损失(Bounded Pinball Loss, BP Loss)。
有界弹球损失函数如下:
(9)
其中
,
,
是调节参数,且
控制损失函数的不对称性。显然,
是有界的,这使得它对离群值不敏感。
3.2. 基于BP的TSVM
Pin-TSVM已被证明是一种有效的分类算法。然而,我们注意到它的弹球损失函数是无界的。为了进一步提高泛化性能,我们基于有界弹球损失函数提供了一个稳定的BP-TSVM,它也是通过求解一对二次规划问题得到了一对非平行平面。
在线性情况下,BP-TSVM在
中找到两个超平面:
(10)
在本文中,分别称
和
为正类参数边缘超平面和负类参数边缘超平面。特别地,如果给定训练集
,
和
分别决定正类和负类参数边缘超平面。通过合并两个参数边缘超平面,平面,BP-TSVM试图将数据分离成:
(11)
(12)
相当于
(13)
通过引入有界弹球损失,可以得到如下一对新的优化问题:
(14)
和
(15)
其中
,
是惩罚参数。方便起见,将损失函数中的
固定为1并吸收到
中,即
,令
,
,
则优化目标可简化为:
(16)
和
(17)
其中
。可将目标函数改写为:
(18)
其中
,
是松弛向量,是非负调节参数,
是惩罚参数。拉格朗日函数为:
(19)
利用拉格朗日函数对
和
求偏导并令其为0,有:
(20)
由(20)可知
(21)
将(21)代入拉格朗日函数,并记
,可得到目标函数的对偶问题:
(22)
其中
。将目标函数改写为:
(23)
其中
,
是松弛向量,
是非负调节参数,
是惩罚参数。同时的对偶问题如下:
(24)
变量
可通过下式计算
(25)
通过求解二次规划问题,可以得到
,
,从而得到
,
。最后,我们可以得到BP-TSVM的决策函数为:
(26)
3.3. 非线性
利用核技巧将线性BP-TSVM扩展到非线性情况。将训练集通过非线性映射
,将映射到希尔伯特空间中,在此选择合适的核函数
。结合CCCP和核技巧,非线性情况下,则非线性BP-TSVM的优化目标函数为:
(27)
(28)
和
(29)
其中
是惩罚参数,
是松弛向量,
是非负调节参数。类似地,我们可以推导出(27)~(28)的对偶问题:
(30)
和
(31)
与线性情况类似,在优化两个二次规划问题(30)~(31)之后,非线性BP-TSVM的决策函数可构造为(26)。
4. 在线购物者购买意向预测分析研究
4.1. 数据来源
本研究所使用的在线购物者购买意向(Online Shoppers Purchasing Intention)数据集来源于UCI Machine Learning Repository,该数据集包含12,330条会话记录,每条记录代表来自不同用户的一次独立访问,数据采集周期为一年,以减少季节性促销或特定节日的偏倚影响。数据集中共有17个特征变量与1个目标变量,涵盖用户在电商平台上的访问行为、站内交互特征及部分外部环境信息。目标变量为二分类标签Revenue,取值True表示该会话产生购买,False表示未产生购买,约1.5成的样本为购买类别,其余为未购买类别,呈现显著的类别不平衡特征,数据集信息见表1。
Table 1. Variables in the online shoppers’ purchase intention dataset
表1. 在线购物者购买意向数据集变量说明
变量名称 |
变量说明 |
数值型特征(10个) |
|
Administrative |
访问管理类页面的次数(如账户信息、登录等) |
Administrative_Duration |
管理类页面的总停留时间(秒) |
Informational |
访问信息类页面的次数(如网站政策、联系方式等)信息类页面的总停留时间(秒) |
Informational_Duration |
访问产品相关页面的次数 |
ProductRelated |
|
ProductRelated_Duration |
产品页面的总停留时间(秒) |
BounceRates |
跳出率(仅访问该页面的会话比例) |
ExitRates |
退出率(以该页面结束的会话比例) |
PageValues |
页面平均价值(页面对购买的贡献度) |
SpecialDay |
特殊日期接近度(0~1,越接近节日值越高) |
类别型特征(7个) |
|
Month |
访问发生的月份 |
OperatingSystems |
用户使用的操作系统类型 |
Browser |
用户使用的浏览器类型 |
Region |
用户所在地区 |
TrafficType |
访问来源类型(如直接访问、广告、推荐等) |
VisitorType |
访客类型(新访客或回访访客) |
Weekend |
是否为周末访问 |
目标变量 |
|
Revenue |
会话是否产生购买(True/False) |
4.2. 在线购物者购买意向预测模型建立
本节中进行实证研究,将提出的BP-TSVM应用于在线购物者购买意向预测模型,实验都在R 4.3.1中进行,基于系统配置Intel(R) Core(TM) i7-10700 CPU (2.90GHz)和16 GB RAM的PC上运行,使用优化工具包CVXR求解模型。关于模型参数的设置,对于TSVM、TPMSVM,设置
,设置Pin-TSVM和BP-TSVM中
的取值范围为
。
非线性情况,考虑高斯核函数,评价指标为准确率(Acc.)。对于所有模型参数的选择,本文使用五折交叉验证法来搜索模型的最优参数。为了消除实验随机性的影响,进行10次数值实验,计算评价指标的平均值(Acc.)和标准差(sd)。考虑实际数据为非线性可分,所以建立高斯核函数下非线性可分模型,模型结果如表2所示。提出的模型提高了预测准确率,将其应用于在线购物者购买意向预测模型可以带来更好的效果。
Table 2. Prediction outcomes of the Dataset
表2. 数据集结果预测
|
BP-TSVM |
Pin-TSVM |
TPMSVM |
TSVM |
Acc. |
0.9149 |
0.8741 |
0.7922 |
0.8823 |
Sd. |
0.0136 |
0.0144 |
0.0545 |
0.0523 |
5. 结论
本文针对电商平台的在线购买者行为数据,构建并验证了购买意向预测模型。在充分分析UCI在线购物者购买意向数据集的基础上,本文提出了基于有界分位损失的孪生支持向量机(BP-TSVM)模型,并将其与经典孪生支持向量机(TSVM)、Pin-TSVM以及最小二乘TPMSVM进行了对比实验。实验结果表明,BP-TSVM在预测精度和鲁棒性方面均优于其他对比模型,尤其在处理含噪声的电商用户行为数据时表现更加稳定。此外,在针对如电商平台的在线购买者行为数据这种类别不平衡的数据,预测效果也较好。
本研究的结论表明,在电商背景下,利用用户访问行为、页面停留时长、跳出率、页面价值及节日接近度等多维特征,可以有效预测用户的购买意向。BP-TSVM模型不仅能够提升购买意向预测的准确性,还为电商平台在精准营销、个性化推荐、用户分层和转化率优化等方面提供了有力的技术支持。此外,本研究的方法和实验结果为未来在高维、噪声复杂的电商行为数据中进行分类建模提供了可行的参考与实践基础。
未来工作可从以下几个方向展开:(1) 结合特征选择方法提升模型可解释性;(2) 探索BP-TSVM在其他不平衡或多分类金融数据集中的扩展性;(3) 将该模型嵌入电商购买者购买意愿预测中,进行更大规模实证研究。