1. 引言
近年来,随着互联网的普及,在电子商务网站进行在线购物已成为一种流行的购物方式。在在线购物过程中,用户在决定购买商品之前会在电子商务平台上产生大量的行为数据,如浏览、收藏、加入购物车等。这些数据蕴含着丰富的用户行为模式和购物习惯信息,通过数据挖掘和分析这些数据,能够更好地理解用户的购物倾向,为预测用户的购买行为提供可能[1]。
准确预测用户的购物行为对电子商务平台具有重要意义。通过预测结果,平台可以个性化地向用户推荐商品,提高用户的购物效率和满意度,促成更多交易,增加营业收入。因此,众多国内外大型电子商务企业纷纷运用商品推荐算法,学者们也不断探索新的方法来提高预测的准确度。
传统的机器学习方法,如随机森林、逻辑回归和支持向量机(SVM)等,已经在用户行为预测方面取得了一定的成果。例如,雷名龙[2]采用这些算法对阿里巴巴电子商务平台4个月的购物数据进行分析,对用户未来是否会购买某种商品做出预测,取得了超过5%的准确率。张春生等[3]考察了品牌可信度、价格、付款人数等多种评价指标对于用户购买行为的相关性。此外,深度学习方法也在该领域崭露头角,如Vieira等[4]采用深度置信网络和自编码器等策略进行建模,发现其效果优于传统的决策树和随机森林等算法。
然而,用户行为数据往往具有复杂的序列性和依赖关系,传统的机器学习和深度学习方法在处理这类数据时存在一定局限性[5]。Transformer模型凭借其强大的并行计算能力和对序列数据中长期依赖关系的有效捕捉,在自然语言处理等领域取得了显著成果。长短期记忆网络(LSTM)作为一种特殊类型的循环神经网络(RNN),能够有效解决传统RNN在处理长序列数据时的梯度消失和梯度爆炸问题,适用于处理具有时间序列特性的用户行为数据[6]。
本文创新性地将Transformer与LSTM相结合,提出一种Transformer-LSTM混合神经网络算法用于电子商务用户行为预测。该算法首先利用Transformer对用户行为数据进行编码,提取关键特征,然后通过LSTM对提取的特征序列进行建模,以预测用户的购买行为。这种结合充分发挥了Transformer在特征提取和LSTM在序列建模方面的优势,有望进一步提高用户行为预测的准确度,为电子商务平台提供更精准的商品推荐服务。
2. 数据描述
本文所使用的数据来自阿里巴巴天池大数据竞赛公开数据集,包含20,000名用户某年11月18日至12月18日一个月的完整行为数据。每条购物行为包含4个字段,分别为用户ID、品牌ID、用户对商品的交互行为和行为时间。用户与商品的交互行为分为“浏览”“收藏”“加入购物车”和“购买”。
2.1. 异常值剔除
异常值的存在通常会严重影响建模和预测质量[7],因此需要去除数据中存在的异常值。在获取的数据时间内包含了淘宝“双12”购物节,用户当日总浏览、领取、添加购物车、购买次数分别是以往平均值的1.8、1.4、2.4、4.5倍,属于明显的异常数值,故在后续处理过程中去除了当日所有数据。另外,一个月内没有购买记录的用户,对于预测建模没有参考价值的这类用户,可能没有网购习惯,所以也剔除了这类数据[8]。
2.2. 特征筛选
在建模过程中,由于原始数据无法直接使用,需将其归纳为能充分描述商品、用户信息及用户–商品交互行为的统计特征。本文依据相关性、代表性和可解释性三个原则进行特征选择。所谓相关性,即特征需与用户购买行为强相关,能有效反映用户兴趣和购买可能;代表性意味着特征要能体现商品热度、用户购物习惯及交互模式;可解释性则要求特征具备明确业务含义,便于理解模型预测结果。基于这些原则,本文选定了交互特征、商品特征和用户特征三类共31个特征[9]。
针对特征相关性问题,本文计算了所有特征的皮尔逊相关系数,以此识别高度相关特征对,并设定相关系数绝对值大于0.8为阈值。对于高度相关的特征,依据其解释能力和对目标变量的影响,选择保留更具代表性和解释性的特征。同时,将部分高度相关特征进行合并或转换,如求和、求差、求比等,从而减少特征间冗余信息[10]。
通过以上严谨的特征筛选和处理流程,本文不仅确保了所选特征具有实际业务意义,还有效避免了多重共线性问题,为模型训练提供了高质量的输入数据,特征提取见表1。
Table 1. Statistics for modeling
表1. 用于建模的统计
特征描述 |
特征种类 |
编号 |
用户1日内对该商品的各类交互次数 |
交互特征 |
1~4 |
用户1日内对同类商品的各类交互次数 |
交互特征 |
5~8 |
用户3日内对该商品的各类交互次数 |
交互特征 |
9~12 |
用户3日内对同类商品的各类交互次数 |
交互特征 |
13~16 |
商品总浏览(收藏、加入购物车、购买)量 |
商品特征 |
17~20 |
商品最近3日总浏览(收藏、加入购物车、购买)量 |
商品特征 |
21~24 |
用户总浏览(收藏、加入购物车、购买)量 |
用户特征 |
25~28 |
用户浏览(收藏、加入购物车)购买量比 |
用户特征 |
29~31 |
2.3. 样本划分
为了合理划分数据集,同时保证数据的随机性和代表性,本文在处理大量数据时采取了如下策略:
对于训练集的划分,本文选择了第8、15、22天的数据,这三天每隔一周选取一次,具有较好的时间分散性。从每天的数据中随机抽取20,000个样本,共60,000个样本构成训练集。训练集的每一个样本都是一个用户–商品配对,特征统计涵盖前三天的信息,这样的划分方式既能保证样本的时间顺序,又能较好地代表不同时期的用户行为特征。
此外,第23天的60,000个样本被选为测试集。测试集样本同样遵循时间顺序,且与训练集之间保持一定的间隔,以便真实地反映模型对新数据的预测能力。为保证数据的随机性,在抽取样本时,本文采用了随机抽样的方法,确保从每一天的数据中随机选取样本,避免出现因人为选择导致的偏差。为了应对样本不平衡性的问题,本文采用了过采样和欠采样相结合的方法。对于数量较少的阳性样本(购买行为),适当增加其在训练集和测试集中的比例,以提高模型对阳性样本的识别能力;同时,对数量较多的阴性样本(非购买行为)进行适当的限制,避免其在数据集中占据绝对优势而影响模型的训练效果。在训练过程中,本文还从训练集中随机抽取10%的样本作为验证集,用于实时监测模型的训练效果,防止过拟合,并辅助调整模型参数。
最终,本文详细统计了训练集和测试集中各类样本的分布情况,以确保数据集的合理性和多样性。在训练集的60,000个样本中,阳性样本为100个,而在测试集的60,000个样本中,阳性样本为112个。这种不平衡的分布反映了实际场景下用户行为的特点,即用户会浏览大量的商品,但实际购买的仅占少数。本文在模型训练过程中,通过调整样本权重等方法来适应这种不平衡性,以提高模型对少数阳性样本的预测性能。
3. 分类建模
3.1. Transformer算法
如下图1所示,Transformer编码器内部包含嵌入层和多层编码器结构,每层编码器内部含有多个子层:多头注意力层(Multi-head attention)、前馈神经网络层(Feed-forward neural network)、残差连接归一化层。这种结构使得模型能够对用户行为数据进行高效编码,提取关键特征。多头注意力机制允许模型在不同位置和层次上关注用户行为的不同方面,从而更全面地理解用户行为模式。Transformer示意图见图1。
3.2. LSTM算法
长短期记忆网络(LSTM)是一种特殊类型的循环神经网络(Recurrent neural network, RNN),通过引入了一个记忆神经元解决传统RNN模型在处理长序列数据时遇到的梯度消失和梯度爆炸问题。LSTM网络图见图2。
Figure 1. Schematic diagram of Transformer
图1. Transformer示意图
Figure 2. LSTM network diagram
图2. LSTM网络图
如图,LSTM网络的核心是三个门的机制:遗忘门、输入门和输出门,这些门通过自适应的方式控制信息的流动,从而实现对长期以来信息的捕捉。LSTM模型输入Transformer提取的用户行为特征序列,输出预测的用户行为。相应的计算过程如下:
其计算过程如下:
Step 1:遗忘门:
Step 2:输入门:
Step 3:输出门:
Step 4:长期记忆:
Step 5:短期记忆:
其中,
表示激活函数,
表示输入数据;
表示前一时刻输出;
分别为遗忘门,输入门,细胞状态,输出门的偏置;
分别表示遗忘门,输入门,细胞状态,输出门的权重参数矩阵。价格相关特征序列数据输入后,组成输入组合
输入组合经过遗忘门得到决定保留
哪部分特征的概率值
;
经过输入门得到的表示现在学到的特征中哪些可以保留的概率值
与本次学习到的所有特征
将
与
的乘积即上一时刻保留的特征和
与
经的乘积即这一时刻选择的特征求和得到长期记忆
,
经过输出门得到表示对长期记忆
即学习到的特征进行筛选后找到的解决当前问题的信息概率值
,
与
的结果相乘为短期记忆
即需要的输出。
以下是LSTM的模型参数见表2:
Table 2. Model parameter table of LSTM
表2. LSTM的模型参数表
模型名称 |
层内容 |
层参数 |
LSTM |
LSTM层1 |
神经元数量32 |
Dropout层1 |
dropout率为0.1 |
LSTM层2 |
神经元数量32 |
Dropout层2 |
dropout率为0.1 |
全连接层 |
神经元数量3 |
3.3. Transformer-LSTM算法
将Transformer模型与LSTM模型相结合,能够实现特征提取和序列建模的高效结合。Transformer模型首先对用户行为数据进行编码,提取出高维特征表示,这些特征表示包含了用户行为序列中的长期依赖关系和关键信息。LSTM模型则利用这些高维特征表示,进一步捕捉序列中的时间依赖关系,从而实现对用户购买行为的精准预测。
将Transformer与LSTM算法相结合起来,设定的模型参数见表3:
Table 3. Parameter table of Transformer-LSTM hybrid neural network model
表3. Transformer-LSTM混合神经网络模型参数表
块名称 |
层名称 |
参数 |
输出尺寸 |
Transformer |
输入层 |
/ |
(128, 10, 4) |
嵌入层 |
神经元数64 |
(128, 10, 64) |
多头注意力层 |
注意力头数8 |
(128, 10, 64) |
归一化层1 |
输入形状64 |
(128, 10, 64) |
Dropout层1 |
dropout率0.1 |
(128, 10, 64) |
前馈神经网络 |
神经元数128 |
(128, 10, 128) |
神经元数64 |
(128, 10, 64) |
归一化层2 |
输入形状64 |
(128, 10, 64) |
Dropout层2 |
dropout率0.1 |
(128, 10, 64) |
链接块 |
全局平均池化层 |
池化窗口为10 |
(128, 1, 64) |
LSTM |
LSTM层1 |
神经元数32 |
(128, 1, 32) |
Dropout层3 |
dropout率0.1 |
(128, 1, 32) |
LSTM层2 |
神经元数32 |
(128, 32) |
Dropout层4 |
dropout率0.1 |
(128, 32) |
全连接层(输出层) |
神经元数3 |
(128, 3) |
4. 评价标准
对于商品推荐算法而言,我们比较关注的就是阳性样本的预测是否准确,所以我们采用阳性样本预测(Precision)的准确率(Accuracy)、召回率(Recall)和F1值作为评价指标,定义为:
准确率:
(1)
精确率:
(2)
召回率:
(3)
F1-score:
(4)
其中,P为阳性样本总数,TP为正确预测的阳性样本数量,NP为错误预测的阳性样本数量。
4.1. 结果分析
通过Transformer-LSTM和LSTM的建模,可以判断每个特征变量对模型的贡献程度,从而判断用户购买行为受哪些特征变量影响比较显著,分析结果见图3。
Figure 3. Feature importance map
图3. 特征重要性图
上图展示了Transformer-LSTM和LSTM模型的特征重要性结果,A和B分别对应两种模型。在两个子图中,特征重要性值的分布表明特征17~20 (商品总浏览、收藏、加入购物车、购买量)和21~24 (商品最近三日的总浏览、收藏、加入购物车、购买量)在两个模型中都属于重要特征,这说明商品相关的特征对预测用户行为具有重要意义。此外,在Transformer-LSTM模型中,特征29~31 (用户浏览、收藏、加入购物车购买量比)也显示出较高的重要性,表明用户行为特征在Transformer-LSTM模型中被赋予了更多的权重。相比之下,在LSTM模型中,特征5~8 (用户1日内对同类商品的各类交互次数)和13~16 (用户3日内对同类商品的各类交互次数)的重要性有所下降。这表明,Transformer-LSTM模型在捕捉用户行为特征方面可能具有优势。这些结果表明,Transformer-LSTM模型在处理电子商务用户行为预测时,能够更有效地识别出关键特征,从而提升预测的准确性和效果。
4.2. 结果比较
通过交互检验分别优化两种算法的参数后,采用测试集样本对建模结果进行预测,最终,本文利用Transformer-LSTM与LSTM分别预测,并且进行上述准确率、精确率、召回率、F1-score的检验,结果见表4:
Table 4. Comparison table of LSTM and Transformer-LSTM effects
表4. LSTM与Transformer-LSTM效果对比表
模型 |
准确率 |
精确率 |
召回率 |
F1-score |
LSTM |
0.86 |
0.83 |
0.85 |
0.84 |
Transformer-LSTM |
0.92 |
0.91 |
0.93 |
0.92 |
5. 结语
本文采用Transformer-LSTM分类算法,基于阿里巴巴的真实用户数据进行了特征提取和分类建模,并与LSTM算法进行了对比,得到了较准确的预测结果。通过分析变量的重要程度,对模型中贡献度较高的一个变量进行了鉴别。该研究有助于理解用户浏览信息与其购买行为的相关性,对个性化推荐系统性能的完善有重要的现实意义。