1. 引言
在数字经济持续渗透的背景下,电商平台的发展重心已从“流量渠道争夺”的初期竞争阶段迈向了“精细化运营”新阶段,精准营销是提升电商经济运转效率的关键路径,它直接关联到用户转化率、客单价以及平台整体营收水平,其主要目的在于从众多用户浏览、购买、收藏等交互行为当中,精准识别出具有高价值的营销对象并加以优化投放,比如在“双11”、“618”这种大促场景下,要从数以亿计的用户群体中找出对某一品类特别敏感的人群,避免陷入“广撒网”式营销所导致的资源浪费。电商经济下的用户数据有非常明显的特殊之处:一方面,用户行为特征的维度规模非常庞大,比如浏览轨迹、支付偏好、设备信息等维度的特征数量最多可达到数千维[1],但绝大多数特征与具体营销场景(如“母婴用品促销”)的相关度较低,呈现出高维稀疏的特点;另一方面,数据中存在着一些非常特殊的非典型行为数据,例如恶意刷单造成的虚假交易记录、用户误点广告后迅速退出的误操作数据、系统日志中的错误数据等等,这些数据都会直接干扰到营销模型的决策判断[2]。目前存在的问题有:传统的统计模型(RFM模型),无法处理高维数据;机器学习模型使用光滑损失函数,容易受到异常值的影响,导致营销资源的分配不平衡;即使是Lasso这样的稀疏方法被用来进行特征筛选,也只能适用于单变量稀疏的情形[3] [4],无法满足电商领域“用户分组与特征关联”的双层结构要求。为此,本文提出了基于非光滑损失的部分稀疏加部分组稀疏的优化方案,通过三个核心机制来解决上述问题:通过“部分稀疏”筛选用户的关键特征,通过“部分组稀疏”优化用户分组架构,通过“非光滑损失”减少异常数据的干扰[5] [6] [8]。这项研究的作用,就是给电商经济场景下的精准营销找寻量化工具,让资源分配变得更有效率,推动电商经济从“规模扩张”走向“质量升级”。
2. 相关研究进展
2.1. 电商精准营销的优化方法
电商精准营销的核心需求是在高维用户数据中挖掘有效信息、降低异常干扰并适配“单特征加组结构”双层决策逻辑,现有研究可按技术路径分为三类,其适配性与局限性需深入剖析。
2.1.1. 传统统计模型
传统的营销模型通过用户消费时间、频次、金额等低维特征实现分组(比如RFM模型) [8],这种方法虽然容易实现:模型架构相对简单、计算复杂度低以及可解释性强,无需复杂的预处理流程,但它的核心短板也十分明显:面对包含用户行为序列、多维度属性、跨场景交互数据等在内的高维特征时,很难有效挖掘特征间的深层关联,导致大量潜在的有效信息被浪费,特征价值难以充分发挥[9]。
2.1.2. 机器学习模型
机器学习的方法(比如支持向量机、随机森林)确实具备处理高维数据的优势,比如能有效融合多维度特征,避免因特征维度过高导致的计算瓶颈,适配复杂场景下的建模需求;但它存在一个明显局限:在损失函数选择上,大多依赖平方损失这类光滑损失函数,这会对误差进行平方级放大,对异常值很敏感;稀疏优化的应用中,Lasso等方法虽然在特征选择上使用了稀疏优化,但是只支持单变量稀疏,不能适应电商“用户分组特征关联”的双层结构,也没有考虑异常值问题。
2.1.3. 稀疏优化模型
稀疏优化作为一种有效的数据处理技术,主要是解决在优化过程中如何有效地选择和使用少量的关键变量或要素,以简化模型、提高计算效率以及增强模型的可解释性的问题,稀疏优化广泛应用于图像处理、信号处理、基因选择、变量选择等领域[10]-[12]。稀疏优化理论是由著名华裔数学家、2006年菲尔兹奖得主陶哲轩(T. Tao),以及美国科学院院士Candes和Donoho提出和完善的[13] [14]。他们提出的压缩感知理论指出,如果原始的高维信号具有稀疏性,则可通过少量的观测信息得以恢复。这一理论的诞生打破了传统的Shannon-Nyquist定律对采样频率的限制,实现了以较低的采样率、较高的采样速度来获得原始信号。不仅在信息工程领域产生了巨大影响,同时也为高维数据处理提供了新思维,进而带动了大量跨学科领域工作的发展。
2.2. 鲁棒性、组稀疏性与非凸惩罚的研究进展
鲁棒性优化的核心是通过损失函数或正则项设计降低异常值干扰(如L1损失、Huber损失),其中L1损失通过线性误差惩罚实现抗异常值,Huber损失通过“低误差段光滑(平方损失)、高误差段鲁棒(L1损失)”平衡收敛性与鲁棒性,在抗异常值领域已展现优势:在金融风控、医疗数据分析中,其较光滑损失的误差降低10%~15%。在稀疏优化领域,Capped-L₁正则、组Capped-L₁正则等非凸稀疏方法,通过“截断惩罚”实现更精准的特征与组筛选,已在信号处理、图像恢复中验证有效性[6]。但在电商场景中,此类方法多聚焦单一维度优化,而电商精准营销决策,既需要基于用户特征实现“千人千面”的触达,也需要结合组群属性制定差异化策略,此类方法因缺乏这种双层适配性,难以直接支撑这类精细化的营销决策落地。
2.3. 研究缺口与本文模型的独特性
现有方法无法同时满足电商精准营销的“高维特征筛选、组结构优化、抗异常值干扰”三重需求,具体缺口可归纳为:
1) 鲁棒性与稀疏性的协同不足:现有鲁棒模型缺乏稀疏机制,无法实现维度压缩;稀疏模型未结合抗异常值设计,异常值比例过高导致偏差率上升,两者无法协同;
2) 组稀疏与非凸惩罚的适配性不足:现有组稀疏模型多采用凸正则项(如L2损失),对强冗余组的筛选精度低;非凸惩罚(如SCAD,MCP)虽精度高,但优化复杂度高,不适配电商高维大样本场景;
3) 场景适配性不足:现有方法多聚焦在电商场景的应用多局限于单维度特征处理,常聚焦单一类特征的稀疏筛选与优化,未能有效衔接用户、商品等不同维度特征间的关联,难以适配电商场景下多特征交互的复杂结构。
本文提出的“非光滑损失 + 部分稀疏(Capped-L₁) + 部分组稀疏(组Capped-L₁)”模型组合,其独特性与必要性体现在:
协同性:非光滑损失(L₁损失)解决异常值干扰,部分稀疏(Capped-L₁)实现单特征精准筛选,部分组稀疏(组Capped-L₁)优化用户组结构,三者形成“高维特征筛选、组结构优化、抗异常值干扰”的协同机制,填补现有方法单维度特征处理的缺口;
精度与效率平衡:Capped-L₁及其组扩展为非凸惩罚,既保证强稀疏性,又避免SCAD/MCP的局部最优问题,结合光滑化交替近端梯度算法,加快高维大样本的收敛速度;
3. 非光滑损失的稀疏优化模型构建
3.1. 模型核心要素与电商场景映射
决策变量:
:用户单特征权重(如“某品类加购次数”对营销响应的影响),通过部分稀疏约束(Capped-L₁正则)实现“关键特征保留、冗余特征抑制”,Capped-L₁正则的截断特性可避免过度稀疏导致的信息丢失;
:用户组权重,
为第j个用户的组权重(
),通过部分组稀疏约束(组Capped-L₁正则)实现“有效群组聚焦、无效群组弱化”,组结构设计参考电商用户分组的行业实践。
非光滑损失函数:采用L₁损失刻画预测误差,形式为:
,其中
为用户
真实营销响应(如“是否购买促销商品”),
为模型预测值,
为单特征矩阵,
为组特征矩阵。L₁损失的线性惩罚特性,可避免异常值(如极大的刷单记录)对参数估计的过度影响,其针对异常值的抵抗能力相关理论,已在稀疏优化领域通过理论推导与实验验证,证实了该能力的有效性[4]。
优化目标:
,其中
,
,他们分别是Capped-L₁正则项和组Capped-L₁正则项,并且
,
正则化参数,是模型中的关键调节项,主要用来平衡模型的拟合精度与特征稀疏性[15],
为截断阈值。
3.2. 求解算法设计
3.2.1. 算法核心思路
模型目标函数中存在非光滑损失、非凸项(正则项截断),传统梯度下降法无法直接求解,电商数据存在“高维(
)、样本量大”的特点,需要求解精度和求解效率并重,所以本文设计光滑交替近端梯度算法(SAPG),先对损失函数进行光滑化处理以降低优化难度,再交替优化稀疏项和组稀疏项:先固定
,对
进行优化,得到
;再固定
,对
进行优化,得到
,进而将原本的多变量目标函数转化为单变量优化问题,简化求解过程,利用“梯度下降更新 + 近端算子处理稀疏正则”求解,使电商平台在高纬度样本下快速收敛。
3.2.2. 非光滑损失函数的光滑化函数
鉴于原问题中损失函数
的非光滑性给求解带来的巨大挑战,本文运用了光滑化技术对其进行处理[6] [7]。具体而言,引入了
作为
的光滑化函数,且
满足以下条件:
1)
;
2)
的凸性:对于任意固定的
,
对任意
都是凸的;
3) 梯度的一致性:
;
4) 关于
的Lipschitz连续性:存在一个常数
,使得
;
5) 存在一个常数
,使得对任意的
,
是Lipschitz连续的,且Lipschitz常数为
,即
。
且
也是Lipschitz连续的,且Lipschitz常数为
。
则进而得到新的光滑化目标函数:
。
3.2.3. 近端算子
1) Capped-L₁正则项的近端算子定义为:
,
且由文献[8]可知其闭式解为:
其中
是步长,
,
2) 组Capped-L₁正则项的近端算子的闭式解为:
其中
是步长,
。
4. 实验方案与结果分析
本文实验均使用MATLAB R2023b在联想PC (Intel(R) Core(TM) i5-9500,3.00GHz,8.00GB of RAM)上运行,其中
,kkx是稀疏变量中非零元素的个数,kky是组稀疏变量中非零组的个数,其中组稀疏变量y被分成了J组。
4.1. 无异常值场景
我们将本文提出的SAPG算法与几个比较先进的算法(SPGL1, GCD, IRLS-th)进行对比,每个实验运行100次,并且我们将依据运行时间(Time)、相对误差(Rel-err)、成功率(Suc-rat)来衡量实验效果好坏,当运行的结果满足相对误差
时视为成功。
Table 1. Comparison of four algorithms when there are no outliers
表1. 无异常值时四种算法的对比
算法 |
Time |
Rel-err |
Suc-rat |
q = 400, n = 600, m = 800, J = 200, kkx = 20, kky = 14 |
SAPG |
0.182 |
1.80e-4 |
100% |
SPGL1 |
0.027 |
1.14e-3 |
67% |
GCD |
1.760 |
4.18e-2 |
0% |
IRLS-th |
0.261 |
1.91e-2 |
32% |
q = 800, n = 1200, m = 1600, J = 400, kkx = 40, kky = 28 |
SAPG |
2.502 |
2.04e-4 |
100% |
SPGL1 |
0.269 |
7.76e-4 |
85% |
GCD |
6.916 |
2.62e-2 |
1% |
IRLS-th |
1.229 |
1.71e-2 |
11% |
q = 1000, n = 1500, m = 2000, J = 500, kkx = 50, kky = 35 |
SAPG |
4.778 |
2.91e-4 |
100% |
SPGL1 |
0.471 |
9.14e-4 |
96% |
GCD |
11.654 |
2.38e-2 |
0% |
IRLS-th |
2.201 |
1.81e-2 |
7% |
q = 2000, n = 3000, m = 4000, J = 1000, kkx = 100, kky = 70 |
SAPG |
34.820 |
6.94e-4 |
100% |
SPGL1 |
1.989 |
5.15e-4 |
99% |
GCD |
43.331 |
1.53e-2 |
0% |
IRLS-th |
11.361 |
1.79e-2 |
0% |
从表1可以看出,SAPG算法在时间上快于GCD算法,但慢于SPGL1,在相对误差始终为
,且成功率也始终为100%,由此可以看出本文提出的算法是有一定的竞争性的。下面给出q = 800,n = 1200,m = 1600,J = 400,kkx = 40,kky = 28情况下的SAPG算法的可视化图像图1,其中
为“真实最优解”(或理想目标值),
为算法迭代产生的解;图1.无异常值的可视化图像表明在无异常值的“干净数据”环境下:红色散点“+”高度聚集在真实值“O”附近,离散程度极低。这说明算法在优化过程中能精准逼近真实最优解,有效保障了建模结果的可靠性;而其中的部分稀疏正则项,可在特征处理中高效筛选出关键单特征,既简化模型结构,又能保留核心信息(剔除冗余、无贡献的特征,减少无效计算);在处理带组结构的高维特征时,“部分组稀疏正则”并非对所有特征组无差别稀疏,而是能精准识别并保留有效特征组,从组级别守住核心信息,切实避免组级核心信息因稀疏处理而丢失。两者协同使模型聚焦核心信息,确保求解精度。
Figure 1. Visualized images with no outliers values
图1. 无异常值的可视化图像
4.2. 有异常值场景
该部分在注入异常值后将提出的SAPG算法与几个比较先进的算法(SPGL1, GCD, IRLS-th)进行对比,每个实验运行100次,并且我们将依据运行时间(Time)、相对误差(Rel-err)、来衡量实验效果好坏。
Table 2. Comparison of four algorithms when there are outliers
表2. 有异常值时四种算法的对比
算法 |
Time |
Rel-err |
q = 400, n = 600, m = 800, J = 200, kkx = 20, kky = 14 |
SAPG |
0.225 |
1.37e-3 |
SPGL1 |
0.090 |
1.51e+01 |
GCD |
4.395 |
3.21e+01 |
IRLS-th |
0.994 |
2.01e+01 |
q = 800, n = 1200, m = 1600, J = 400, kkx = 40, kky = 28 |
SAPG |
2.653 |
9.13e-4 |
SPGL1 |
1.007 |
1.03e+01 |
GCD |
13.695 |
2.38e+01 |
IRLS-th |
4.557 |
1.45e+01 |
q = 1000, n = 1500, m = 2000, J = 500, kkx = 50, kky = 35 |
SAPG |
4.936 |
7.11e-4 |
SPGL1 |
1.595 |
9.34e+00 |
GCD |
22.381 |
2.08e+01 |
IRLS-th |
7.582 |
1.31e+01 |
q = 2000,n = 3000,m = 4000, J = 1000,kkx = 100,kky = 70 |
SAPG |
35.631 |
7.28e-4 |
SPGL1 |
7.896 |
6.75e+00 |
GCD |
70.529 |
1.41e+01 |
IRLS-th |
41.394 |
9.14e+00 |
Figure 2. Visualized images with outlier values
图2. 有异常值的可视化图像
从表2可以看出,SAPG算法在相对误差方面大部分都能达到
,而其他算法在注入异常值的情况下误差都会被放大,说明本文提出的算法在抗异常值方面具有很大的优势。下面给出q = 1000,n = 1500,m = 2000,J = 500,kkx = 50,kky = 35且注入异常值(如电商恶意刷单记录、物流错误轨迹等干扰信息)情况下的可视化图像图2,其表明该算法抗异常值干扰能力强,散点整体还是能够较好的聚集在真实值“O”附近,只是因为存在少量的异常值导致散点有些许偏离,整体趋势并未发生较大扭曲,这是由于算法选择的非光滑损失函数,对于异常值的“惩罚是线性的”,与光滑损失(如平方损失)不同,后者会因异常值带来的“极端误差”对模型参数进行“过度调整”;而它能通过对误差的非均匀惩罚,主动“压低”异常值的影响,有效避免模型的解被异常值干扰,保障参数学习的稳定性。
5. 结论与展望
本文提出的非光滑损失部分稀疏加部分组稀疏优化,成功破解了电商精准营销的高维稀疏数据、异常值干扰、组结构冗余等难题,让营销更准确、节省成本,为电商经济精细运营提供技术支持,可以往这几个方面发展,一、数据场景扩展到跨平台的社交、短视频等;二、强化实时数据处理能力,通过及时捕捉用户在互动中的行为动态(如直播中的点击、停留、咨询等),快速调整营销内容与策略(如推荐商品优先级、实时优惠力度),更好适配电商直播这类高频互动场景;三、研究如何搭配“绿色电商”模式,借助精准营销精准匹配用户需求,减少因需求错配导致的过量备货、无效物流及包装冗余,进而助力电商经济实现更具可持续性的环保持久发展。
基金项目
国家自然科学基金项目(12261020)、贵州省科技计划项目(黔科合基础-ZK[2021]009)和贵州省高层次留学人才创新创业择优资助重点项目([2018]03)。
NOTES
*通讯作者。