1. 引言
随着移动终端的不断发展,人们越来越多地使用网络带来的便捷服务,用户画像的分析与挖掘尤其重要[1]。在电子商务领域,如阿里巴巴的淘宝天猫,偏女性化的唯品会,偏互联网金融的蚂蚁花呗等都通过对不同行业客户画像的研究与分析与社交网络的客户画像建立逻辑对应[2]。深入研究客户的消费习惯使用痕迹等信息,挖掘客户群体特征,提供精准的定制服务、细化服务、提高客户满意度,从而给企业带来更高的商业价值,影响并改变人们的生活方式与生活习惯。网络化竞争愈演愈烈,传统大型百货商场的客流量不断下降,会员不断流失[3] [4]。普惠型折扣促销手段的吸引力明显不足,并且随着消费升级,为消费者提供一对一的定制商品和服务,精准营销是提高消费者满意度并提高商场利润的突破口[5]。
精准营销的前提就是对客户的精准识别和定位,而会员画像正是解决这一问题的关键。会员画像即会员信息标签化,商场通过收集与分析消费者的社会属性、生活习惯、消费行为等信息数据,提取关键消费特征变量,建立识别模型,计算每一位客户的购买力和购买喜好。会员画像为企业提供简便而充足的信息基础帮助企业快速挖掘精准定位用户群体和用户需求等极具商业价值的信息。百货商场需要有针对性地实施营销策略来加强与会员的良好关系,完善会员画像描绘是急需解决的问题,实现对会员的精细化管理,精准推送商品和服务,与会员建立稳定的关系是实体零售行业得以更好发展的有效途径[6]。
本文从统计分析和建模的角度出发,探索会员画像建立的各个阶段与过程,从中归纳与总结较为通用的客户画像模型。
2. 研究方法与思路
2.1. 研究方法
2.1.1. 文献回顾法
为了研究需要,本文阅读了大量相关的营销学、消费者心理学、消费者行为学、心理测量学、零售学、高级统计学等书籍和资料,积累了大量前人研究成果。这些成果不仅为本研究提供研究动机,还为模型架构与验证等提供了坚实的理论基础,在研究方法上也具有重要的启发作用。
2.1.2. 访谈法
本文在研究过程中,与百货商场管理层进行洽谈,与商场员工进行沟通,在调查时与会员进行沟通,分别都采用了访谈法。特别是与商场主管会员业务的管理层进行商谈时。需要了解会员政策的现状、趋势、问题等,从更高的角度来了解目前大型百货商场会员制的实施现状。
2.1.3. 统计分析法
在统计分析时,本文运用MATLAB和Python软件进行统计分析。其中:本文运用描述性统计分析样本的性别、消费金额、消费次数等;运用检验统计量分析样本的拟合情况;通过线性相关系数来进行线性相关性检验等。
2.2. 研究思路
本文梳理了相关文献,基于对原始数据的处理,本文从性别角度分析了商场会员的消费特征,论证了女性顾客消费总额占总销售额绝大部分的事实。同时,从平均购买单件商品花费金额的角度界定了会员与非会员群体的差异,得出会员购买奢侈品的概率远大于非会员的结论。本文针对会员的消费数据,构建了会员购买力评价模型,成功对每一个会员购买力水平进行了量化并打分。以Gompertz生长曲线函数为基础,建立了会员生命周期模型,成功估计出会员从入会到最后一次消费完成的生命周期,并对整个周期内会员消费情况进行了分析。本文以线性回归模型为基础,在大数据分析的基础上,构建了会员激活率分析模型,成功找出了促销活动与顾客激活会员行为之间的关系以及两种行为之间的滞后时间。
3. 大型百货商场会员画像描绘的模型建立及求解
3.1. 数据预处理及符号说明
3.1.1. 数据预处理
本文基于某大型百货商场实际销售数据,附件1是商场的会员信息数据,附件2是商场近几年的销售流水表,附件3是会员消费明细表。会员卡号,是会员的唯一标志。有的卡号在附件1中找不到对应会员,是由于该会员是其他分店的会员到本店消费,所以会员信息不在附件1中。因此,我们只针对附件1中的会员进行管理。首先通过把附件3和附件1中会员卡号做比较,相同的卡号才是该商场的会员,以此剔除不在该商场登记的会员。再根据单据号、商品编码、商品售价、销售数量、消费金额、消费产生的时间、收银机号这几个指标和附件2比较,便可区分出附件2中会员消费与非会员消费。
在进行统计描述前,有必要对数据做预处理如下:
(1) 附件1中年龄大于等于85岁的会员但有消费记录者为年龄信息输入错误;
(2) 附件1中年龄大于85岁的会员且无消费记录为无效信息;
(3) 会员入会截止日期为2018年9月13日,若在之后仍有会员入会记录,则视为无效信息;会员入会记录早于会员出生日期的数据视为无效信息。
3.1.2. 符号说明
表1中的符号说明列举了用于模型构建和数据分析的各种变量及其含义,了解这些符号有助于更好地理解模型结构和数据分析过程。
Table 1. Description of symbols
表1. 符号说明
符号 |
说明 |
|
表示第i个会员的购买力 |
|
表示第i个会员第j次购买商品的总额 |
|
表示第i个会员购买商品的次数 |
|
会员的累计分布函数 |
续表
|
会员的周期函数 |
|
会员的生命周期中的非活跃会员的激活率 |
|
某个区间内会员的折扣 |
|
某个区间内激活的会员卡号数量 |
|
第i天的连带率 |
|
第i天的销售总数量 |
|
第i天销售小票数量 |
|
第i人标准化之后的购买力 |
3.2. 会员与非会员群体差异分析
本节首先通过对所搜集到的相关数据进行汇总分析,分离出了该大型百货商场会员与其他分店会员,分析出了该大型百货商场的会员的部分消费特征,得出了会员群体与非会员群体的差异,从而对会员群体能够给商场带来的价值进行分析。
首先通过处理附件2及附件3中的数据,分离出会员群体与非会员群体,利用Python语言编程可针对性别等标志进行汇总,进而分析会员消费特征。
之后分离出会员与非会员的信息之后,通过附件3中的会员消费信息,计算出会员与非会员消费总额对比,绘制出会员与非会员的人均消费金额图,进而对会员与非会员的差异进行对比。
最后在对附件1中的会员性别、消费金额及消费次数的数据处理基础上,通过Excel对数据进行简单处理,绘制该商场会员的性别消费结构图。
编程计算可得,男女消费总额分别为53205302.9元和296966195.09元,男女人均消费分别为14260.41元和13430.69元,图示如下:
Figure 1. Consumption structure of men and women
图1. 男性女性消费结构图
由图1可知,男性消费总额占比仅为15%,人均消费达却到了14260.41元;女性消费占比总消费金额85%,但人均消费金额为13430.69元,低于男性人均消费。于是可知该商场会员的消费特征之一为主要消费来源为女性会员,男性会员平均消费水平略高于女性。
对附件2进行汇总可以得出该商场一段时间内的总销售金额M及销售商品件数N,对附件3进行汇总可以得出该商场一段时间内会员总消费金额M1,及购买商品件数N1。则非会员消费总额为:
同理有,非会员购买商品总量为:
计算通过软件编程实现,计算结果如下:
分别计算会员与非会员单件商品消费金额如下:
作图如下图2:
Figure 2. Comparison of single item purchase amounts between members and non-members
图2. 会员与非会员的单件商品消费金额对比图
通过数据分析得到,会员群体带给商场的价值大于非会员群体带给商场的价值,女会员群体给商场带来的价值大于男会员群体给商场带来的价值。会员群体给商场带来的价值与会员的年龄性别、会龄有关。
3.3. 会员购买力的数学模型
本节是针对会员消费情况,建立商品平均购买价格的购买力数学模型,并对购买力进行对数标准化处理,之后用数学模型刻画出每一位会员的购买力[7]。根据购买力的不同,对不同会员进行购买力划分。
购买力是说在一定的时期内用于购买商品的货币总额,因为各个会员购买商品的时间段和购买商品的次数都有所不同,我们用会员第一次购买商品到该会员最后一次购买商品总次数的平均购买额度来评价会员的购买能力。建立购买力模型如下:
:表示第i个会员的购买力;
:表示第i个会员第j次购买商品的总额;
:表示第i个会员购买商品的次数。
通过计算得到的购买能力如下表2所示:
Table 2. Purchasing power table
表2. 购买能力表
kh |
ALLSALL |
Count |
Mean |
110,640 |
4625 |
10 |
462.5 |
126,951 |
1260 |
1 |
1260 |
206,962 |
5150 |
10 |
515 |
…… |
…… |
…… |
…… |
fffc9664 |
306 |
1 |
306 |
对
进行标准化处理,得到第i个人标准化后的购买力数据,标准化公式如下:
对进行标准化之后的相关数据进行了数据汇总,见下表3和图3:
Table 3. Summary of purchasing power scores
表3. 购买力得分汇总表
分数 |
人数 |
频率 |
0~10 |
36 |
0.14% |
10~20 |
28 |
0.11% |
20~30 |
119 |
0.46% |
30~40 |
630 |
2.42% |
40~50 |
9077 |
34.90% |
50~60 |
13,386 |
51.47% |
续表
60~70 |
2434 |
9.36% |
70~80 |
274 |
1.05% |
80~90 |
21 |
0.08% |
90~100 |
1 |
0.00% |
合计 |
26,006 |
100.00% |
Figure 3. Statistical chart of purchasing power score
图3. 购买力得分统计图
由此,我们对所有会员的购买力水平进行了综合评价。通过比较不同年龄的购买能力,说明该模型拟合吻合程度较高,能够模拟刻画任意会员购买力的数学模型。在实际应用中还要考虑性别对购买能力的影响。
3.4. 基于Gompertz生长曲线的会员消费生命周期预测模型
会员的生命周期,即为顾客从注册成为会员开始到不再产生消费的时间。结合实际,每一个顾客在此百货商场的消费总额是有限的,即随着时间的推移,消费总额会达到饱和,而本模型的目的就在于找到平均每一个会员在该商场的消费上限以及达到消费上限所用的时间,即生命周期。
本文所得的数据是注册时间不同的会员在同一时期的消费情况,这些数据反映的可能是会员的不同时期的消费水平,我们通过利用附件3得到的会员消费情况就可以反映出会员在周期内各个时段的消费情况,经过对数据预处理之后对前五十万的原始数据进行了处理,计算出各个会员的注册时间直至相应会员的最后一次消费时间的间隔时间,即为某个时间窗口,把所得到的间隔时间与一段时间内的消费情况相结合,得到的一段时间的消费情况就可以反映出会员周期内各个时段的消费情况;将间隔时间进行数据处理分为若干合理区间,通过Python语言编程进行汇总,并对若干个区间进行累加求和,得到分时间段累计数据,利用Gompertz模型进行数据拟合,最后结合Gompertz生长曲线函数的特征,对会员的生命周期及其状态进行分析。
通过对附件3中的数据进行预处理,我们随机筛选出了50万条有效数据,其中包含会员人数26,006人。令第i个会员的入会时间为
,最后一次消费时间为
,即每一个会员由入会到存在数据的最后一次消费时长为:
令
则T表示入会到最后一次消费的最长时间,以此作为数据分析所考察的时间段。通过数据处理,可知入会到最后一次消费的最长时间为5551天,我们将其均匀的分为25个时间段,则每个时间段为228天,以228天为单位,则有:T = 25。
考察25个时间段会员累计消费情况,如下表4:
Table 4. Summary of cumulative consumption by time period
表4. 分时间段累计消费情况汇总表
时间段 |
消费总额(元) |
向上累计(元) |
人均消费总额(元) |
向上累计(元) |
1 |
239914.80 |
239914.80 |
9.23 |
9.23 |
2 |
806787.55 |
1046702.35 |
31.02 |
40.25 |
3 |
820141.38 |
1866843.73 |
31.54 |
71.78 |
4 |
2275486.51 |
4142330.24 |
87.50 |
159.28 |
5 |
3363207.08 |
7505537.32 |
129.32 |
288.60 |
6 |
2110804.33 |
9616341.65 |
81.16 |
369.76 |
7 |
1846901.10 |
11463242.75 |
71.02 |
440.78 |
8 |
1539115.85 |
13002358.60 |
59.18 |
499.96 |
9 |
2902265.58 |
15904624.18 |
111.60 |
611.55 |
10 |
4106692.57 |
20011316.75 |
157.91 |
769.46 |
11 |
14979933.62 |
34991250.37 |
576.00 |
1345.46 |
12 |
6077129.64 |
41068380.01 |
233.67 |
1579.13 |
13 |
13398399.66 |
54466779.67 |
515.18 |
2094.31 |
14 |
12762386.04 |
67229165.71 |
490.73 |
2585.04 |
15 |
16947315.08 |
84176480.79 |
651.64 |
3236.69 |
16 |
17216703.60 |
101393184.39 |
662.00 |
3898.69 |
17 |
14081945.66 |
115475130.05 |
541.47 |
4440.16 |
18 |
22070240.21 |
137545370.26 |
848.63 |
5288.78 |
19 |
19046810.52 |
156592180.78 |
732.37 |
6021.16 |
20 |
23720270.91 |
180312451.69 |
912.07 |
6933.23 |
21 |
52286949.36 |
232599401.03 |
2010.50 |
8943.72 |
22 |
42826797.13 |
275426198.12 |
1646.74 |
10590.46 |
23 |
44990275.41 |
320416473.55 |
1729.93 |
12320.39 |
24 |
22857351.37 |
343273824.97 |
878.89 |
13199.29 |
25 |
8806956.94 |
352080781.95 |
338.64 |
13537.92 |
用人均消费总额的向上累计数据做图如下图4:
Figure 4. Cumulative consumption per capita
图4. 人均累计消费图
对图像进行观察可以发现,人均累计消费总额的增长在初期较为明显,后期增长速度则有明显的下降,即存在会员消费生命周期,其发展规律符合Gompertz生长曲线所描述S型增长规律。
令
表示第t个时间段累计人均消费总额,则建立Gompertz生长曲线模型如下:
表示累计人均消费总额的增长速度,增长速度的拐点出现在
二阶导等于0的时刻,即:
模型拟合过程如下:
去除第一个时刻的数据,即取T = 24,用三段法进行参数估计,算式如下:
用Matlab进行计算,得到结果如下:
即得到Gompertz函数表达式:
则人均消费极限为:
对其求导,可得增长速度函数如下:
计算可得,检验统计量R2 = 0.9936,拟合情况良好。
对所求得函数求二阶导,令其等于零,得到:
。
换算成实际时间,即在入会之后的第3.1年,会员平均消费总额的增长速度开始下降。由图像可知,在入会之后的第80个时间段,约50年之后,会员年均消费水平将不足400元,可以忽略不计。
3.5. 基于线性回归模型下的会员激活率分析模型
我们认为顾客在注册会员之后产生了至少一次消费的行为称为会员激活。文章本节将通过数据分析,找出商场促销活动与顾客激活会员行为之间的联系。我们如果要建立起关于计算会员生命周期中的非活跃会员的相关激活率的数学模型,可以处理原始数据得到会员是否有第一次消费记录信息的数据,若在记录时间中会员无消费记录,记为生命周期中的非活跃会员,在记录时间中会员消费一笔及以上,就记为该会员是活跃会员。对于非活跃会员商家可采用促销的方式来刺激消费,吸引消费者来进行消费,在刺激消费成功后,收集数据即可建立激活率和商场促销活动之间的关系模型。
结合实际情况,可以假设促销对于顾客激活会员行为一定存在正向的促进作用,并且伴随着一定的滞后性,如果滞后的时间长度为t,则可以假设两者之间的函数关系为:
下面,我们将通过数据分析,找出上述函数关系。
在上一小节中,我们将会员生命周期的考察范围分为了25个时间段,同样的,我们通过数据汇总,可以找出每个时间段内的激活卡号数量,令第i个区间内激活的会员卡号数量为
,定义激活率为激活卡号数量占所以卡号数量的比重,令其为
,则:
通过计算得到的折扣与激活情况结果如表5所示。
Table 5. Summary of discounts and activations
表5. 折扣与激活情况汇总表
时间段 |
折扣总额(元) |
激活数量 |
激活率 |
1 |
37612.00 |
17 |
0.0007 |
2 |
0.00 |
0 |
0.0000 |
3 |
0.00 |
0 |
0.0000 |
4 |
0.00 |
0 |
0.0000 |
5 |
0.00 |
0 |
0.0000 |
6 |
0.00 |
0 |
0.0000 |
7 |
97295.83 |
59 |
0.0023 |
续表
8 |
638116.09 |
357 |
0.0137 |
9 |
2001290.22 |
907 |
0.0349 |
10 |
1771355.57 |
850 |
0.0327 |
11 |
1766449.87 |
803 |
0.0309 |
12 |
1755224.63 |
973 |
0.0374 |
13 |
1907921.78 |
1179 |
0.0453 |
14 |
2683433.00 |
1760 |
0.0677 |
15 |
1654447.57 |
1030 |
0.0396 |
16 |
320109.62 |
291 |
0.0112 |
17 |
9902.00 |
13 |
0.0005 |
18 |
0.00 |
0 |
0.0000 |
19 |
0.00 |
0 |
0.0000 |
20 |
2598452.89 |
1352 |
0.0520 |
21 |
3138431.72 |
1812 |
0.0697 |
22 |
3716329.64 |
2437 |
0.0937 |
23 |
3922476.50 |
2522 |
0.0970 |
24 |
7939872.63 |
4524 |
0.1740 |
25 |
9825817.24 |
5120 |
0.1969 |
合计 |
45784538.80 |
26,006 |
1.0000 |
由于折扣总额与激活率量纲差距较大,分别对上表中两组数据进行最大值最小值标准化,标准化公式如下:
标准化之后结果如下表6:
Table 6. Standardized values for discounts and activation rates
表6. 折扣与激活率标准化数值表
时间段 |
折扣标准化数值 |
激活率标准化数值 |
1 |
0.0140 |
0.0033 |
2 |
0.0000 |
0.0000 |
3 |
0.0000 |
0.0000 |
续表
4 |
0.0000 |
0.0000 |
5 |
0.0000 |
0.0000 |
6 |
0.0000 |
0.0000 |
7 |
0.0363 |
0.0116 |
8 |
0.2378 |
0.0700 |
9 |
0.7458 |
0.1777 |
10 |
0.6601 |
0.1666 |
11 |
0.6583 |
0.1574 |
12 |
0.6541 |
0.1907 |
13 |
0.7110 |
0.2310 |
14 |
1.0000 |
0.3449 |
15 |
0.6165 |
0.2018 |
16 |
0.1193 |
0.0570 |
17 |
0.0037 |
0.0025 |
18 |
0.0000 |
0.0000 |
19 |
0.0000 |
0.0000 |
20 |
0.9683 |
0.2649 |
21 |
1.1696 |
0.3551 |
22 |
1.3849 |
0.4776 |
23 |
1.4617 |
0.4942 |
24 |
2.9588 |
0.8865 |
25 |
3.6617 |
1.0033 |
令第i个时间段折扣率标准化数值为
,激活率标准化数值为
,对其进行了线性相关性检验,从而得相关系数R = 0.9936,因此可以认为这两组数据之间存在着高度直线相关关系。令
其中t表示激活行为相对于折扣活动的滞后时间,单位为228天。
用matlab对数据进行线性回归分析,可得:
则
所求函数表达式为:
顾客会员激活行为相对于折扣活动的滞后时间约为0.0201个时间段,转换为天数,约为4.6天,即在折扣活动持续5天左右,顾客会员激活行为会受到明显的促进作用。
4. 结论与建议
4.1. 结论
本文从统计分析和建模的角度出发,探索会员画像建立的各个阶段与过程,从中归纳与总结较为通用的客户画像模型。分析该商场会员的消费特征,比较会员与非会员群体的差异,会员的总消费金额、购买次数和平均消费金额均高于非会员,贡献了商场价值的85%,是商场价值的主要来源。通过对会员的某些消费特征的分析,对会员以及非会员之间的差异进行比较,得出了在顾客中女性的消费总额占据了相关的总销售额的绝大比例的真实情况,因此在实际中应注重女性购买的相关产品的采购;同时比较了会员跟非会员的群体差异,发现会员购买相关奢侈品概率远大于非会员,因此要在以后的活动中多鼓励人们去办会员。
4.2. 建议
现如今,网络营销模式的兴起对传统实体行业造成了一定的冲击。然而,通过对会员价值的深入分析,我们可以发现,合理运用相关百货商场管理办法有助于大幅提升销售额和销售利润。此外,实体行业仍然具有网络营销所不具备的独特优势。因此,在未来的实际管理中,不仅需要采用相关的管理办法,还应该保留过去的各种优势,以确保实体产业的生存和发展。