基于RFBC模型与聚类分析的电商用户细分研究
Research on E-Commerce Customer Segmentation Based on RFBC Model and Clustering Algorithm
DOI: 10.12677/aam.2024.1310426, PDF, HTML, XML,   
作者: 李清华, 李兴东*:兰州交通大学数理学院,甘肃 兰州
关键词: 用户细分RFM模型k-means聚类Customer Segmentation RFM Model k-means Clustering
摘要: 在电子商务领域,消费者的行为数据具有高维度和复杂性。针对传统RFM模型的局限性,本研究提出了一种改进的RFBC模型。该模型结合了购买商品品牌数和购买商品类别数两个新维度,采用k-means++算法进行用户细分,并根据手肘法来确定最佳的聚类数k。由此得到具有不同购买行为特征的六类用户群体,基于这些群体特征,制定出个性化营销策略,使企业在激烈的市场竞争中获取优势。
Abstract: In the field of e-commerce, consumer behavior data has a high dimension and complexity. Aiming at the limitations of the traditional RFM model, an improved RFBC model is proposed in this paper. The model combines two new dimensions, the number of brands purchased and the number of categories purchased, and uses the k-means++ algorithm to subdivide users, determining the optimal clustering number k according to the elbow method. Thus, six types of user groups with different purchasing behavior characteristics are obtained. Based on these group characteristics, personalized marketing strategies are formulated to enable enterprises to gain advantages in the fierce market competition.
文章引用:李清华, 李兴东. 基于RFBC模型与聚类分析的电商用户细分研究[J]. 应用数学进展, 2024, 13(10): 4464-4470. https://doi.org/10.12677/aam.2024.1310426

1. 引言

根据2023年数据显示,我国网上零售额达到了15.42万亿元,相比去年增长11%,连续11年成为全球第一大网络零售市场。其中,实物商品网络零售额占社会消费品零售总额比重增至27.6% [1]。然而,在电子商务的快速发展浪潮中,消费者的购买行为和偏好在网络购物平台上呈现出多样性和复杂性,在这种环境下,电商企业若继续采用“一刀切”的策略,将资源平均分配给流失客户和忠诚客户,将难以有效应对市场挑战。因此,理解并识别真正的消费者需求,对电商企业来说变得尤为关键。

为了更好地满足消费者的多样化需求,如何根据消费者的不同特征制定营销策略已经成为电商平台研究的热点问题。客户细分专注于将消费者划分为不同的群体,以便更有效地满足各个群体的特定需求。对此,许多学者使用RFM模型及RFM改进模型进行客户价值研究。徐翔斌等[2]通过改进RFM模型,引入总利润属性构建RFP模型,利用k-means算法对电子商务企业客户进行聚类分析,结果揭示了RFP模型在客户细分方面的优越性。熊兰等[3]通过构建基于RFM模型的多层级客户价值评价模型,对零售企业产品进行分类,并结合客户终身价值分析,实现了对不同产品类别客户价值的分析。包志强等[4]提出了一种基于改进RFM模型的客户价值分析方法,通过离差标准化方法和主成分分析法对百度外卖客户的行为数据进行处理,并利用k-means聚类算法将客户分为五个价值等级,从而得到客户对企业的贡献度和价值排名。Jinfeng Zhou等[5]通过开发网络内容检索系统并结合层次聚类分析,提出了扩展的RFMT模型,用于对在线购物消费者进行细分,研究结果揭示了七个具有特定特征的客户群组,为零售商提供了针对性营销策略的洞察。Mussadiq Abdul Rahim等[6]应用RFM模型和数据建模技术对客户购买行为进行建模,通过MLP、SVM和DTC方法验证方案,实现了超过97%的客户分类准确率,并发现八次交易足以高精度分类客户。Zeng yuan Wu等[7]提出了一种结合改进RFM模型和k-medoids聚类算法的方法,并引入消费者行为特征和Calinski-Harabasz指数来优化算法。Jun Wu等[8]基于改进的RFM模型和k-means++算法,分析了电子商务平台用户数据,准确识别用户价值。研究结果表明,该方法能比传统RFM模型更精确地进行用户分类,有助于电商平台实施精准营销策略。

综合上述研究,在RFM基础上引入购买商品类别数和购买商品品牌数这两个新维度,构建了扩展的RFBC模型,根据k-means算法,构建了立体的消费者画像,实现了信息碎片的有效整合。借助大数据技术,这些画像使企业能够洞察不同消费者群体,不仅有助于发现潜在客户群体,还能促进个性化营销策略的制定使企业在激烈的市场竞争中获取优势。

2. 研究方法设计

2.1. 改进的RFM模型

RFM模型是一种在数据分析和客户关系管理中广泛应用的用户价值分析工具,传统的RFM模型通过考量最近一次购买时间(Recency)、购买频率(Frequency)和购买金额(Monetary)为客户提供价值评估,但这种方法未能全面覆盖消费者的购买偏好和品牌忠诚度。为了补充这一不足,本研究在RFM的基础上引入商品类别(Category)和商品品牌(Brand)两个维度,构建了RFBC模型。采用k-means++算法对电商的多个变量进行聚类分析得到用户分群。

2.2. k-means++聚类

k-means++算法是一种改进的k-means聚类算法,旨在通过更智能地初始化聚类中心来提高原始k-means算法的性能。k-means++算法是一种广泛使用的无监督学习算法,用于将数据点划分为预定数量的簇,使得同一簇内的点之间的相似度高,而不同簇之间的点的相似度低。算法步骤如下:

Step 1选择第一个聚类中心:随机选择一个数据点;

Step 2计算概率:对于剩余的每个点,计算它与当前聚类中心的距离,并根据距离的平方分配成为下一个聚类中心的概率;

Step 3选择新中心:根据计算出的概率选择一个新的点作为第二个聚类中心,距离较远的点有更高的概率被选中;

Step 4重复选择:重复Step2和Step3,直到选定k个聚类中心;

Step 5执行聚类:使用选定的k个聚类中心执行标准的k-means算法,直至聚类结果稳定。

3. 电商用户实证研究

3.1. 数据采集与预处理

本研究所用数据来自天池大数据平台(https://tianchi.aliyun.com/)中天猫复购预测–挑战Baseline中的用户浏览日志记录,该数据集记录了从某年度5月11日至11月11日,用户在电商平台的浏览记录,具体字段解释如表1所示。考虑到“双十一”购物节期间消费者的购买行为平时呈现出较大差距,且11月发生的记录数超过所有记录的三分之一。为反映消费者日常行为,仅选取5月至10月的数据进行分析,这一时间段的数据能够更好地代表消费者平日购物习惯,有助于识别和理解影响消费者在线购物决策的关键因素。

Table 1. Usage data

1. 使用数据情况

字段名称

描述

user_id

购买者的唯一编码

item_id

商品的唯一编码

cat_id

商品所属品类的唯一编码

merchant_id

商家的唯一编码

brand_id

商品品牌的唯一编码

time_tamp

仅包含月份和日期(格式为mmdd)

action_type

行为类别(0:浏览,1:加购,2:购买,3:收藏)

首先对原始数据集进行数据预处理,通过isnull()查看发现brand_id列有91,015条缺失值,占比为0.1657%,使用duplicated()查看存在13,750,198条重复值,对此删除缺失值和重复值。

3.2. 算法实现

首先查看数据的偏度峰度。根据表2左侧可以看到数据偏度峰度均较大。可以通过Box-Cox转换用来减少或消除这种偏态。如果计算出来的偏度和峰度都在0附近,那么可以初步判断其分布服从正态分布。

对于正向指标F、B、C,它们的值大的情况下,其价值相对较高,对于逆向指标R,其数值越小越好。为了消除不同指标间量纲影响,需要对这些指标进行标准化处理。标准化的数据部分示例如表3所示。

Table 2. Characteristic skewness kurtosis of RFBC

2. RFBC特征偏度峰度

特征

偏度

峰度

Box-Cox转换后的偏度

Box-Cox转换后的峰度

R

1.147550

0.272152

−0.149091

−0.531638

F

11.365231

907.844407

0.031973

−0.888015

C

2.932725

19.198117

0.037988

−0.974097

B

7.257751

327.205290

0.052592

−1.006709

Table 3. Data after standardized processing

3. 标准化处理后的数据

R

F

C

B

0.592769

0.146311

0.193703

0.187823

0.483736

0.380986

0.421383

0.351011

0.235579

0.146311

0.193703

0.187823

0.759862

0.423849

0.552153

0.514968

手肘法该方法的核心思想是比较不同聚类数量(k值)下的模型误差平方和(SSE)的变化情况,并找到一个“手肘点”,即SSE下降速度明显减缓的点,这个点通常被认为是最佳的聚类数量。观察图1结果,最终选取k值为6。

使用Matplotlib进行3D可视化,得出聚类结果如图2所示。

我们根据聚类结果计算出R、F、B、C四个输入变量的平均值。六个类别的聚类中心如表4所示。

3.3. 结论及建议

重要价值用户(1)。这类用户的R值较小,显示出他们对品牌的极高忠诚度和频繁的购买行为。他们的参与度高,不仅购买频次高,而且在品牌和产品类别上的多样性也丰富,是企业的核心顾客群体。为了维护和增强这些用户的品牌忠诚度,企业应该提供高度个性化的服务,包括但不限于定制化的产品推荐、独家优惠、专属客户经理以及快速响应的售后服务。此外,提供定制服务和无忧退换货政策将进一步满足他们对高品质服务的期待,巩固与品牌的紧密联系,增强用户粘性。

低参与用户(2)。对于R值偏大、F、C、B值较小的低参与用户,他们与品牌的互动较少,购买行为不频繁。企业应该通过调查问卷、反馈活动或社交媒体互动来深入了解这些用户的需求和偏好。通过收集这些关键信息,企业应调整和优化产品与服务,提高这些用户的参与度和品牌忠诚度。个性化营销

Figure 1. ElbowVisualizer determines k value

1. ElbowVisualizer确定k

Figure 2. 3D scatter diagram

2. 3D散点图

Table 4. Average values of R, F, B and C for the six categories

4. 六个类别的R、F、B、C平均值

cluser

R

F

C

B

customer count

1

6.466206

13.633892

10.221295

9.574031

55,713

2

77.129791

3.045000

2.575551

2.333141

65,711

3

109.996148

1.191313

1.052069

1.016045

52,354

4

10.397117

3.506330

2.976590

2.819353

63,350

5

37.982134

7.584299

5.995341

5.343589

61,169

6

19.090825

1.213755

1.055847

1.027672

31,873

和增强沟通将有助于重新点燃他们的兴趣,逐步转变为活跃用户。

重要流失用户(3)。R值较大且F、C、B值极小的用户,可能正在失去对品牌的兴趣。这类用户群体的参与度和购买频次都很低,企业需要迅速采取行动来挽留这些用户。设计一系列挽留策略,如提供优惠券、特别促销活动或重新激活过去的优惠活动,可以有效吸引他们重新参与。同时,主动收集用户反馈,了解他们对品牌不满意的具体原因,并根据这些反馈对产品和服务进行及时改进,以提高用户满意度和忠诚度,减少客户流失。

重要潜力用户(4)。R值较小,F、C、B值较小或中等的用户,表明他们对品牌有一定的购买意愿,但最近没有购买行为。企业应该通过市场调研深入了解这些用户的需求和偏好,并定期发送定制化的促销信息和限时折扣,以激发他们的购买欲望。通过个性化的产品推荐和优质的客户服务,企业可以促进这些用户转化为更高价值的客户群体。

重要发展用户(5)。具有中等R值和F、C、B值的用户,显示出他们对品牌有一定的忠诚度和参与度,但仍有提升空间。为了将这些用户转化成更忠诚的客户,企业可以通过个性化推荐和激励措施来提升他们的购买频次。同时,加强与这些用户的沟通,通过定期的满意度调查和反馈收集,不断优化产品和服务,以更好地满足他们的需求,提升他们的满意度和品牌忠诚度。

新用户(6)。R值和F、C、B值均较小,表明这类用户可能是新加入的顾客,他们的购买行为尚未形成稳定模式。企业可以通过新用户引导计划、营销和试用优惠来吸引他们进行更多地购买,并逐步提高他们的品牌忠诚度。

通过上述策略,电商平台可以有效地识别和管理不同用户群体,提升他们的品牌忠诚度和购买活跃度。

4. 结语

本文对传统的RFM模型进行了扩展,构建了改进的RFBC模型,在数据处理阶段,我们采用了Box-Cox转换和变量标准化对数据进行预处理,确保了聚类分析的准确性和可靠性。通过计算误差平方和(SSE)并运用Elbow Visualizer工具,确定了最佳的聚类数量,结合k-means++聚类算法将用户分为六个不同特征的群体,为电商企业提供了定制化营销的依据,也为电商领域的数据分析和客户关系管理提供了新的视角。

NOTES

*通讯作者。

参考文献

[1] 央视网. 2023年我国网上零售额超15万亿元[EB/OL]. 中国政府网.
https://www.gov.cn/yaowen/shipin/202401/content_6927216.htm, 2024-01-19.
[2] 徐翔斌, 王佳强, 涂欢, 等. 基于改进RFM模型的电子商务客户细分[J]. 计算机应用, 2012, 32(5): 1439-1442.
[3] 熊兰, 高炳. 基于RFM多层级客户价值模型的客户细分研究[J]. 商业经济研究, 2017(5): 55-57.
[4] 包志强, 赵媛媛, 赵研, 等. 基于RFA模型和聚类分析的百度外卖客户细分[J]. 计算机科学, 2018, 45(S2): 436-438.
[5] Zhou, J., Wei, J. and Xu, B. (2021) Customer Segmentation by Web Content Mining. Journal of Retailing and Consumer Services, 61, Article 102588.
https://doi.org/10.1016/j.jretconser.2021.102588
[6] Rahim, M.A., Mushafiq, M., Khan, S. and Arain, Z.A. (2021) Rfm-Based Repurchase Behavior for Customer Classification and Segmentation. Journal of Retailing and Consumer Services, 61, Article 102566.
https://doi.org/10.1016/j.jretconser.2021.102566
[7] Wu, Z., Jin, L., Zhao, J., Jing, L. and Chen, L. (2022) Research on Segmenting E-Commerce Customer through an Improved K-Medoids Clustering Algorithm. Computational Intelligence and Neuroscience, 2022, 1-10.
https://doi.org/10.1155/2022/9930613
[8] Wu, J., Shi, L., Yang, L., Niu, X., Li, Y., Cui, X., et al. (2021) User Value Identification Based on Improved RFM Model and k‐Means++ Algorithm for Complex Data Analysis. Wireless Communications and Mobile Computing, 2021, 1-8.
https://doi.org/10.1155/2021/9982484