# 基于数据挖掘的电商订单转化率的预测Prediction of Conversion Rate of E-Commerce Orders Based on Data Mining

DOI: 10.12677/MSE.2018.71006, PDF, HTML, XML, 下载: 974  浏览: 1,998

Abstract: The growth of e-commerce business tended to be flat and the ultra-high-speed growth brought by traffic and mobile Internet dividend was basically over. E-commerce business entered a re-fined operation phase. Different from the offline operation mode, the electricity supplier’s order quantity is mainly affected by the marketing strategy and can collect detailed operational data, which has great potential for utilization. In this paper, by way of modeling, linear regression model and non-linear model, that is machine learning model, are used to predict the conversion rate. The purpose of this paper is to help platform-based e-commerce providers to predict the conversion rate and to assist in setting different conversion rates according to the different stages of business objectives and allocating marketing resources. At present, most researches mainly focus on theoretical research, lacking of analysis of specific application links. From the perspective of data and models, this paper starts from the feature selection to the selection of models as the logic to carry out modeling analysis of the impact of marketing strategy and draws corresponding conclusions, with practical guidance value.

1. 引言

2016年以来，京东、阿里营收同比增速下降到40%到50%，相比过去三位数的增速，这标志着电商增速的放缓。电商开始进入已有业务的精耕细作和新业务拓展的新阶段。已有业务的精耕细作主要是营销方式的提升和供应链、物流和配送等后端服务能力的优化，利用电商数据价值赋能整个价值链。新的业务主要是O2O (线上线下整合，以盒马生鲜为代表)、跨境电商、农村电商。本文聚焦于电商数据价值赋能领域，基于统计学模型和数据挖掘模型，研究电商营销方式和流量对转化率的影响。但目前对于电商订单转化率的研究还很少，尤其是用机器学习模型建模的方法。

2. 理论模型

2.1. 多元线性回归模型

$Y={b}_{0}+{b}_{1}{X}_{1}+{b}_{2}{X}_{2}+\cdots +{b}_{k}{X}_{k}+e$ (1)

1) 误差项 $e$ 的期望值为0；

2) 对解释变量所有样本观察值的随机误差项 $e$ 都独立同分布，且为正态分布；

3) 解释变量是确定性变量，不是随机变量，与随机误差项彼此之间相互独立；

4) 解释变量之间不存在精确的线性关系，即解释变量的样本观测值矩阵是满秩矩阵。

2.2. 非线性回归模型

3. 实证分析

D公司是一家国内知名跨境电商公司，所使用的数据是2016年8月到2017年7月间一年的数据，数据颗粒细分到每天。

3.1. 数据描述

Figure 1. Conversion rate and different promotional investment line chart

Figure 2. Order conversion rate and independent visitors line chart

3.2. 建模

R是一种用于统计计算和画图的编程语言和开发环境，其提供了丰富的统计(线性和非线性建模，经典统计学检验，时间序列分析、分类，聚类等)和画图技术，而且具有极高的拓展性。R语言源于经典的S语言，S语言通常是统计方法研究的首选工具，R提供了开源的途径来参与该活动。

3.3. 模型比较

$\text{MSE}=\frac{1}{n}{\sum }^{\text{​}}{\left(Y{S}_{i}-{Y}_{i}\right)}^{2}$

$\text{MAPE}=\frac{1}{n}{\sum }^{\text{​}}|\left(Y{S}_{i}-{Y}_{i}\right)/{Y}_{i}|×100%$

4. 论结论及进一步工作

Table 1. Partial correlation table for order conversion rate and other variables

Table 2. Model fitting accuracy index comparison table

 [1] 李双双, 陈毅文, 李江予. 消费者网上购物决策模型分析[J]. 心理科学进展, 2006, 14(2): 294-299. [2] 刘贵容, 王哲, 林毅. 电商转化率影响因素分析与改进策略[J]. 商业时代, 2015(34): 72-74. [3] 韩睿. 基于消费者感知的价格促销策略研究[D]: [博士学位论文]. 武汉: 华中科技大学, 2005. [4] 李长春. 大数据背景下的商品需求预测与分仓规划[J]. 数学的实践与认识, 2017, 47(7): 70-79. [5] 李永娜. 基于支持向量机的回归预测综述[J]. 信息通信, 2014(11): 32-33. [6] 李静星. G公司网上商城精准营销的研究[D]: [博士学位论文]. 广州: 广东财经大学, 2014.