基于纵向数据半参数混合效应模型的网络营销影响因素研究
Research on the Influencing Factors of Online Marketing Based on Longitudinal Data Semi Parametric Mixed Effects Model
DOI: 10.12677/ecl.2024.1341544, PDF, HTML, XML,   
作者: 汪韫頔, 毛 围:贵州大学数学与统计学院,贵州 贵阳
关键词: 纵向数据B样条贝叶斯估计网络营销Longitudinal Data B-Spline Bayesian Estimation Online Marketing
摘要: 本文建立了一个纵向数据的半参数混合效应模型,采用B样条方法建立纵向指标与时间的关系,为模型中的所有未知参数和随机效应指定先验分布,在共轭先验条件下,对该模型进行贝叶斯分析,通过Gibbs抽样方法获取未知参数、随机效应和非参数函数的贝叶斯估计。最后将该模型应用于饮食类非遗产品网络营销的影响因素进行分析,实证结果显示本文建立的指标对淘宝店铺的网络销售量产生了不同程度的影响,证明了模型的有效性。
Abstract: This article establishes a semi parametric mixed effects model for longitudinal data, using the B-spline method to establish the relationship between longitudinal indicators and time. Prior distributions are specified for all unknown parameters and random effects in the model, and Bayesian analysis of the model is considered under conjugate priors. Bayesian estimates of unknown parameters, random effects, and non parametric functions are extracted based on Gibbs sampling, and the model is applied to the study of influencing factors in online marketing. The empirical results show that the indicators established in this article have varying degrees of impact on the online sales volume of Taobao stores, proving the effectiveness of the model.
文章引用:汪韫頔, 毛围. 基于纵向数据半参数混合效应模型的网络营销影响因素研究[J]. 电子商务评论, 2024, 13(4): 3472-3478. https://doi.org/10.12677/ecl.2024.1341544

1. 引言

网络营销是指利用互联网及其相关技术,通过各种在线渠道和工具进行产品或服务的推广、销售和品牌建设的过程。它包括但不限于搜索引擎优化(SEO)、搜索引擎营销(SEM)、社交媒体营销、电子邮件营销、内容营销和在线广告等策略。网络营销的目标是吸引潜在客户、提高品牌知名度、促进销售转化,并与消费者建立长期关系。通过数据分析和用户反馈,企业能够实时调整营销策略,以适应市场变化和消费者需求。在大数据网络时代,网络营销面临着前所未有的变革与机遇。目前,主要的网络营销方式包括搜索引擎营销、微信营销、数据库营销和病毒式营销等[1]-[4]

纵向数据是指在不同时间点上对同一组个体或观察单位进行重复测量的数据。这种数据类型常用于研究时间效应、个体变化和动态过程,能够揭示个体随时间的变化趋势。在大数据背景下,纵向数据因其特点在网络营销过程中占据了重要地位。例如,在收集某搜索引擎平台上黄金的销售数据时,这些数据不仅受到黄金公司自身在产品质量、样式和促销等方面的影响,还受到国家对黄金价格的调控政策的影响。如果仅依赖截面数据,虽然可以分析各黄金公司受到多种变量的不同影响,但无法揭示国家调控政策对黄金销售的具体影响。而如果仅使用时间序列数据,则只能分析黄金价格和销售情况随时间的变化,而无法有效体现不同公司在黄金销售中受到的具体变量影响[5]

对于纵向数据通常采用混合效应模型建模,混合效应模型中包含固定效应和随机效应。而线性混合效应模型在一些情况中拟合效果较差。因此,许多统计学家开始采用半参数混合效应模型对纵向数据进行建模。半参数混合效应模型兼具参数模型和非参数模型的优点,在有效利用数据信息的同时考虑了信息不完整的变量,增强了模型的灵活性。Angelo等[6]通过引入B样条对光滑样条模型进行了优化,提出了一种新的方法以拟合非线性混合效应模型。阙烨等[7]采用广义最小二乘法对未知参数、随机效应及方差成分进行了估计,并证明了所提出估计量的渐进性质。为提高估计的效率,Lindley等[8]将贝叶斯方法应用于线性混合模型中,而齐培艳等[9]则研究了具有变点的半参数非线性混合效应模型的多重估计方法。

半参数混合效应模型中的参数估计通常有两种方法,一种是频率学派的极大似然方法,一种是贝叶斯学派的MCMC (Markov Chain Monte Carlo)方法。与频率学派方法相比,贝叶斯方法建模时最重要的优点就是不需要渐进逼近,由于所有参数均为随机变量,因此可以采用一些基于抽样的方法(例如蒙特卡洛方法)来构建复杂模型。同时,贝叶斯方法可以有效减轻计算负担,使得模型求解更容易[10]

本文使用半参数混合效应模型对纵向数据进行建模,模型中纵向指标与时间的关系采用B样条逼近,并对模型中的所有未知参数、随机效应给出先验分布,基于贝叶斯MCMC方法对模型中的未知参数进行估计。最后将所提出的方法运用于网络营销影响因素的研究中,从而验证模型的有效性。

2. 模型

2.1. 半参数混合效应模型

假设有n个个体,每个个体之间相互独立,对每个个体分别进行 m i 次观测,本文采用以下半参数混合效应模型:

Y ij = X ij T β+ Z ij T b i +f( t ij )+ ε ij (1)

其中, i=1,,n j=1,, m i i=1 n m i =M Y i ( t ij ) 为第i个个体在第j个观测时间 t ij 观察到的响应变量; X i T ( t ij ) Z i T ( t ij ) 分别是固定效应 β 和随机效应 b i 的设计向量,固定效应 β= ( β 1 ,, β p ) T ,随机效应 b i 服从多元正态分布 N q ( 0,D ) 且相互独立; f( t ij ) 是一个未知的光滑函数; ε i ( t ij ) 是第i个个体在第j个观察点 t ij 的测量误差,假定 ε i ( t ij ) 服从正态分布 N( 0, σ 2 ) 且与 b i 相互独立。

2.2. B样条

参考Rupper等[11],我们在贝叶斯框架下使用B样条来逼近模型(1)中的未知光滑函数。具体而言,我们考虑以下形式的光滑函数:

f( t )= λ 0 ( 1 ) + λ 1 ( 1 ) t++ λ s ( 1 ) t s + l=1 L λ l ( 2 ) ( t τ l ) + s (2)

其中,L为光滑函数的节点数,s为样条的自由度,将光滑函数划分为 L+1 个区间,我们考虑按照以下规则来选取节点和样条:假设 τ l 为第l个节点,则选取样本的第 l+1/L+2 分位数,并满足 τ 0 = t min < τ 1 << τ l = t max ( t τ l ) + s = ( max{ 0,t τ l } ) s ,令 λ= ( λ ( 1 )T , λ ( 2 )T ) T = ( λ 0 ( 1 ) , λ 1 ( 1 ) ,, λ k ( 1 ) , λ 1 ( 2 ) ,, λ L ( 2 ) ) T ,截断的幂基函数 φ( t )= ( φ 1 ( t ) T , φ 2 ( t ) T ) T = ( 1,t,, t s , ( t τ 1 ) + s ,, ( t τ L ) + s ) T ,则式(2)可写为:

f( t )= φ 1 ( t ) T λ ( 1 ) + φ 2 ( t ) T λ ( 2 ) =φ ( t ) T λ

Y i = ( Y i1 ,, Y i m i ) T Y= ( Y 1 T ,, Y n T ) T ,以同样方式定义 X,Z,x,ε ,设 Z=diag( Z 1 ,, Z n ) 为对角元素为 Z 1 ,, Z n 的对角矩阵,则式(1)可以表示为:

Y= X * β * +Zb+Wa+ε (3)

其中, X * =( X, φ 1 T ) W= φ 2 T ( t ij ) M×L a= λ ( 2 ) β * = ( β T , λ ( 1 )T ) T λ= ( λ ( 1 )T , λ ( 1 )T ) T ~ N s+1+L ( 0,ξ ) ξ=diag( ξ 1 , ξ 2 ) ξ 1 =diag( σ ξ 1 2 ,, σ ξ 1 2 ) ξ 2 =diag( σ ξ 2 2 ,, σ ξ 2 2 )

3. 贝叶斯分析

θ={ β * ,D, σ 2 ,ξ } 为未知参数的集合,为了对所有未知参数进行贝叶斯估计,需要从所有未知参数的联合似然函数中获得样本观测,由(3)式可得似然表达式如下:

L( Y,b,a|θ )= ( 2π σ 2 ) n/2 ×exp{ ( 2 σ 2 ) 2 × ( Y X * β * ZbWa ) T ×( Y X * β * ZbWa ) } (4)

3.1. 先验的设置

联合模型的估计可以通过两种方式进行,一种是频率学派的极大似然方法,另一种是贝叶斯学派的MCMC方法。与频率学派方法相比,贝叶斯方法建模时最重要的优点就是不需要渐进逼近,且因为所有的参数都是随机变量,因此可以使用基于抽样的方法(如蒙特卡洛方法)来构建复杂模型。本文使用贝叶斯推理方法,基于指定先验分布的联合似然,通过马尔可夫链蒙特卡罗过程在完全贝叶斯框架下同时估计联合模型的参数。在贝叶斯框架下,为模型中的所有未知参数和随机效应指定先验分布如下:

β * ~ N p+2 ( ϕ 1 , ϕ 2 ), b i ~ N q ( 0,D ),a~ N r2 ( 0,τI ), D~I W q ( o o , R o ),τ~IW( o 1 , R 1 ), σ 2 ~1/ σ 2

其中, IW 表示逆Wishart分布, σ 2 采用扩散先验分布, ϕ 1 , ϕ 2 , o o , R o , o 1 , R 1 是超参数。

3.2. 条件后验的推导

(1) 为固定效应 β * 指定先验分布为 β * ~ N p+2 ( ϕ 1 , ϕ 2 ) ,根据似然表达式(4),通过多元配方法[12],推导出 β * 的条件后验分布:

π( β * |Y,b,a, σ 2 )exp{ 1 2 ( β * ( ϕ 1 β * ) ) T ( 1 σ 2 X * T X * + ϕ 2 1 )( β * ( ϕ 1 β * ) ) }

其中 β * = ( X * T X * + σ 2 ϕ 2 1 ) 1 X * T X * ( ϕ 1 β ) ,可推导出 β * 的后验分布:

β * |Y,b,a, σ 2 ~ N p+2 ( ( ϕ 1 β * ), ( σ 2 X * T X * + ϕ 2 1 ) 1 ) (5)

(2) 为随机效应 b i 指定先验分布为 b i ~ N q ( 0,D ) ,令 w i = Y i X i β * Z ( 2 ) a ,根据似然表达式(4),通过多元配方法,推导出第i个个体的随机效应 b i 的后验分布:

π( b i | Y i ,β,D, σ 2 )exp{ 1 2 σ 2 ( b i b ^ i ) T ( Z 1 ) T Z i ( 1 ) ( b i b ^ i ) }exp{ 1 2 b i T D 1 b i } exp{ 1 2 ( b i b i * ) T ( 1 σ 2 ( Z i ( 1 ) ) T Z i ( 1 ) + D 1 )( b i b i * ) }

其中, b ^ i = ( ( Z i ( 1 ) ) T Z i ( 1 ) ) 1 ( Z i ( 1 ) ) T w i b i * = ( ( Z i ( 1 ) ) T Z i ( 1 ) + σ 2 D 1 ) 1 ( Z i ( 1 ) ) T ( Y i X i β Z ( 2 ) a ) ,可推导出随机效应 b i 的后验分布:

b i | Y i ,β,D, σ 2 ~ N q ( b i * , ( σ 2 ( Z i ( 1 ) ) T Z i ( 1 ) + D 1 ) 1 ) (6)

(3) 为随机效应a指定先验分布为 a~ N r2 ( 0,τI ) ,根据似然表达式(4),通过多元配方法,推导出a的条件后验分布:

π( a|Y, β * ,b,D,τ, σ 2 )exp{ 1 2 ( a a * ) T ( 1 σ 2 ( Z ( 2 ) ) T Z ( 2 ) + ( τI ) 1 )( a a * ) }

其中 a * = ( ( Z ( 2 ) ) T Z ( 2 ) + σ 2 ( τI ) 1 ) 1 ( Z ( 2 ) ) T ( Y X * β * Z ( 1 ) b ) ,可推导出随机效应a的条件后验分布:

a|Y, β * ,b,D,τ, σ 2 ~ N r2 ( a * , ( σ 2 ( Z ( 2 ) ) T Z ( 2 ) + τ 1 I ) 1 ) (7)

(4) 为随机效应方差D指定先验分布为 D~I W q ( o o , R o ) ,根据似然表达式(4),通过多元配方法,推导出D的条件后验分布:

π( D|b ) | D | m 2 exp{ 1 2 i=1 m b i T D 1 b i } | D | o 0 +q+1 2 exp{ 1 2 tr( D 1 R 0 ) } | D | m+ o 0 +q+1 2 exp{ 1 2 tr( D 1 ( R 0 + i=1 m b i b i T ) ) }

则随机效应方差D的条件后验分布:

D| b i ~I W q ( m+ o 0 , R o + i=1 m b i b i T ) (8)

(5) 为 τ 指定先验分布为 τ~IW( o 1 , R 1 ) ,根据似然表达式(4),通过多元配方法,推导出 τ 的条件后验分布:

π( τ|a ) | τ | r2+ o 1 +1+1 2 exp{ 1 2 tr( τ 1 ( R 1 + a T a ) ) }

可得到 τ 的条件后验分布:

τ|a~IW( r2+ o 1 , R 1 + a T a ) (9)

(6) 为 σ 2 指定先验分布 σ 2 ~1/ σ 2 ,根据似然表达式(4),推导出 σ 2 的条件后验分布:

π( σ 2 | β * ,b,a,Y ) ( σ 2 ) ( n 2 +1 ) exp{ 1 σ 2 ( 1 2 u T u ) }

其中 u=Y X * β * Z ( 1 ) b Z ( 2 ) a

上述结果为逆Gamma分布,则推导出 σ 2 的条件后验分布:

σ 2 |Y, β * ,b,a~IG( n 2 , 1 2 u T u ) (10)

3.3. 贝叶斯估计

式(5)~(10)中参数的后验分布为标准形式,可采用Gibbs抽样,Gibbs抽样是一种马尔可夫链蒙特卡洛(MCMC)方法,用于从多维概率分布中生成样本,具体步骤如下:

(1) 初始化:选择初始值 θ ( 0 ) 作为参数的起始点。

(2) 迭代抽样:对于每个参数 θ i (在 θ=( θ 1 , θ 2 ,, θ k ) 中),执行以下步骤:

a) 从条件分布 p( θ i | θ i ) 中抽样,其中 θ i 表示除 θ i 以外的所有参数;

b) 更新 θ i 的值为新抽样的结果。

(3) 重复迭代:重复步骤(2),直至达到预定的迭代次数或收敛标准。

{ β ( k ) , D ( k ) , τ ( k ) , σ 2( k ) :k=1,,K } 是由Gibbs抽样抽取的随机样本,则它们的贝叶斯估计可以表示如下:

β ^ = 1 K k=1 K β ( k ) , σ 2 ^ = 1 K k=1 K σ 2 ( k ) , D ^ = 1 K k=1 K D ( k ) , τ ^ = 1 K k=1 K τ ( k )

4. 实证分析

为了验证所提出方法的有效性,本节将基于所提出的半参数混合效应模型对饮食类非遗产品网络营销的影响因素进行分析。在166个国家级饮食类非物质文化遗产项目中,选择了在淘宝设有官方旗舰店的样本,总计80个,共进行了12次统计(2023年1月~12月) [13]研究,定义网络销量为响应变量Y,并选取淘宝官方旗舰店近半年综合销量排名第一的产品的月销量。以网络搜索量( X 1 )、短视频传播效果( X 2 )、店铺经营年限( X 3 )、店铺粉丝数量( X 4 )和店铺好评率( X 5 )作为解释变量建立如下半参数混合效应模型:

Y ij = β 0 + β 1 X 1ij + β 2 X 2ij + β 3 X 3ij + β 4 X 4ij + β 5 X 5ij +f( t ij )+ b i + ε ij (11)

其中, i=1,,80 j=1,,12 f( t ) 是一个以t为自变量的函数, b i 是随机截距,服从正态分布 N( 0,D ) 且相互独立, ε ij 为误差项,假定其服从正态分布 N( 0, σ 2 )

将数据代入模型(11),通过贝叶斯方法估计出模型中的参数,估计结果见表1

Table 1. Parameter estimation results

1. 参数估计结果

参数

估计值

标准差

β 0

24.833

0.004

β 1

0.652

0.142

β 2

0.877

0.084

β 3

0.538

0.008

β 4

1.083

0.001

β 5

1.314

0.001

D

0.217

0.023

σ 2

0.209

0.019

表1可以看出,截距项为24.833,网络搜索量系数为0.652,代表网络搜索量对于店铺的网络营销量有一个正向影响,即网络搜索量越高,店铺营销量越高。短视频传播效果系数为0.877,代表短视频传播效果对于网络营销量有一个较强的正向影响,即短视频传播效果越好,营销量越高。店铺经营年限系数为0.538,代表店铺经营年限对于店铺的网络营销量有一个正向影响,即店铺经营年限越长,网络营销量越高。店铺粉丝数量系数为1.083,代表店铺粉丝量对店铺的网络营销量有一个较强的正向影响,即店铺粉丝量越多,店铺的网络营销量越高。店铺好评率系数为1.314,说明店铺好评率对店铺的网络营销量有一个很强的正向影响,即店铺好评率越高,店铺的网络营销量越高。以上情况数据合理地解释了网络营销中的部分营销因素,与实际情况大致相符。

5. 结束语

本文构建了一个纵向数据的半参数混合效应模型,并运用贝叶斯方法进行了统计推断。研究发现,模型中的固定效应、随机效应及其方差,以及在先验分布下的随机误差的后验分布均符合标准分布,从而有效简化了模型估计的统计计算。同时,所提出的模型被应用于分析网络营销中的营销因素,实证结果显示这些因素对淘宝店铺的网络销售量产生了不同程度的影响。实证分析结论也与网络营销的实际情况相符,说明了模型的可行性和有效性。但是在实际情况中,店铺的网络营销量不仅受到文中所述的解释变量影响,还受到诸多因素的共同影响,如:支付方式、物流与配送、品牌信誉、市场营销策略等。如果忽视这些因素,可能会导致模型的准确性下降。因此,若能对这些因素进行量化并将其纳入模型进行计算,结果将会更加精准。这也是本文未来研究的一个重要方向。

参考文献

[1] 高源, 张桂刚. 基于大数据的网络营销对策研究[J]. 湖北经济学院学报(人文社会科学版), 2014(2): 66-68.
[2] 王明. 大数据时代网络营销策略分析[J]. 海峡科技与产业, 2015(12): 94-96.
[3] 肖阵. 大数据时代电子商务网络营销探讨[J]. 现代商贸工业, 2015, 36(14): 50-51.
[4] 张晓玲. 搜索引擎营销: 企业营销的新亮点[J]. 商业文化月刊, 2008(1): 252-253.
[5] 许丽庆. 纵向数据模型的变量选择及其在网络营销中的应用[D]: [硕士学位论文]. 南宁: 广西大学,2017.
[6] Elmi, A., Ratcliffe, S.J., Parry, S. and Guo, W. (2011) A B-Spline Based Semiparametric Nonlinear Mixed Effects Model. Journal of Computational and Graphical Statistics, 20, 492-509.
https://doi.org/10.1198/jcgs.2010.09001
[7] 阙烨, 黄振生. 部分线性混合效应模型的有效估计[J]. 应用概率统计, 2017, 33(5): 529-537.
[8] Lindley, D.V. and Smith, A.F.M. (1972) Bayes Estimates for the Linear Model. Journal of the Royal Statistical Society Series B: Statistical Methodology, 34, 1-18.
https://doi.org/10.1111/j.2517-6161.1972.tb00885.x
[9] 齐培艳, 华文杰, 段西发. 半参数非线性混合效应模型的多重估算法[J]. 统计与决策, 2021, 37(24): 24-28.
[10] Brown, E.R. and G. Ibrahim, J. (2003) A Bayesian Semiparametric Joint Hierarchical Model for Longitudinal and Survival Data. Biometrics, 59, 221-228.
https://doi.org/10.1111/1541-0420.00028
[11] Rupper, D., Wand, M.P. and Carroll, R.J. (2003) Semiparametric Regression. Cambridge University Press.
[12] Leonard, T. and Hsu, J.S.J. (2001) Bayesian Methods: An Analysis for Statisticians and Interdisciplinary Researchers. Cambridge University Press, 5.
[13] 刘旭玲, 刘佳婕, 刘世豪, 等. 饮食类非遗产品网络营销影响因素的组态及提升路径[J]. 美食研究, 2024, 41(2): 23-31.