1. 引言
1.1. 研究背景
2009年中国汽车销售量达到了世界第一,但至今中国汽车在国际市场中只占据了很小的市场份额,并没有实现我们走向全球市场的目标。为了顺利进入美国市场,汽车企业希望可以在美国设立生产部门并在当地生产汽车,他们想要了解美国汽车定价的影响因素,以便制定合适的价格。
1.2. 研究意义
我国汽车企业顺利进入美国市场这对我们走向国际市场奠定了基础。中国汽车行业在国际市场中取得领先的市场份额,对实现我国制造强国战略,抢占制造业新一轮竞争制高点非常重要。国际化发展是中国汽车企业进一步增强竞争力的必由之路 [1]。
1.3. 文献综述
汽车工业在整个国家的经济中,起着重要支柱的作用。汽车工业是高度技术密集型的综合型组装工业,在产业链全球化时代,国产自主汽车品牌的快速发展很难通过单一的国内市场来实现,拓展海外市场是所有汽车企业的必要选择 [2]。
汽车产业是实现我国制造强国的重要力量,而汽车产业又是深度全球化的行业。在当下面临全球百年未有之大变局的新形势下,中国汽车企业有机会制定合适的策略抓住历史性机遇实现弯道超车,在国际化进程中取得突破,成为真正的汽车强国 [3]。
随着经济全球化发展,中国本土汽车企业纷纷着眼海外市场,积极向海外扩张。经过多年努力,中国本土汽车企业已在国际市场营销中取得了一些成绩,但由于国际市场比国内市场环境复杂得多,再加上贸易壁垒、跨国文化差异等诸多因素,而且我国对于汽车产品的研发水平、服务水平等也与世界传统汽车强国存在很大差距,我国本土汽车企业的国际化道路还存在困难与挑战 [4]。
2. 数据来源及分析
2.1. 数据来源
本文所使用的数据来源:https://www.datafountain.cn/datasets/4610的数据集file.csv。数据信息如表1所示:
Table 1. The specific value of a variable
表1. 变量的具体取值
该数据是某汽车公司为了顺利进入美国市场,对影响美国市场汽车定价所依赖的因素进行研究分析。对此数据进行分析更有利于研究员设计汽车以及对汽车进行定价。
2.2. 数据分析
1) 因变量的描述性分析
如图1所示,从直方图和图中的正态曲线大致可以看出数据呈右偏分布,说明该数据存在极大值,会拉动平均值向极大值一方靠近,峰值大约出现在15,000处。
2) 变量之间的散点图矩阵
Figure 2. Scatter plot matrix between variables
图2. 变量之间的散点图矩阵
如图2所示,从散点图矩阵中大致可以看出Wheel base和Car length、Car width、Car height、Curb weigh、Engine size均呈正相关关系;Wheel base与Peak rpm、City mpg、High way mpg呈负相关关系;Car length与Car width、Curb weigh、Engine size均呈正相关关系;Car length与Peak rpm、City mpg、High way mpg呈负相关关系;Car width与Curb weigh、Engine size均呈正相关关系;Car width与Peak rpm、City mpg、High way mpg呈负相关关系;其余变量间也存在一定相关关系。
3) 自变量的箱线图
Figure 3. Box plot of wheel base
图3. Wheel base的箱线图
Figure 5. Box plot of engine size
图5. Engine size的箱线图
Figure7. Box plot of compression ratio
图7. Compression ratio的箱线图
Figure 8. Box plot of horse power
图8. Horse power的箱线图
Figure 9. Box plot of high way mpg
图9. High way mpg的箱线图
变量箱线图示例如图3~9所示。
对变量做箱线图分析得出部分结论,wheel base、curb weigh、engine size、horse power和city mpg分布的比较离散,wheel base、car length、car width、engine size、stroke、compression ratio、horse power、peak rpm、city mpg和high way mpg出现了异常点,可以看出wheel base、car width、engine size、compression ratio、horse power、peak rpm、city mpg、high way mpg呈现右偏分布,即数据中有极大值,拉动着均值向右移;car length、stroke呈现左偏分布,即数据出现极小值,拉动均值向左移。
3. 研究方法概述
3.1. 线性回归模型
本文数据构成了多元线性回归模型,其中
是常数项,
是回归系数,
时随机误差项 [5]。假设我们对因变量
(Price)和自变量
(wheelbase)、
(car length)、
(car width)、
(car height)、
(curb weigh)、
(engine size)、
(bore ratio)、
(stroke)、
(compression ratio)、
(horse power)、
(peak rpm)、
(city mpg)、
(high way mpg)进行了
次观测,得到
组观测值如下:
它们满足关系式:
(1)
用SPSS软件进行数据分析,得出系数表,如表2,由此表建模,得到的模型表达式为:
(2)
Table2. Table of the coefficients of the linear regression models
表2. 线性回归模型系数表
a. 因变量:price。
从数据得到的回归方程的实际意义是:当wheelbase增加一个单位时,汽车价格增加122.617个单位;当car length增加一个单位时,汽车价格减少94.675个单位;当car width增加一个单位,汽车价格增加505.572个单位;car height每增加一个单位,汽车价格增加163.180个单位;当curb weigh增加一个单位,汽车价格增加1.885个单位;当engine size增加一个单位时,汽车价格增加117.346个单位;当bore ratio增加一个单位,汽车价格减少1002.565个单位;当stroke增加一个单位,汽车价格减少3034.606个单位;当compression ratio增加一个单位,汽车价格增加298.137各单位;当horse power增加一个单位,汽车价格增加30.809个单位;当peak rpm增加一个单位,汽车价格增加2.375个单位;当city mpg增加一个单位,汽车价格减少320.355个单位;当high way mpg增加一个单位,汽车价格增加202.822个单位。
如图10所示,可以看出线性回归模型不存在异方差现象,残差服从正态分布。
3.2. 回归方程的显著性检验
回归方程的显著性检验就是检验假设:所有回归系数都等于零。对于此数据,我们提出原假设
,回归方程不显著;备择假设
不全相等,回归方程显著。
a. 预测变量:(常量),high way mpg, stroke, peak rpm, car height, compression ratio, bore ratio, engine size, car width, wheelbase, horsepower, car length, curb weight, city mpg. b. 因变量:price。
一般来说R方的取值在0~1之间,R方取值越接近1,说明水鬼方差对于样本数据点的拟合优度越高。如表3所示,数据输出结果可以知道R方为0.851,初步判定回归方程拟合程度较好。
a. 因变量:price;b. 预测变量:(常量),high way mpg, stroke, peak rpm, car height, compression ratio, bore ratio, engine size, car width, wheelbase, horsepower, car length, curb weight, city mpg。
如表4所示,我们通过方差分析可知,显著性
,所以拒绝原假设
,回归方程显著,即因变量
(Price)和自变量
(wheelbase)、
(car length)、
(car width)、
(car height)、
(curb weigh)、
(engine size)、
(bore ratio)、
(stroke)、
(compression ratio)、
(horse power)、
(peak rpm)、
(city mpg)、
(high way mpg)之间的线性关系显著。
3.3. 回归系数的显著性检验
原理:当我们检验的结果是拒绝原假设,这就意味着因变量
线性依赖于自变量
,但并不能排除
不依赖于某些自变量,即某些
可能等于零。所以在回归方程显著性检验被拒绝之后,我们要对每个自变量逐一做显著性检验。
首先我们提出原假设
,解释变量不显著;备择假设
,解释变量显著。在给定显著性水平
的条件下,查表可知
,如表2所示,自变量car length、car width、engine size、stroke、compression ratio、horse power、peak rpm、city mpg对汽车价格的影响是不明显的。但这种结论也不一定完全正确,当这八个自变量高度相关时,可能会导致它们对因变量的影响不显著,因此接下来我们要对多重共线性进行检验。
3.4. 多重共线性检验
基本假设之一是自变量
之间不存在严格的线性关系。如不然,则会对回归参数估计带来严重影响。逐步回归法是我们检验多重共线性的一种重要方法。我们先对数据做逐步回归,再进行分析,用SPSS软件我们可以得出下面的所有图表。
首先我们对相关性进行分析,用相关系数表格我们可以判断自变量之间是否存在共线性。一般情况我们认为相关系数 > 0.7可以考虑变量之间存在共线关系。
Table 5. Correlation between variables
表5. 变量之间的相关性
如表5所示,从数据的输出结果我们可以看出,多个变量之间的相关系数大于0.7,因此可以说变量之间是有多重共线性的。
在“回归系数表”里有重要的两个共线性诊断统计量:容忍度和VIF (方差膨胀因子)。一般情况下我们认为:容忍度 < 0.2或
则要考虑自变量之间存在多重共线性的问题。
Table 6. Table of collinearity coefficient
表6. 共线性系数表
a. 因变量:price。
如表6所示,我们可以看出部分自变量的容忍度小于0.2,同时curb weight、city mpg和high way mpg的VIF (方差因子)大于10,由此我们知道自变量之间可能存在共线性,这与相关系数表格所得出的结论相符。
最后我们要观察共线性诊断表格。在共线性诊断表格中我们要关注特征值和条件指标这两个参数。一般我们存在以下判定方法:1) 多个维度的特征值约为0证明存在比较严重多重共线性;2) 条件指标大于10,说明存在比较严重的共线性;3) 在方差比例中存在接近于1的数,说明存在比较严重的多重共线性。
Table 7. Colinear part of diagnosis is shown here
表7. 共线性诊断部分图示
a. 因变量:price。
如表7所示,从输出结果可以看出特征值趋于0,条件指标大于10,在方差比例中,存在car width的值为0.89,接近于1,所以结果表明变量之间存在多重共线性。
3.5. 岭回归分析
原理:上述回归方程存在严重的多重共线性,即X中各列向量之间存在较强的相关性,会导致
,从而引起
的值很大。并且不一样的样本也会导致参数估计值
变化非常大,即参数估计量的方差也增大,对参数估计会不准确。岭回归分析是一种改良的最小二乘法,他是通过放弃最小二乘法的无偏性,以损失部分信息为代价来寻找效果稍差但回归系数更符合实际情况的模型方程。
Table 8. Table of variable coefficient estimated by ridge regression
表8. 岭回归估计的变量系数表
如表8所示,通过R软件的应用,我们可以得到最优模型对应的各个变量的系数,同时还可以得到在选择岭回归的过程中,最优模型的参数
所对应的均方误差的运动轨迹,直观地看出最佳
的大致取值,如图11所示。
Figure 11. Trajectories of parameters λ and mean square errors
图11. 参数λ与均方误差的运动轨迹
3.6. 决策树回归分析
利用RStudio软件的rpart.plot包可以得出下图:
如图12所示,可以看出这棵回归树顶部的分裂点产生出两大分支。左边的分支对应Engine size (汽车整备质量)小于182,右边的分支对应Engine size (汽车整备质量)大于182;在Engine size (汽车整备质量)小于182的节点处又产生两个分支,分别是Curb weight (湿度比)大于2660和Curb weight (湿度比)小于2660。在Curb weight (湿度比)小于2660的分支内又产生大于2292和小于2292的两个分支;在Curb weight (湿度比)大于2660的分支里又产生Car width (汽车宽度)大于69和Car width (汽车宽度)小于69的两个分支。这棵树有三个内部结点和五个终端节点(树叶),每个树叶上的数字表示落在这个树叶处观测值的平均响应值。
4. 结论
通过上述对美国市场汽车定价的影响因素的研究,我们有了初步的了解。Wheelbase、car length、car width、car height、curb weigh、engine size、bore ratio、stroke、compression ratio、horse power、peak rpm、city mpg和high way mpg对美国汽车市场的定价都有很大影响。
汽车产业是国家经济发展的重要支柱,并且其整个产业链在国家工业生产、提供就业、促进科技创新发展等方面也起着重要的作用。面对全球经济形式复杂的今天,我们的国产汽车品牌走向国际市场是一项重要突破,先步入美国市场为后续发展奠定了基础 [2]。
致谢
行文至此已临近结束,回归此篇文章的撰写过程,少不了老师朋友的帮助。感谢各位老师对我数据模拟的指导;感谢同学对我数据收集的帮助以及大力支持;感谢身边朋友对我的不断鼓励以及感谢家人对我的陪伴。