1. 背景介绍
随着现代化建设的发展,中国城乡居民收入水平显著提高,精神文化生活日益成为消费者的重要追求。曾经少数人能享受的影视作品,如今已成为大众消费品,遍布各大中小城市,成为人们精神生活的寄托和谈资,电影作品逐渐成为潮流的象征,丰富着日常生活。
近年来,我国电影产业快速发展,全产业链不断完善,制作和营销能力显著提升,为票房增长奠定了基础。政府的扶持政策及经济的快速发展也为电影产业创造了良好的环境。2012年,中国电影票房首次超过日本,成为全球第二大电影市场,仅次于美国。然而,电影产业仍属于高风险行业,投资亏损时有发生。因此,研究票房影响因素对影视行业的繁荣至关重要,也有助于增强中华文化的国际竞争力和国家文化软实力。随着影视作品数量的快速增长,竞争日益激烈,制片公司必须关注票房表现。了解票房影响因素、把握市场偏好、制作大众喜爱的电影,已成为制片公司的当务之急。
2. 数据分析
2.1. 指标设计
通过文献查找,我们提炼出13个可能与电影票房相关的因素[1]-[3]:首日票房、上映首周票房、档期、题材、评分(猫眼)、平均票价、播放形式、电影时长、预告片播放量(亿)、想看人数(万人)、演员影响力、导演影响力、预算(万元)。
其中,档期、题材和播放形式为分类变量,采用单因素分析来判断其对电影票房的影响。其余10个因素为数值型变量,我们将首先通过相关性分析来评估每个因素对电影票房的影响程度,随后运用逐步回归法进一步筛选变量,最终建立对数–对数回归模型。
符号说明如表1所示。
Table 1. The explanation of symbols
表1. 符号说明
符号 |
定义 |
类型 |
Y |
累计票房 |
数字 |
X1 |
上映首周票房 |
数字 |
X2 |
评分(猫眼) |
数字 |
X3 |
平均票价 |
数字 |
X4 |
电影时长 |
数字 |
X5 |
预告片播放量 |
数字 |
X6 |
演员影响力 |
数字 |
X7 |
导演影响力 |
数字 |
X8 |
预算 |
数字 |
X9 |
想看人数 |
数字 |
X10 |
首日票房 |
数字 |
X11 |
档期 |
字符串 |
X12 |
题材 |
字符串 |
X13 |
播放形式 |
字符串 |
2.2. 数据来源
通过猫眼专业版(网址:https://piaofang.maoyan.com/rankings/year)选取截止到目前在中国大陆上映累计票房前100名的电影。
2.3. 分类变量描述性统计分析
档期、题材、播放形式为分类变量,将通过单因素分析来判断其是否对电影票房产生影响。
2.3.1. 档期
根据档期对100部电影的数据进行分析,发现大多数电影集中在普通时段上映,春节档和其他节日档上映的电影数量较多,而剩余节日的电影仅有14部。从均值来看,春节档的平均票房最高,其次是其他节日档和暑假档,普通档的平均票房最低。如表2所示。
2.3.2. 题材
根据影片类型对数据进行拆分和分析。题材分布数据显示,动作类电影占据30%,剧情和喜剧类型分别占27%和26%。相对而言,科幻、悬疑、犯罪的影片占比较少。在“想看人数”这一变量中,科幻类影片的关注人数最多,其次是悬疑类影片。详见表3。
2.3.3. 播放形式
对播放形式这一因子进行分析时可以看出,大多数电影的播放形式是IMAX-2D、IMAX-3D。如表4所示。
影响票房的影响因素中,档期、题材、播放形式这三个变量属于分类变量,对这些变量进行多因素方差分析,研究不同档期、不同题材、播放形式是如何影响电影票房的,结果如表5。
Table 2. Schedule descriptive statistics
表2. 档期描述统计
档期 |
变量 |
N |
最小值 |
最大值 |
均值 |
标准偏差 |
普通档 |
累计票房 |
34 |
11.2700 |
42.500 |
16.757941 |
7.1913487 |
评分(猫眼) |
34 |
7.9 |
9.6 |
9.012 |
0.4212 |
预告片播放量 |
34 |
0.01387 |
1.89000 |
0.6120779 |
0.47114963 |
想看人数 |
34 |
2.8 |
185.0 |
46.626 |
45.8821 |
有效个案数(成列) |
34 |
|
|
|
|
暑假档 |
累计票房 |
14 |
12.4300 |
59.159686 |
25.159686 |
13.6921748 |
评分(猫眼) |
14 |
7.5 |
9.7 |
9.114 |
0.5723 |
预告片播放量 |
14 |
0.14970 |
6.17000 |
1.4657757 |
1.90578790 |
想看人数 |
14 |
16.5 |
62.1 |
38.686 |
14.3120 |
有效个案数(成列) |
14 |
|
|
|
|
春节档 |
累计票房 |
26 |
11.9800 |
54.1372 |
27.100662 |
12.9545034 |
评分(猫眼) |
26 |
7.7 |
9.6 |
8.954 |
0.5715 |
预告片播放量 |
26 |
0.04930 |
5.27000 |
0.9037662 |
1.27365604 |
想看人数 |
26 |
1.8 |
446.9 |
67.292 |
85.0036 |
有效个案数(成列) |
26 |
|
|
|
|
节日档 |
累计票房 |
26 |
11.6900 |
57.7524 |
19.880862 |
10.4272849 |
评分(猫眼) |
26 |
8.3 |
9.8 |
9.192 |
0.3475 |
预告片播放量 |
26 |
0.07436 |
2.42000 |
0.6251158 |
0.59756707 |
想看人数 |
26 |
2.7 |
142.5 |
40.162 |
32.7353 |
有效个案数(成列) |
26 |
|
|
|
|
Table 3. Descriptive statistics of the subject matter
表3. 题材描述性统计
题材 |
变量 |
N |
最小值 |
最大值 |
均值 |
标准偏差 |
剧情 |
累计票房 |
27 |
11.2700 |
57.7524 |
20.832311 |
11.3783605 |
评分(猫眼) |
27 |
2.7 |
114.6 |
42.204 |
28.6885 |
预告片播放量 |
27 |
0.01387 |
3.84000 |
0.6795137 |
0.81918656 |
想看人数 |
27 |
8.2 |
9.8 |
9.215 |
0.4400 |
有效个案数(成列) |
27 |
|
|
|
|
动作 |
累计票房 |
30 |
11.4900 |
56.9456 |
18.525520 |
9.7069364 |
想看人数 |
30 |
3.7 |
185.0 |
43.150 |
39.3140 |
预告片播放量 |
30 |
0.07436 |
6.17000 |
0.7859767 |
1.09498176 |
评分(猫眼) |
30 |
7.5 |
9.7 |
8.997 |
0.4796 |
有效个案数(成列) |
30 |
|
|
|
|
喜剧 |
累计票房 |
26 |
11.6000 |
54.1372 |
23.082585 |
11.1147912 |
想看人数 |
26 |
1.8 |
9.6 |
56.242 |
84.3466 |
预告片播放量 |
26 |
0.04930 |
5.27000 |
0.9532335 |
1.18212995 |
评分(猫眼) |
26 |
7.7 |
446.9 |
8.885 |
0.5182 |
有效个案数(成列) |
26 |
|
|
|
|
科幻 |
累计票房 |
4 |
14.6100 |
46.8700 |
29.687500 |
16.2937910 |
想看人数 |
4 |
25.2 |
145.1 |
80.975 |
61.2479 |
预告片播放量 |
4 |
0.30411 |
2.16000 |
0.8190025 |
0.89847330 |
评分(猫眼) |
4 |
8.6 |
9.3 |
9.025 |
.3096 |
有效个案数(成列) |
4 |
|
|
|
|
悬疑 |
累计票房 |
2 |
35.2300 |
45.4400 |
40.335000 |
7.2195602 |
想看人数 |
2 |
32.3 |
109.9 |
71.100 |
54.8715 |
预告片播放量 |
2 |
0.29961 |
0.34154 |
0.3205750 |
0.0264899 |
评分(猫眼) |
2 |
9.2 |
9.4 |
9.300 |
.1414 |
有效个案数(成列) |
2 |
|
|
|
|
犯罪 |
累计票房 |
2 |
12.7300 |
38.4800 |
25.605000 |
18.207996 |
想看人数 |
2 |
12.5 |
114.0 |
63.250 |
71.7713 |
预告片播放量 |
2 |
0.26819 |
0.41336 |
0.3407750 |
0.10265069 |
评分(猫眼) |
2 |
8.9 |
9.1 |
9.000 |
0.1414 |
有效个案数(成列) |
2 |
|
|
|
|
Table 4. Descriptive statistics of the playback format
表4. 播放形式描述统计
档期 |
变量 |
N |
最小值 |
最大值 |
均值 |
标准偏差 |
2D |
累计票房 |
11 |
11.2700 |
54.1372 |
19.889745 |
12.0441032 |
评分(猫眼) |
11 |
8.2 |
9.8 |
9.000 |
0.5459 |
预告片播放量 |
11 |
0.04930 |
2.42000 |
0.9781582 |
0.81009817 |
想看人数 |
11 |
2.3 |
116.2 |
51.500 |
40.2438 |
有效个案数(成列) |
11 |
|
|
|
|
3D |
累计票房 |
6 |
11.7300 |
59.9456 |
24.552600 |
17.8529788 |
评分(猫眼) |
6 |
8.4 |
9.7 |
9.050 |
0.5648 |
预告片播放量 |
6 |
0.13456 |
6.17000 |
1.7126250 |
2.33109182 |
想看人数 |
6 |
2.8 |
61.4 |
30.300 |
22.3571 |
有效个案数(成列) |
6 |
|
|
|
|
IMAX2D |
累计票房 |
48 |
11.2700 |
57.7524 |
22.782758 |
11.5102661 |
评分(猫眼) |
48 |
8.2 |
9.7 |
9.194 |
0.3322 |
预告片播放量 |
48 |
0.07436 |
5.27000 |
0.6198035 |
0.82396017 |
想看人数 |
48 |
5.5 |
446.9 |
52.558 |
65.5442 |
有效个案数(成列) |
48 |
|
|
|
|
IMAX3D |
累计票房 |
35 |
11.5800 |
50.3500 |
19.538571 |
9.8877456 |
评分(猫眼) |
35 |
7.5 |
9.6 |
8.891 |
0.5559 |
预告片播放量 |
35 |
0.01387 |
5.19000 |
0.8656109 |
1.08205048 |
想看人数 |
35 |
1.8 |
185.0 |
47.131 |
44.8756 |
有效个案数(成列) |
35 |
|
|
|
|
Table 5. Analysis of variance
表5. 方差分析
源(因变量:累计票房/亿) |
III类平方和 |
自由度 |
均方 |
F |
显著性 |
修正模型 |
7665.358a |
45 |
170.341 |
1.760 |
0.024 |
截距 |
19306.935 |
1 |
19306.935 |
199.441 |
0.000 |
档期 |
1448.174 |
3 |
482.725 |
4.987 |
0.004 |
题材 |
1573.009 |
7 |
224.716 |
2.321 |
0.038 |
播放形式 |
806.833 |
3 |
268.944 |
2.778 |
0.050 |
档期*题材 |
1711.223 |
11 |
155.566 |
1.607 |
0.123 |
档期*播放形式 |
109.025 |
7 |
15.575 |
0.161 |
0.992 |
题材*播放形式 |
943.238 |
7 |
134.748 |
1.392 |
0.228 |
档期*题材*播放形式 |
267.039 |
4 |
66.760 |
0.690 |
0.602 |
误差 |
5227.486 |
54 |
96.805 |
|
|
总计 |
58839.847 |
100 |
|
|
|
修正后总计 |
12892.844 |
99 |
|
|
|
由于题材、档期、播放形式的概率P值小于显著性水平α,可认为档期、档期对累计票房产生显著影响,播放形式影响次之。
2.4. 回归建模变量描述性统计分析
从2.3节可以看出题材、档期、播放形式对累计票房具有显著影响,本小节我们对用于回归建模的剩余10个变量进行描述性统计分析。
2.4.1. 变量直方图
从图1我们可以看出,累计票房、首日票房、上映首周票房和预告片播放量(亿)、想看人数(万人)的分布呈右偏形式,评分(猫眼)、平均票价、电影时长近似正态分布,而演员影响力、导演影响力、预算(万元)的分布较无规律,特别是预算几乎集中在一个值,说明我们搜集的数据大部分是合理的,少部分存在瑕疵。
2.4.2. 变量描述分析
从表6可以看出,累计票房的最大值为57.75亿元,最小值为11.27亿元,总体标准差为11.41,前100名的票房差距较为明显;评分最高的有9.8分,最低的有7.5分,但均值为9.0分,说明前100的电影评分都比较高;电影时长的均值在127分钟左右,此外,导演影响力和演员影响力的最大值和最小值之间的差距也比较大。
2.4.3. 相关性分析
1) 自变量与因变量的相关性
将累计票房按中位数划分为高低两组,从图2可以看出,累计票房高的电影在首日票房、首周票房、评分(猫眼)、预告片播放量(亿)和平均票价上均较高。而在剩余的4个变量(电影时长、演员影响力、导演影响力和预算(万元))中,高低票房之间没有明显差异。
2) 自变量间的相关性
根据自变量间相关性检测,发现想看人数、首日票房与其他变量之间存在较强相关性,故在回归建模时,排除这2个变量,用剩余8个变量建立回归模型(图3)。
Figure 1. Histograms of each variable
图1. 各个变量直方图
Table 6. Descriptive statistical analysis
表6. 描述性统计分析
变量 |
N |
最小值 |
最大值 |
均值 |
标准偏差 |
累计票房 |
100 |
11.2700 |
57.7524 |
21.435252 |
11.418688 |
首日票房 |
100 |
0.12792 |
10.11000 |
1.9077433 |
1.53615495 |
评分 |
100 |
7.5 |
9.8 |
9.058 |
0.4732 |
上映首周票房 |
100 |
0.54824 |
25.79000 |
6.9765330 |
5.28008305 |
平均票价 |
100 |
22.056992 |
50.791748 |
38.65400415 |
5.289758527 |
电影时长 |
100 |
93 |
194 |
127.79 |
20.906 |
想看人数 |
100 |
1.8 |
446.9 |
49.207 |
54.3066 |
预告片播放量 |
100 |
0.01387 |
6.1700 |
0.8108244 |
1.06597350 |
导演影响力 |
100 |
1 |
10 |
6.36 |
2.584 |
预算 |
100 |
140 |
503500 |
10884.55 |
50168.219 |
演员影响力 |
100 |
0 |
9652 |
3032.39 |
2815.408 |
有效个案数 |
100 |
|
|
|
|
3. 回归模型理论
3.1. 逐步回归模型(Stepwise Regression)
逐步回归是一种在构建回归模型时,通过逐步选择或删除自变量的统计方法。其目的是找到对因变量有显著影响的自变量,从而构建最优回归模型。该方法逐个引入自变量,每次选择对因变量影响最显著的变量,并对现有自变量进行显著性检验,剔除不显著的变量。最终,回归方程中既包含对因变量显著影响的自变量,又剔除不显著的自变量。主要有三种方法:前进法(FORWARD)、后退法(BACKWARD)和逐步筛选法(STEPWISE) [4]。
Figure 2. Box plot of independent and dependent variables
图2. 解释变量与因变量箱线图
Figure 3. Correlation relationship among independent variables
图3. 自变量间相关关系
3.2. 对数回归模型
对数回归模型是一种通过对因变量或自变量进行对数变换以建立变量之间线性关系的回归分析方法。简单的二元线性模型可以有四种涉及对数的变换组合[5]:
1) 线性情况:没有对任何变量进行变换,采用标准的线性回归模型;
2) 线性–对数模型:自变量保持线性形式,而因变量进行对数变换;
3) 对数–线性模型:因变量保持线性形式,而自变量进行对数变换;
4) 对数–对数模型:对因变量和自变量均进行对数变换。
3.3. 模型检验
3.3.1. QQ图检验
学生化残差
的正态QQ图的基本步骤如下[6]:
1) 将学生化残差
由小到大排序为
,则各
是数据的i/n分位数;
2) 对每个
,计算标准正态分布
的i/n分位数
,即
(1)
其中
表示标准正态分布的分布函数,而0.375和0.25是常用的修正量;
3) 在直角坐标系中描出每个点
,则此散点图被称为学生化残差的正态QQ图;基此QQ图,若散点
明显不在一条直线上,则有理由怀疑残差(从而误差)服从正态分布的合理性;否则,则没有理由拒绝误差分布的正态性假设。进一步,我们可以基于数据点
和
之间的相关系数:
(2)
来度量二者之间线性关系的强弱,其中
,
。若
比较接近于1,则说明散点
大致在一条直线上。
3.3.2. Cook距离
著名的统计学家库克(D.R. Cook)想出了一个非常巧妙的办法。他说可以为每一个样本打分,给影响力特别大的样本打高分,给影响力不大的样本打低分,然后就可以根据分值高低判断谁是“捣蛋鬼”。该打分后来被人们称作Cook距离(Cook’s distance),其定义如下[7]:
(3)
式中,
是设计矩阵(design matrix)。可以通过对比不同
的相对大小,对各个样本的影响力做出大概判断。如果发现,有少数一两个样本的Cook距离特别大,那么应该考虑将此类样本剔除后,重新拟合回归分析。将新的结果同全样本结果做详细对比,再结合经验做出主观判断。
4. 模型应用与结果
在描述分析的基础上,将进一步分析因变量对电影票房之间的关系。首先将数据按80%训练集和20%测试集划分,在训练集上进行逐步回归,以挑选合适的变量[8]。
逐步回归结果如表7所示。根据AIC准则[9],我们发现某些变量对AIC的贡献不大,因此决定剔除变量(电影时长)和(导演影响力)。尽管P值显示的某个变量的重要性较低,但在逐步回归中未被自动筛选出来,因此我们将手动删除该变量,以优化模型。
Table 7. Stepwise regression process
表7. 逐步回归过程
步骤 |
自由度 |
RSS |
AIC |
选择的变量 |
0 |
8 |
2912.9 |
305.59 |
|
1 |
7 |
2914.1 |
303.62 |
|
2 |
6 |
2988.3 |
303.64 |
|
在训练集上建立对数–对数线性回归模型:
(4)
相关参数及检验结果如表8所示。模型整体的F检验高度显著(P值 < 0.001),表明至少有一个解释变量与因变量显著相关,同时调整后的R2为0.523。在T检验结果中,除了最后一个解释变量预算,其余系数在1%的显著性水平下均显著不为零,预算的P值为0.982,显示高度不显著。
Table 8. Log-Log regression model results
表8. 对数-对数回归模型结果
变量名称 |
回归系数 |
标准误差 |
P值 |
方差膨胀因子 |
截距项 |
−6.604 |
1.657 |
<0.001 |
---- |
上映首周票房 |
0.234 |
0.053 |
<0.001 |
1.516 |
评分(猫眼) |
2.756 |
0.676 |
<0.001 |
1.030 |
平均票价 |
0.870 |
0.279 |
<0.001 |
1.291 |
预告片播放量 |
0.101 |
0.032 |
<0.001 |
1.062 |
预算(万元) |
0.101 |
0.028 |
0.982 |
1.217 |
模型全局检验 |
P值 < 0.001 |
---- |
调整的R2 |
0.523 |
此外,五个解释变量的VIF值均小于2,这意味着不存在多重共线性问题,因此可以排除共线性导致预算不显著的可能性。模型检验结果如图4所示,表明模型具有良好的拟合效果。
Figure 4. Test results
图4. 检验结果
最后在测试集上,根据AIC和BIC准则做模型选择,结果如表所示模型:
(5)
其中AIC和BIC的回归结果一致,都只保留了上映首周票房、评分(猫眼)、平均票价和预告片播放量(亿),而P值过高的预算则被抛弃。这个结果与前面的T检验结果一致,均表明上映首周票房、评分(猫眼)、平均票价和预告片播放量(亿)都是高度显著的变量,而预算不显著。在控制其他变量不变的情况下,可以得出结论:上映首周票房越高、评分(猫眼)越高、平均票价越高和预告片播放量(亿)越高的电影,其票房也越高。这进一步印证了这些因素对票房的积极影响(表9)。
Table 9. AIC and BIC regression model results
表9. AIC和BIC回归模型结果
变量名称 |
AIC回归系数 |
P值 |
BIC回归系数 |
P值 |
截距项 |
−6.601 |
<0.001 |
−6.601 |
<0.001 |
上映首周票房 |
0.234 |
<0.001 |
0.234 |
<0.001 |
评分(猫眼) |
2.767 |
<0.001 |
2.767 |
<0.001 |
平均票价 |
0.870 |
<0.001 |
0.870 |
<0.001 |
预告片播放量 |
0.100 |
<0.001 |
0.100 |
<0.001 |
预算(万元) |
----- |
----- |
----- |
----- |
模型全局检验 |
P值 < 0.001 |
P值 < 0.001 |
调整的R2 |
0.529 |
0.529 |
5. 结论与建议
5.1. 结论
综上分析,我们发现档期,题材,播放形式,上映首周票房、评分(猫眼)、平均票价、预告片播放量(亿)这7个变量对票房具有显著影响。题材方面:累计票房前100的电影中动作和喜剧电影居多;播放形式方面:3D和2D/IMAX电影有票房优势;档期方面:春节档居多且票房高。导演粉丝数对于电影票房不存在很大的影响,不知名的导演一样可以拍出票房过亿的电影;票房较高的电影得分也较高。
5.2. 建议
合适的档期选择至关重要,避免与其他大片竞争,并利用节假日和观影热情高涨的时段以提升票房。题材方面,根据观众口味和市场需求选择热门题材或与当前社会热点相关的内容可更容易吸引观众。播放形式上,考虑IMAX、3D等选项可以吸引更多观众,进一步提高票房。首周票房是评判电影口碑和热度的重要指标,需通过宣传和营销提升。合理控制平均票价,以兼顾吸引观众和保证收入,过高的票价可能影响观众选择。此外,制作精良的预告片并广泛传播可增加观众关注,提高期待感。最后,提升影片质量,确保剧本、制作和演员水平,并利用社交媒体及影评人促进正面评价,及时回应观众反馈以解决负面评论,对于票房的成功至关重要。