1. 引言
网球作为一项全球性的竞技运动一直以来广泛受到人们的关注。随着时代的变化以及数据科学的发展,以往通过人工观察和分析的方法难以准确评估比赛的结果,因此利用数据分析技术对网球比赛进行客观、全面、深入的分析已经成为了一种必要的趋势和发展方向 [1] 。本研究将球员在比赛中抽象的势头量化为势头得分,得分高者取得本场比赛的胜利。通过LASSO回归建立势头得分与影响势头得分的各指标之间的关系,根据回归结果可以对参加比赛的球员提供一些实质性的建议;同时LASSO回归得到的具体的势头分作为BP神经网络的输出,建立起多指标的输出关系,用LSTM对BP神经网络输出残差进行预测,得到较为精准的势头得分。通过势头分的高低判断球员比赛的状态,便于教练在赛场上及时做出决策,以此提升选手的表现,取得更优异的成绩。
2. 数据预处理
通过澳大利亚网球公开赛官网搜集球员比赛的指标,查阅相关文献后选定指标如下:ACE、破发率、非受迫性失误、一发成功率、一发得分率、二发成功率和双误,共七个变量,构建出如图1的三级指标体系。
为验证各指标之间的关联性,我们选取了2023年温布尔登男单决赛中五组比赛数据,对各指标进行斯皮尔曼相关系数的相关性检验,我们得到如图2所示的热图。
从图2中发现,这几个指标的相关性都很强,故将这七个指标作为衡量球员表现的重要因子。
介于三级指标体系中各指标大多数为定性变量,为方便后续计算与模型的建立,我们对部分指标进行量化,我们定义:
在每盘网球比赛中:
一发成功率 = 一发的个数/发球总数
一发得分率 = 一发得分数/一发个数

Figure 1. Three-level index system that affects player performance
图1. 影响球员表现的三级指标体系

Figure 2. Heat map of correlation of indicators at all levels
图2. 各级指标相关性热图
二发得分率 = 二发得分数/(发球总数 − 一发个数)
破发率 = 我方得分数/对方发球总数
3. LASSO回归势头得分的建立
3.1. 提出势头得分概念
网球比赛中各球员的势头是难以预测的,波动性较大,且势头本身是一个比较抽象化的概念,随着每场比赛时间的推移,应用系统响应时间的变化规律复杂多变 [2] 。为进一步建立数学模型,我们将势头概念量化,引入势头得分这一概念。我们将各球员表现的势头分作为衡量比赛中各球员的优势转向。依据P1 − P2的基本准则,若P1在本局比赛中势头分高,即P1 − P2 > 0,则优势转向P1,反之亦然。
3.2. 建立LASSO回归
为提高势头分定义的准确性,我们将破发率、二发得分率、一发成功率、一发得分率、ACE和双误这六个相关系数较高的指标作为自变量,势头得分作为因变量,并对二者进行LASSO回归,引入惩罚项识别模型中相对不重要的因子。
LASSO回归表达式如下:
其中MS代表势头分,BR代表破发率,FSS_success代表一发成功率,FSS_score代表一发得分率,SSS代表二发得分率,ACE代表通过使对手无法回发球而发球得分的个数,DF代表双误。
通过LASSO回归表达式我们可以计算出各选手在比赛任意一局的势头得分,这有助于评估选手当前的比赛状态和势头优劣。教练可以根据这些预测结果,及时调整战术和策略,以应对不同的比赛情况。例如,当发现对方选手势头得分较高时,可以采取防守策略;当自己选手势头得分较高时,可以采取进攻策略。
4. BP-LSTM时间序列预测模型的建立
为了进一步预测网球比赛的比赛结果,我们引入了BP-LSTM时间序列模型,将势头得分的高低作为比赛输赢的依据,结合上述六个指标进行结果预测,可以得到更具有解释性和预测准确性的模型。在这个模型中,BP神经网络负责提取非线性特征,LSTM负责处理时间序列数据,结合起来可以更好地捕捉比赛中势头得分的变化和趋势,从而更准确地预测比赛结果。
Step 1:
考虑到多指标输入和双方势头分输出的多样性,引入BP神经网络算法,BP神经网络的数学表达式如下:
(1)
在我们建立的神经网络模型中,输入层为三级指标体系中的ACE,DF,FFS_success,FFS_score,SSS,BR,UE等7个指标,输出层为P1和P2在LASSO回归处理下对势头得分的量化。
其中输入层到隐藏层的权重值为W,偏置项为b1,激活函数为g1;隐藏层到输入层的权重值为V,偏置项为b2,激活函数为g2。
输入层到隐藏层:
(2)
隐藏层到输出层:
(3)
损失函数:
(4)
然而在真实的训练过程中,BP神经网络算法中隐藏层中的神经元个数是难以确定的,我们一般通过经验获取得到,但是隐藏层神经元的个数对神经网络的收敛性,准确性和收敛速度有着很大的影响,我们只能通过不断调整隐藏层神经元的个数和训练样本的数量来确定最后迭代的次数。
我们将数据导入到MATLAB中,通过不断调整迭代的系数,最后将隐藏层的神经网络参数定为20个,具体的神经网络参数如图3。
为了提高最后预测结果的准确性,我们使用70%的数据作为训练集,15%的数据作为验证集,15%的数据作为测试集,随着迭代次数的不断增加,误差不断地减小,当迭代次数达到51次时,训练组的均方误差(MSE)达到最小为0.3977,训练停止。
从训练结果可以看出测试集的训练结果达到0.99,如图4,因此我们可以认为BP神经网络可以很好的预测各球员的势头得分,记为
。
Step 2:
为了提高模型的准确性,我们将使用LASSO回归得到的势头分与BP神经网络预测的势头分相减得到残差,作为输入在LSTM模型如图5中训练,从而得到势头分的预测残差。
最终得到非线性部分残差的预测值,其数学表达式如下:
(5)
其中
为残差。
将
和
相加可以得到最终预测结果:
(6)
从图6中可以近似看出,BP混合LSTM神经网络组合模型加强了神经网络对时序数据的反应能力,使得预测结果与真实结果的拟合度达到更高的水准 [3] 。表1为单独用BP神经网络进行预测的结果与BP-LSTM组合模型对比赛输赢的预测结果比较,BP预测结果的准确率为85%,BP-LSTM的准确率为90%如表1,由此可见BP混合LSTM神经网络组合模型的正确率更高。

Figure 6. Comparison of BP (left) and BP-LSTM (right) with prediction results
图6. BP(左)与BP-LSTM(右)与预测结果比较

Table 1. Predicting match results with BP vs. predicting match results with BP-LSTM combination
表1. BP预测比赛结果与BP-LSTM组合预测比赛结果
5. 给进入比赛的球员的建议
网球比赛的外在表现形式是战术,而内在则为策略 [4] ,因此需要球员在进入比赛前就了解何为比赛的制胜因素,以便在比赛过程中及时调整策略,提高比赛的胜率。
为了能更进一步直观显示出哪些指标对势头得分的影响最大,我们另选了本场比赛其余选手的比赛数据,建立起了具有泛化性的LASSO回归模型,各指标的回归系数相当于在每场比赛中影响各球员势头的重要程度。
(7)
从该回归系数我们可以推断势头分与破发率、一发得分率、二发成功率成正相关,其中破发率对势头分的影响最大,一发得分率次之,势头分与双误成负相关。

Table 2. Momentum Scores for Players in the 20th and 25th games
表2. 第20局和第25局各球员比赛势头分
(1) 结果
从表2中我们可以得到在第20局比赛中,球员P2的势头分为0.22681,球员P1的势头分为0.2117,球员P2以略微的优势赢得了球员P1,在第25局比赛中,球员P1的势头分为0.2532,球员P2的势头分为0.148,球员篇以将近0.1分的优势赢了球员P1。
(2) 分析
通过分析数据我们发现当球员作为发球方时,赢得的几率更大,但并不是作为发球方就一定能够获胜,同时要提高发球的质量,降低双误的几率;而对于接发球方,并不是坐以待毙,若是能掌握接发球技巧,乘胜追击,同样能提高获胜的几率。在第20局中,P2即使作为发球方,但是发球质量不够高,并且有一次双误,给了对方球员P1反追的机会,因此P1较于P2只有略微优势。在第25局中,P1作为发球方,提高了发球质量,P2虽然成功破发对方一个球,但是介于对方发球质量相对较高,所以P1优势遥遥领先于P2。
(3) 建议
通过查找资料,以及在各大比赛中网球球员所用策略,我们建议:
a) 提高发球质量,运用发球优势凸显进攻意识
全面提高发球质量,一发时以平击发球为主,突出速度优势,二发时提高旋转运用能力,注意落点的变化 [3] ,在此基础上提高发球稳定性。
b) 提高接发球质量,缩短攻守转换时间
改变“打回去就好”的战术指导思想,争取利用一切机会主动发起进攻。
6. 结论与展望
随着数字化的发展,利用数字分析技术对网球比赛进行全面分析已经成为发展的趋势。本研究提出利用LASSSO回归计算出球员在比赛中的势头得分,经验证,本方法具有一定的可靠性,再通过BP-LSTM混合模型对比赛结果进行预测,得到了较高的准确率,说明通过比赛数据对比赛结果进行预测的可行性。同时,我们选取了其它几组比赛的数据进行LASSO回归,基于LASSO回归结果我们分析给出了各球员在进入比赛时的策略建议。
本文提出的模型能够量化球员在比赛过程中的势头,较为准确地预测出本场网球比赛的赛果,通过LASSO回归自动进行特征选择,利用惩罚项将模型中不重要的特征系数置零,从而得到影响势头得分的重要指标模型。使用BP-LSTM预测势头得分,通过BP神经网络引入更多相关特征,提供更全面的信息,从而提高预测模型的准确性和稳定性。通过比较和综合不同模型的结果来降低预测的不确定性,提高了结果预测的可信度。此外,深入地评估比赛不同时刻球员所表现出的势头得分,可以帮助教练及时在比赛中制定合理的战术决策,增加取得本场比赛胜利可能性,赛后还能通过比赛数据分析最相关的绩效指标,为运动员制定个性化训练。