1. 引言
体育赛事在人们的日常生活中有着越来越重要的影响,伴随着体育赛事的兴起,大量的体育数据被统计记录下来,如何更好的利用这些体育数据也成为一个重要的研究方向,体育统计随之发展起来。在体育统计领域,机器学习和数据挖掘的应用也越来越广泛 [1]。用过去和现在的数据去分析球员的能力一直有很多的研究,特别是在篮球领域 [2] [3]。利用这些数据通过多种方法去进行预测和分析比赛的结果也变得越来越普遍 [4]。在篮球领域,NBA (National Basketball Association)是其中发展较为职业化,国际影响力较大,品牌影响力较强的一个联盟,对于NBA的统计分析有着很强的需求。NBA非常注重体育赛事数据的收集,也非常注重这些数据的应用。NBA的数据有着很多方面的应用,例如球员的价值分析、常规赛MVP预测和季后赛预测等等。在众多的分析中,NBA季后赛的预测是一个重要的方面,NBA季后赛是球队一个赛季努力的目标,进入季后赛的球队可以获得球场的门票收入和更大的知名度从而获得巨大的商业价值。
NBA季后赛是NBA常规赛成绩排名靠前的球队进行综合角逐的比赛。具体来说NBA共30只球队,东西部各15只,东西部分别排名前8的球队进入季后赛。NBA的季后赛通常分为四个阶段,分别为季后赛第一轮的比赛、分部准决赛,分部决赛以及NBA总决赛。对于一场系列赛来说影响球队胜利的因素有很多,包括球员、教练、主客场以及球队的健康情况等。教练是球队的指挥者,球员是球场上的竞争者,王明新通过分析2015-16赛季总决赛的制胜因素认为教练是一轮系列赛制胜的关键,球队的攻防战术也是胜负的核心影响因素 [5]。勒勇等通过分析2005-06赛季总决赛的数据,认为总决赛的制胜因素为投篮命中率、三分命中率、篮板球、助攻、盖帽等技战术水平发挥水平、球星的数量和质量以及主教练的总决赛经验和心理调节能力 [6]。
NBA的季后赛预测实际是一个二分类的问题,针对分类问题常见的学习算法有逻辑回归、朴素贝叶斯、支持向量机、随机森林等监督学习算法和半监督聚类、半监督SVM等半监督学习算法。邱胜等将2004到2006三个赛季的常规赛数据从球员、球队、主客场三个大的方面进行整理后建立逻辑回归和贝叶斯模型进行季后赛的预测,其认为主场优势对于胜负有着较大的影响,其提出并采用了一个新的因子分析计算方法评估球员的能力优于Oliver的公式 [7] [8]。Galsanbadam等通过支持向量机回归、多项式回归和决策树回归的方法评估了个人球员的表现对球队胜率的影响 [9]。Cheng等通过建立NBA极大熵模型来预测NBA季后赛的胜负 [10]。曾磐和朱安民通过建立多个指标来评估球队实力然后将SVM方法运用到季后赛胜负的预测当中,提出了球队的综合实力由球队的常规赛得分,球队的核心球员综合得分、主教练水平以及主客场因素四部分数据组成,取得了很好的预测效果 [11]。半监督的学习算法在一些分类问题中有着很好的应用。半监督聚类作为半监督学习算法的一类,其相比于传统的聚类能够更好的利用已有的信息来达到聚类的效果,半监督聚类可以同时利用有标签和无标签的数据来进行聚类 [12]。
本研究根据球队常规赛的战绩、球员的评价数据以及教练的历史执教数据构建出球队的综合评价数据。针对综合评价数据构建半监督聚类模型,季后赛第一轮对局的两只球队必须是一胜一负,这自然的就可以给出勿连约束。根据历史统计数据可以给出必连约束。构建模型以后可以将数据分为两类,根据历史数据可以给出每个类别的标签。预测结果表明季后赛第一轮的预测采用半监督聚类的方法具有很好的效果。
2. 数据组织
2.1. 数据来源
本文所用数据为2020-21赛季季后赛数据,来自于NBA权威的统计网站,包括NBA官方网站www.nba.com、娱乐与体育节目电视网www.espn.com/nba/和体育统计网站www.basketball-reference.com/。NBA官方网站提供了球队常规赛期间每场比赛详细的统计数据,其中包括常规赛比赛得分、篮板、助攻等等一系列数据。ESPN提供了球员的评价得分,其所用的RPM (Real Plus-Minus)指标在球员评价方面认同度比较高,RPM是考虑队友、对手以及其他因素基础上以每百回合中进攻和防守的净得分衡量球员在场上对球队表现影响的得分值,ESPN提供的球员指标包括球员的进攻评价得分和防守评价得分,以及球员的综合评价得分等等。Basketball-reference网站提供了教练当前赛季及历史赛季的执教表现,包括教练执教的年份、常规赛执教场次、常规赛执教胜利场次,常规赛执教失败场次,常规赛执教胜负场次之比、季后赛执教场次、季后赛执教胜利场次、季后赛执教失败场次,季后赛执教胜负比,季后赛执教获得分区冠军数以及季后赛执教获得总冠军数等。
2.2. 数据预处理
采集的原始数据为球队单场比赛的数据以及NBA历史上所有教练的执教数据和每个球员的评价值,不能综合的体现一只球队的实力。对于季后赛第一阶段的建模来说,可将原始数据整理汇总后分为三个大的方面来进行呈现:第一部分为球队的综合实力,主要运用球队常规赛期间的数据进行整理得到;第二部分为教练的执教水平,通过球队教练历史的执教数据整理获得;第三部分为球员实力的衡量,通过ESPN获取的球员赛季能力评价整理获得。以上三个方面能够较为全面反映出球队的实力水平。各个部分具体的内容见表1。
本文所用数据中球队的综合实力是由2020-21赛季常规赛期间球队各场比赛数据汇总得到。球队的常规赛胜率是球队的胜场数与比赛总场次之比,主客场胜率wh和la分别是球队主客场胜利的场次与主客场场次的比值,以上三个指标在一定程度上反映了球队的综合实力。t2到t19是球队赛场上数据的汇总平均值。场均得分t2是球队常规赛期间球队得分均值,反映了球队的得分能力,场均投篮相关数据命中数t3、投篮数t4及命中率t5是球队的进攻能力。场均三分的相关数据是球队三分出手数t6、命中数t7和命中率t8衡量球队三分线外的进攻能力,在现在NBA的“小球时代”,球队的三分投射能力是十分
重要的进攻得分手段。场均篮板t12是衡量球队对于篮板控制能力的指标,场均前场篮板t13是指球队进攻方向得到的篮板,场均后场篮板t14是指球队防守方向得到的篮板,获得前场篮板可以拥有二次进攻的机会,获得后场篮板往往意味着成功的防守。场均罚球相关数据t9~t11可以衡量球队突破及进攻篮下的能力。场均助攻t15是衡量得分前球的轮转次数。场均抢断t16和盖帽t17都属于衡量球队防守能力的指标。场均失误t18是球队失误数的平均值,场均犯规指标t19是球队每场犯规数的平均值,犯规和失误都是球队想要尽力减少的,球队过多的犯规和失误会导致对手得到更多的球权甚至是直接获得得分。
教练是球队的指挥者,每个教练都有自己的带队方式,例如有些侧重防守,有些侧重进攻,有些重视三分等等。历史常规赛执教场次CRG衡量教练常规赛经验水平,教练常规赛正负比CRW/L是教练常规赛执教场次中胜场数与负场数之比,比值越大代表胜场数越大,教练的常规赛执教水平越高。教练季后赛执教场次CPG是教练在季后赛的执教场次,教练季后赛执教胜负比CPW/L是教练季后赛执教场次中胜场数与负场数之比。季后赛期间两只球队的竞赛实行的是七局四胜制,这更加考验教练的排兵布阵能力,季后赛的比赛强度比较大,球员更容易疲劳甚至受伤,教练的季后赛场次和季后赛的胜负比能够体现教练的季后赛执教水平。教练获得总冠军次数CPC是教练过往赛季作为主教练获得总冠军的次数,获得总冠军的教练往往拥有更多的季后赛经验。NBA的常规赛和季后赛是两种不同的竞赛方式,常规赛期间由于要磨合不同的阵容或者是让新加入球队的球员能够熟悉整个球队运行方式等原因,常规赛期间的教练成绩并不更够完全衡量教练的执教水平,因此可以加入季后赛的相关数据衡量教练的真实水平。
球员是球队真正上场比赛的人,球员的能力主要分为进攻能力和防守能力两大部分。ESPN网站提供了球员常规赛结束以后其在整个赛季期间的进攻能力、防守能力以及综合能力评价得分,综合能力是指球员在场期间的效率值。一般来说一只球队的大名单中只能拥有十五人,不包括双向合同可以签订的两名球员,季后赛开始后上报整个球队球员的上场名单,名单中只能有12人,也就是季后赛每场比赛最多只能有12人上场轮换,一场比赛教练所使用的真正上场的球员往往在十人左右,而且球队中真正的主力球员在两或三人以内,约占队伍的百分之二十。球员常规赛进攻表现占前百分之二十的人数ORPM_num是将所有球员的进攻评分进行排序后统计球队进入前百分之二十的人数。球员常规赛防守表现占前百分之二十的人数DRPM_num是将所有球员的防守表现评分进行排序后统计球队中进入前百分之二十的人数。球员常规赛进攻表现前十的综合评分ORPM_total是将球队中所有球员的进攻表现得分排序,然后将排名前十的球员得分进行加总。球员常规赛防守表现前十的综合得分RPM_tota是将球员防守得分排序后取前十加总。球员常规赛综合表现评分WINS_total是将综合表现得分排序取前十加总。球员常规赛真实的正负值是指球员在场时净胜的效率值,将其排序后将排名前十的球员真实正负值进行加总得到球员常规赛真实的正负值前十的球员的综合评分。
3. 数据描述性统计
WorL变量代表球队在2020-21赛季NBA季后赛第一轮比赛中的胜负。将季后赛第一轮建模的数据加入WorL变量后计算各个变量以及胜负变量的相关关系,统计结果见表2。

Table 2. The correlation between first-round playoff data and team wins and losses
表2. 季后赛第一轮数据与球队胜负相关性
季后赛第一轮的胜负与球队常规赛胜率t1的相关系数为0.81,球队常规赛的胜率可以体现球队的综合实力。在第一阶段的比赛中,由于采取的是东西部前八名进行对战,第一名对战第八名、第二名对战第七名、第三名对战第六名、第四名对战第五名,且排名前四的球队有着主场优势,所以球队常规赛战绩好的球队往往更能够获得季后赛第一轮的胜利。球队的主场优势Hca与季后赛第一轮胜负的相关关系为0.63,球队常规赛主场胜率wh与季后赛第一轮的胜负的相关关系为0.67,球队常规赛客场胜率la与胜负的相关关系为0.55,球队的主客场会影响球队的胜负,球员在主场由于环境等影响往往会有更好的发挥,主场也会有裁判在裁决尺度上的优势,裁判的判决有很大的人为因素,主场作战的球队由于各种因素往往具有主场优势。
季后赛第一轮的胜负与球队常规赛场均得分t2的相关系数为0.57、与球队常规赛场均投篮命中率t5的相关系数为0.71、与球队场均三分命中率t8的相关系数为0.58,球队常规赛的场均得分反映了球队的进攻能力,篮球是一个攻防相对的比赛,进攻能力和防守能力对于比赛的影响都很重要,当前时代的篮球和以前的篮球也有着很大的不同,自从勇士队崛起以后,小球时代成为了主流,三分投射能力对于球队的胜负非常关键,三分的投射能力能够拉开空间,这样球员在场上就会有更多的突破还有施展战术的机会,同时三分的投射会造成更多的长篮板,这样就能获得更多的进攻篮板进而获得二次进攻的机会。
球员常规赛综合表现前十的综合得分DRPM_num与胜负的相关系数为0.72。球员综合表现前十的综合得分DRPM_total是对球员进行综合评价后将球队中综合排名前十的球员的综合得分进行加总的总分值,虽然简单的加总不能准确的反映球员在场上的表现,但是能够反映一只球队球员相对其他球队球员的实力,球员是球场上的关键人员,也是执行教练战术的人,球员的综合实力与球队能否取胜有着很大的关联,球员的正常发挥和正确执行战术是球队取胜的关键因素。季后赛第一轮的胜负与球队真实的正负值前十球员的加和的相关关系为0.71,球队真实的正负值是指一个球员在球场上抛去其他因素以后在场的净胜分,也是反映球员实力的指标,对球队的胜负有着很大的影响。
将表2中季后赛第一轮数据与球队胜负相关系数高度相关和中度相关的变量绘制箱线图见图1。从图1中可以看出季后赛第一轮胜利的球队其球队常规赛的胜率比较高,数据较为集中且为右偏分布。胜利的球队常规赛场均投篮命中数较多,总的投篮命中率以及三分命中率也较高。相比较输掉比赛的球队,胜利的一方无论是主场胜率还是客场胜率都比较高,其球队常规赛表现前十球员的综合评分与球队常规赛真实的正负值前十球员的综合评分也较高。

Figure 1. Boxplots of WorL and the variables of moderate correlation and high correlation
图1. 季后赛第一轮胜负与中高度相关关系变量的箱线图
4. 半监督学习原理概述
半监督学习相对于传统的监督学习有着明显的优点和实用性。监督学习方法要求数据拥有全部的数据标签,这对于一些实际问题却是很难实现的,获取大量有标签的数据有时需要耗费大量的人力物力,也有时候获取标签是无法实现的,这时半监督学习的优点就体现出来了,半监督学习可以通过有标签的部分数据来提升学习性能,从而达到构建模型的目的。
半监督聚类是半监督学习的一种,通常分为两类。第一类是建立“必连”和“勿连”约束的半监督聚类,必连是指定某些样本属于一类,勿连是指定某些样本不属于一类。第二类是对于一组数据,只有其中一部分数据知道其标签,对于部分标签的数据训练建立模型,并且对数据中未有标签的那部分数据进行预测。典型的半监督聚类算法有COP-Kmeans (Clustering Using Boosted Constrained k-Means)、改进的LCOP-Kmeans (Linked Cop-Kmeans)、Seeded-Kmeans和MPCK-Means (Metric learning and pairwise-constrained k-means)等,本文所使用的算法为COP-Kmeans和MPCK-Means,并将其简写为ckmeans和mpckm。算法流程如下:
算法1:(基于约束的半监督聚类)
输入:样本集
;
必连约束集合M;
勿连约束集合C;
聚类簇数
;
过程:
① 初始化种子
;
② 计算每一部分的均值
;
③ 将每个数据点分配给
最小的簇;
④ 检测将
划入聚类簇中是否会违背M与C中的约束;
⑤ 更新每个簇的均值,
;
⑥ 重复3、4、5步骤直至收敛;
⑦ 输出聚类结果。
5. 建立模型
聚类通常是一种无监督的算法,但是有时候我们能够知道一些先决的信息,这时可以利用这些先决信息建立半监督的学习算法从而获得更好的学习效果。在NBA季后赛第一轮的预测中一共有十六只球队共八组对局,我们所知道的先验信息就是两只球队之间必须是一胜一负,即作为对手的两只球队,分别属于不同的簇。

Table 3. The correlation between first-round playoff data and team wins and losses
表3. 季后赛第一轮数据与球队胜负相关性
通过表3中的数据可知,在NBA2011到2019共九个赛季季后赛第一轮东西部第一分别与各自分部的第八进行的18场比赛中,只有2011-12赛季芝加哥公牛在与第八名对局的过程中被逆转,也就是说在过去的九个赛季中只有5.56%的概率会发生黑八,黑八指在NBA季后赛的第一轮系列赛中排名第一的球队在于排名第八的球队的系列赛中输掉比赛没有晋级,在NBA的近些年的历史上也很少有黑八现象的发生,季后赛第一轮的比赛情况是由球队的常规赛的战绩决定的,在常规赛的比赛过程中,球队的实力虽然不能完全体现在球队的统计数据中,但是排名靠前的球队在实力上还是明显强于排名靠后的球队,东西部第一与第八的实力差距明显。
由于2020-21赛季首次采用附加赛的赛制,也就是进入东部与西部中的第7、8名是由各自分区的第7、8、9、10竞争得到的,具体的赛制为常规赛战绩排名的第7名与第8名角逐,胜者获得第7名的位次,同时进行的还有第9与第10名的角逐,第7名与第8名角逐中的败者与第9与第10名的角逐中的胜者角逐第8名。以上的附加赛赛制对于2020-21赛季以前的比赛没有影响,对于当前赛季的影响是西部联盟的金州勇士被淘汰,孟菲斯灰熊获得了西部第八进入了总决赛。附加赛结束后的成绩排名见表4,表4中括号里面为球队的英文名称缩写。
在半监督聚类模型的构建构成中,根据表3中的历史数据,可以给出“必连”(must-link):东部第一和西部第一在一个簇中,也即费城76人和犹他爵士在一个簇中。模型中的“勿连”(cannot-link)是指每两只对局的球队在不同的簇中,季后赛第一轮采取的对局方式为第一名对阵第八名、第二名对阵第七名、第三名对阵第六名、第四名对阵第五名,东西部两个联盟分别进行比赛,这也构成了勿连约束。勿连约束M与勿连约束C如下,设定聚类簇数K = 2构建模型。
必连约束集合M = {(费城76人,犹他爵士)}。
勿连约束集合C = {(费城76人,华盛顿奇才),(布鲁克林篮网,波士顿凯尔特人),(密尔沃基雄鹿,迈阿密热火),(纽约尼克斯,亚特兰大老鹰),(犹他爵士,孟菲斯灰熊),(菲尼克斯太阳,洛杉矶湖人),(丹佛掘金,达拉斯独行侠),(洛杉矶快船,达拉斯独行侠)}。
R语言的SSLR包提供了半监督聚类算法。通过SSLR包构建ckmeams和mpckm,然后对于分类的结果定义东部第一和西部第一所在的类为胜者组,另一组相应的为败者组,预测结果见表5,表5中显示的是表4中球队的英文名缩写。ckmeans计算预测准确率为16/16,mpckm预测的准确率为14/16,每两只球队为一场对局,将预测结果转换为对局形式再次计算准确率,ckmeans计算预测准确率为8/8,mpckm预测的准确率为7/8。
半监督的学习算法在NBA季后赛第一轮的预测中有很好的适用性,第一轮的比赛对于半监督聚类的模型可以给出勿连和必连的限制条件,同时能够给予划分出来的类一个标签。这些前提条件能够完美满足半监督聚类的设定。第一轮比赛中对局的双方很多比赛都有着很明显的差距,第一轮的对局中是东西部第一与第八进行比赛,第二与第七,第三与第六,第四与第五,除东西部第四与第五的比赛外,其余实力差距过大,这样在做聚类进行二分类时会有更好的结果,在这其中对于球队的评价也是一个重要的方面。

Table 5. Semi supervised prediction results
表5. 半监督预测结果
6. 结论与展望
季后赛的预测实际是一个二分类问题,本文将半监督聚类算法应用在NBA季后赛第一轮的预测中,其中构造球队相对实力的准确评价数据是建立模型的基础,只有正确的或者是相对正确的对于球队给出球队的综合能力评价指标与其值才能在一个实用的模型中得到较好的结果。本文所使用的数据从球队、教练和球员三个大的方面进行呈现,球队部分的数据主要从球队当前赛季常规赛数据组织得到。教练部分的数据是截至到当前预测季后赛开始前球队教练的执教数据,球员部分的数据是球员当前赛季综合评分整理得到的,针对整理的数据建立半监督模型进行预测,预测结果表明研究思路有着很好的效果。
本研究没有将数据进行降维处理,同时许多的指标的建立也来自于历史经验。对于进一步的研究,针对本文的数据也可以尝试使用半监督聚类中使用部分标签数据对另外一些数据进行预测的算法,同时也可以探索将此数据运用在NBA后三轮的预测当中。
NOTES
*通讯作者。