本文来自微信公众号:集智俱乐部 (ID:swarma_org),作者:郭瑞东,审校:刘志航,编辑:邓一雪,原文标题:《足球场上的复杂系统:网络科学分析梅西传球有多稳》,头图来自:视觉中国


在刚刚结束的卡塔尔世界杯决赛中,阿根廷点球大战战胜法国夺冠,梅西终于拿到了职业生涯最重要的世界杯冠军奖杯。


而在足球场下,数据分析师的角色也正在变得越来越重要。你是否好奇如何量化分析一场足球赛,并从中得出对球队有益的洞见?我们整理了近3年来使用复杂网络分析足球比赛的一系列研究。站在复杂系统视角上,让我们重新认识足球这项集体运动的魅力。


一、如何判断一只球队是否掌握传控精髓


球赛中最常听到的数字就是控球率,大多数情况下控球多的被认为是强队,所谓控球,就是足球在同一队的队友之间传递,由此便产生了传球网络。西班牙足球一向的特色是传控为先,而2019年9月 Scientific Reports 上发表的一篇论文,通过分析10-11赛季西甲巴萨队的比赛记录,佐证了上述观点。


论文题目:Defining a historic football team: Using Network Science to analyze Guardiola’s F.C. Barcelona


该研究对巴萨10-11赛季比赛的传球网络进行了可视化:代表球员的点越大,参与传球次数越多;连边越粗,说明两人间传球配合越密切。


图1. 巴萨队的传球网络的可视化。<br label=图片备注 class=text-img-note>
图1. 巴萨队的传球网络的可视化。


之后研究者使用诸如聚类系数(cluster cofficient)、最大特征向量、队中球员的特征向量中心度的最大值等量化不同的西甲队伍。发现聚焦进球和丢球前的50次传球组成的网络,可以发现巴萨和其它西甲球队有显著不同(见图2)


图2. 西甲不同球队的进球/丢球前50次传球网络的对应指标对比,A,C,E依次是网络的聚类系数、传球网络对应矩阵的最大特征向量、特征向量中心度的最大值。纵轴是进球时的值,横轴是丢球时的值。<br label=图片备注 class=text-img-note>
图2. 西甲不同球队的进球/丢球前50次传球网络的对应指标对比,A,C,E依次是网络的聚类系数、传球网络对应矩阵的最大特征向量、特征向量中心度的最大值。纵轴是进球时的值,横轴是丢球时的值。


上面三个指标,说的是同一件事,数值越高说明传球网络在局部的稳健性越高,通俗地说,就是进球前的50次传球相比其它队,更加稳定,而丢球前则相反。从这里最能看出,相比其它西甲球队,巴萨进球与其稳定的传球相关,而丢球则与传球不稳有关。下次再看一只球队是否掌握了传控的精髓,就可以采取类似的方式,看看其进球前的传球网络是否和其它球队有所不同。


二、用数学模型重现传球过程的动力学


足球比赛中抢断和传球经常出现,而且大多数控球只涉及两到三名球员的局部配合。为了研究传球过程的动力学特征,研究者基于17-18赛季欧洲五大联赛的比赛记录,建立了一个数学模型。在这个模型中,两名进攻球门的球员来回传球,而一名防守球员试图抢断。该模型产生的控球期间的统计数据的分布,如周期长度、传球距离和传球次数等,与实际数据集中的分布非常相似。使用这样的模型,足球教练将可以设计和分析训练课程。


论文标题:Modeling ball possession dynamics in the game of football


理解上述模型,可以将持球者、无球队员、防守者表示为一个随机行走者,防守者在追逐持球队员时,会包含一个随机偏差,以期待能够在持球者传球时成功抢断。当防守队员和传球线路重合时,进攻方的控球结束。


图3. 传球过程示意图,其中 d0 为持球者和无球队员的初始距离,d 是防守者和持球队员的初始距离,R1是三人组成的圆的初始半径,R2是球员的运动半径。


图4. 模型模拟的传球动力学关键指标和真实状态的对比图。(a)单次控球时间,(b)传球距离,(c)每个持球期的传球次数,(d)持球期的时间和传球次数的函数。<br label=图片备注 class=text-img-note>
图4. 模型模拟的传球动力学关键指标和真实状态的对比图。(a)单次控球时间,(b)传球距离,(c)每个持球期的传球次数,(d)持球期的时间和传球次数的函数。


从上述的简单模型进行的模拟,竟然能够重现足球比赛中真实传球过程的统计分布,这正体现了复杂科学的化繁为简的魅力。未来的建模者,可以在此基础上构建包含更多球员的模型,也可以引入不同类型的球员,按照传球的长度区分长传和倒脚。对于球队教练来说,了解传球背后的动力学,可以在训练过程中,更好的模拟真实赛场的传球过程,如果练习赛中传球网络的动力学特征和真实比赛差异显著,那么队内训练将难以起到模拟真实比赛的效果。


三、从传球网络判断球队风格


对于资深球迷,会说某只球队有独特的打法,和历史上的某某球队类似。通过对传球网络分析,研究者发明了一种量化指标,不止可以评价球队在特定时间段是否有统一的打法,在主场和客场比赛时球风是否有差异,还可以判断两只球队对阵时,谁的打法占据了上风。


论文标题:Consistency and identifiability of football teams: a network science perspective


不同于之前研究关注球员间的传球,该研究将球场分为了 p*q 个小格,关注不同格之间的传球。研究基于17-18赛季西甲的比赛记录。从图5A可看出,皇马的传球频率在左右两个边路是不对称的,而从 5A 和 5D 的对比,可看出皇马在和不同队比赛时,传球网络会有不同。


图5. 传球网络示意图。(A)是皇马和赫塔菲比赛时,皇马的传球网络。(B)是据此产生的网络矩阵。(C, D, E)是不同的空间分辨度下,皇马和巴萨比赛时,皇马的传球网络。<br label=图片备注 class=text-img-note>
图5. 传球网络示意图。(A)是皇马和赫塔菲比赛时,皇马的传球网络。(B)是据此产生的网络矩阵。(C, D, E)是不同的空间分辨度下,皇马和巴萨比赛时,皇马的传球网络。


通过比较不同球队的传球网络,可以量化不同球队传球网络的一致性。图6A和B对比了西甲中巴萨和巴列卡诺的一致性,图6C展示了两者的差异。而在图6D右上角列出的两只球队,其传球网络在不同比赛间的一致性比其它球队显著的高,而这两队不出意料的是西甲双雄巴萨和皇马。


图6. 不同球队比赛间传球网络的一致性展示图。<br label=图片备注 class=text-img-note>
图6. 不同球队比赛间传球网络的一致性展示图。


图7中横轴是主场球队,纵轴是客场球队,球队按各队的赛季排名排列。颜色越靠近黄色,说明该场比赛的传球网络的可识别性越高,图中左上和右下两个三角有显著差异,这表明球队的传球网络普遍存在着主客场差异。与客场球队相比,主场球队更倾向于保持一种比赛模式。从上往下看,不止强队的打法更一致,而且每场比赛的可识别性也相对更高,也就是说,强队通过主导比赛的节奏,最终有更大的概率赢得比赛,从而积分排名领先。


图7. 西甲17-18赛季比赛的得分与不同球队之间传球网络可识别性的打分热图。<br label=图片备注 class=text-img-note>
图7. 西甲17-18赛季比赛的得分与不同球队之间传球网络可识别性的打分热图。


有了这样的球队传球风格分析,教练们就能够根据过往数据,找出不同球队的传球热点区域,有的放矢的准备下一场比赛,数据分析师还可实时监控比赛过程是否是按照对手熟悉的风格进行,如果发现对手改变了风格,便可以提醒教练及时变阵。


四、盯人动态,识别偷懒的防守球员


随着高清摄影及3D位置捕捉数据的出现,对足球数据的分析,可以更细的精度展开。基于职业足球比赛中每个球员的身体动作数据,研究者不仅可以关注足球传接过程,还能够关注防守方对无球队员的防守动作。


接下来介绍的研究,可以识别出球队在防守中,有哪些些球员在盯人防守中出工不出力。研究者先记录了球场中每个球员的实时位置。如图8a所示,当前持球者为星号,不同的颜色代表该球员经常持球的区域。图8b中,当时距离持球者最近的球员距离被设为δ,椭圆代表了持球队员的活动空间。


论文标题:Complexity emerges in measures of the marking dynamics in football games


图8. 盯人防守的热点区域示意图。<br label=图片备注 class=text-img-note>
图8. 盯人防守的热点区域示意图。


盯人防守中,一名球员并不总会盯着同一人,进攻球员突破后,防守方的其它球员会去补防。据此,研究者构建了一个二分图(bipartite graph),进攻方和防守方各自构成盯人网络中的两方。在任何时候,一支球队的每个球员都可以与任意数量的对手球员联系在一起,比如某时刻距离进攻方无球队员 a 和 b 最近的都是防守方的球员 c,那么 c 就和 a 与 b 在盯人网络中构成了连接,每个防守球员的平均连接数被称为分叉率 k。


研究者发现,当网络在聚集和碎片化结构之间切换时,聚簇的变换频率、持续时间和大小都遵循幂律法则(图9a-c)。也就是说,球队在防守阶段,防守方球员间的移动让系统处在临界状态,这时防守方既能够灵活应对进攻方的攻势,又能够保持防线的稳定


图9. 真实数据中(a)盯人二分图聚簇发生改变的时间间隔,(b)网络改变的大小,(c)聚簇改变发生时间间隔和大小的关系,(d)展示了不同时间尺度下,聚簇改变的实例,(e)是经由尺度变换(rescaling)计算得出的理论值。<br label=图片备注 class=text-img-note>
图9. 真实数据中(a)盯人二分图聚簇发生改变的时间间隔,(b)网络改变的大小,(c)聚簇改变发生时间间隔和大小的关系,(d)展示了不同时间尺度下,聚簇改变的实例,(e)是经由尺度变换(rescaling)计算得出的理论值。


有了上述观察,教练就可以考察每名防守球员在盯人过程中,距离其最近球员的个数如何改变,如果该分布没有符合预期,那么就可以判断出该球员在防守中是不是注意力不集中。教练还可以根据进攻球员经常出现的区域,指定有针对性的战术。


五、更多研究与总结


近年来关于足球和复杂科学的研究,还有以下两篇,感兴趣的读者可以找来细看。一是基于线性互动,对足球运动员的运动时空轨迹动力学进行建模,以分析足球比赛中的竞争与合作的复杂性。该研究提供的模型,可为教练提供评价球员及对手表现的新指标。


论文标题:Stochastic model for football's collective dynamics


第二个研究是通过对一个世纪的足球比赛记录进行分析,从复杂网络的角度研究足球社会的宏观演化。研究揭示足球网络内部的动力学特征和社团结构,为足球社会的不断扩张提供证据。该研究指出足球的演变不仅受到来自重大体育赛事的影响,而且还与多个社会和政治事件相关。足球运动及其演变反映的重大历史转折点,为研究全球化进程提供了新的视角。


论文标题:Networks of international football: communities, evolution and globalization of the game


随着数据采集技术的提升,以及自动化图像处理技术的发展,研究者可以更细的颗粒度,去研究球场上的动作。例如同样是传球网络,地面的传球和空中的传球是否存在差异,不同位置的球员传球模式是否存在差异等。未来通过与足球教练及训练师的合作,数据科学家可以从当下观察(量化球员或球队表现),发展到反事实的预测(比如改变阵容会对胜率带来那些影响)


正如生命系统中的个体既存在竞争,也存在合作。足球场上亦是如此。由此,足球可以看成是如同生命或市场交易一般的活系统,在看似复杂的表相下隐藏着简单的规律,其中的成员会利用随机性,会自发的涌现出临界现象。对足球的建模中发现了复杂系统所具有的一般规律,这不又一次佐证了复杂科学无有不包的应用范围及其穿云见日的独特魅力吗?



本文来自微信公众号:集智俱乐部 (ID:swarma_org),作者:郭瑞东,审校:刘志航,编辑:邓一雪