本文来自微信公众号:果壳 (ID:Guokr42),作者:柚子,编辑:沈知涵,头图来自:视觉中国
阿根廷在 2022 年卡塔尔世界杯决赛以 1-0 击败巴西,梅西打进唯一进球,帮助阿根廷队获得 1986 年以来的首个世界杯冠军。
整个世界杯期间,梅西在 7 场比赛中踢进 8 个进球,荣获金靴奖(进球最多),金球奖(最佳球员)称号。巴西队、法国队分别获得亚军和季军。
唉?不对啊!世界杯不是才刚开始吗?而且阿根廷刚输球啊!
以上结果是由足球游戏 FIFA 23 模拟出来的。不过不少球迷买账。FIFA 游戏曾成功预测过往三届世界杯的冠军。也不怪其制作商EA扬言:大家可以不用看世界杯了,因为它已经“剧透”过了。
你会发现,每逢世界杯这样的大赛,各种“预测”就成精了,什么 AI 啊,大模型啊,又高科技啦(也有低科技的,还记得章鱼保罗么?)……
这些“先知”凭啥那么“自信”?
哪些要素决定了预测结果?
近年来,包括足球在内的体育比赛大都通过传统统计学、机器学习方法来预测结果。预测机构会收集球队过往比赛的数据,将能够影响比赛的因素数据结构化。结合博彩公司的盘口和赔率,利用机器学习算法进行建模,最后跑出结果。
常用的算法有“随机森林(Random Forests)”,平时常用于市场营销和医疗保险领域的计算。简单来说,这套系统要建立一个“森林”,里面种很多棵“树”(通过子样本集合训练出的),当有一个新的输入样本进入,每一棵树分别进行预测,给出自己的答案。再通过“民主投票机制”(比如取平均数等)得出结果。
另一种常用的办法是“泊松分布(Poisson Distribution)”,用来模拟一个离散事件在连续时间内发生次数的概率分布。真实生活中,很多场景与“泊松分布”相关,比如电商网站在某段时间内的点击率;放射性元素每秒内衰变的粒子个数;工厂机器人出现故障频率等等。应用在球赛中,能根据历史数据推演出的每个球队的攻击力和防守力,预测出一个球队的进球概率。
但是一个复杂的机器学习模型,会根据纳入的数据特征采用多种算法。
有一个国际研究团队在今年世界杯看好阿根廷的死对头——巴西,首先他们做了一个球队的实力统计模型,利用泊松分布算法基于过去八年的国际赛事数据,预估团队当前的能力。但并不是一个过往“战绩”的平均值计算,越近的比赛结果被赋予越多权重。“未来实力”的预估还包括 28 家国际博彩公司的赔率。结合更多数据维度,球队市场价值,国际足联排名,球队结构所代表的球队特征,以及人口和人均 GDP 所代表的国家特征,构建一个随机森林模型。
这个团队给出的最终结果是,巴西有15%的胜率夺冠,其次为阿根廷、荷兰、德国和法国。
数据维度的选择很重要。数据量和数据维度会造成预测结果的大相径庭。国际足联排名这样的数据维度很好理解。但为什么很多预测模型中还要加入社会经济因素?
英国投行 Liberum Capital 的分析师 Joachim Klement 曾经成功预测 2014 年和 2018 年的世界杯冠军,他拿“人均 GDP ”举例:国家不能太穷,想要培养足球人才,基础设施和足球场必不可少;但国家太富裕的话,孩子们又有足球以外太多的运动选择了。
“人口”这一因素只有在足球是主流文化的地区才会起作用,比如拉丁美洲。2018 年的世界杯亚军克罗地亚,其总人口只有 400 万,是欧洲的一个小国家,但整个国家的足球系统对青训的投入极大。
(国家所在)天气也是一个重要因素。太冷太热都不被看好(看看东道主卡塔尔队),理想温度是 14℃,或大致相当于欧洲南部和南美大部分地区的年平均温度。这么一说,除了英格兰(1966)和德国(1964、1974、1990、2014),历届世界杯冠军都符合这一点。
而最难衡量的,是“主场优势”。可能是更熟悉的场地,本国粉丝们的打气,甚至是“主场哨”。至今只有卡塔尔作为东道主输了揭幕战——可见主场优势虽然解释不清楚,但影响却真实存在。
机器学习,就是一个从已有数据中发现和学习潜在规律的过程。一场比赛结果的判断依据,确实与历史表现有很大关系。
但所有预测模型都会加上那样一句提示:“不保准儿哦~”
科学准还是玄学准?
足球比赛中,决定结果的意外因素实在太多。
因为卡塔尔夏季的高温,此次世界杯不得不推迟到冬季,这一下子打乱了各国足球联赛的日程,令球员们也难以适应。“各个国家队备战的时间更少,压缩球员在世界杯前的恢复时间,再加上卡塔尔的气候条件,增加了球员受伤的风险。”之前看好巴西夺冠的那个研究机构说。
大多数预测机构的看法类似。由于备战、磨合时间更少,以打配合取胜,队员实力均衡的队伍,比如西班牙和德国,优势就小了。而对于像 C罗、梅西这样个人能力出众的运动员,影响相对小些。但是另一面,对于他们的年龄来说,身体的疲劳将成为一个左右比赛结果的重要变量。
体育数据提供商 Opta 看好巴西,给出 15.8% 的夺冠概率,高于阿根廷(12.6%),法国(12.2%)。可就在今年 6 月,他们还一口咬定法国是夺冠热门。他们给出的“改口”理由是:法国队的士气和团队合作出现周期性下滑,这显然来自于最近的观察。所以预测这种事,还是时间离得越近,准确性越高。
甚至直到比赛开始,预测依然在变。大数据公司 FiveThirtyEight 有一个“SPI指数”(足球强度指数),对每一场赛事做提前预测。但是赛场实时动态,也会被他们考虑进去,实时计算出剩余时间内两队可能的比分情况——如果你平时关注现在的一些欧洲联赛,转播画面上已经出现了实时预测比赛结果的信息。
他们举了一个例子。2014 年,巴西对克罗地亚。比赛之前,根据过往 SPI,模型给了巴西队 86% 的获胜几率。比赛开始的 11 分钟,巴西队后卫不幸上演乌龙,将对手原本射偏的射门踢入自家球门,巴西队以 0-1 落后。
随即,模型调整比分预测,算出巴西仍有机会扳回来,以58%的几率获胜。根据以往的观察,他们得出一个结论:优秀的球队在开局短暂地落后,往往能被激发潜力,以更大比分优势获胜。球队越优秀,“戏剧性”就越强。
所以他们再次调整了实时比分预测,认为巴西将有 66% 的机会赢得比赛。最终的战绩是 3-1,很准。
这类加入“实时计算”的模型,比单纯的“AI 找规律”,更准了一些。但足球比赛是否真的能够“预测”?
AI 依托于大数据,搭建机器学习模型给出一个看似最有可能的结果,给了一个让人们“买单”的理由——用数据说话。
“即使采用最先进的统计技术,预测仍然非常不确定,因为足球是一场难以预测的比赛。”高盛撰写其2018 年世界杯预测报告时,就是这样说的。也就是说,分析师绞尽脑汁算出的预测和赔率,最后一看,还不如“章鱼保罗”靠谱。
“保罗”预测胜负的方法,是选择印有代表不同球队国旗的玻璃缸,取出预先放入玻璃缸内的贝壳。在 2010 年的南非世界杯,保罗 8 次猜测全中,包括决赛西班牙击败荷兰夺得冠军。相比之下,知名“乌鸦嘴”球王贝利,屡战屡败。
科学还是玄学?哪有什么道理可言。
卡塔尔当地的一名训鹰师,用猎鹰对卡塔尔与厄瓜多尔的世界杯揭幕战进行了预测。他将卡塔尔和厄瓜多尔两国国旗分别绑在两架无人机上,再给国旗绑上食物。然后放飞猎鹰,看它会挑选哪国国旗。结果只见猎鹰展翅飞翔,但与卡塔尔国旗擦身而过,最终选择了厄瓜多尔国旗。
偶然性大的体育赛事中,向来没有什么“一定准确”的预测方法。当比赛结果与权威,甚至大多数人判断相左,我们也只能愤慨一句:“这不科学!”
而这,也是体育竞技的乐趣之一了。
参考文献
[1] https://www.zeileis.org/news/fifa2022/
[2] https://www.bcaresearch.com/reports?r=4201bf52ad3bfda09aed64d54c9a02f4&submissionGuid=85cb89ce-e607-422c-ab47-1fbd01c69f0f
[3] https://fivethirtyeight.com/features/how-our-2022-world-cup-predictions-work/
[4] https://liberum.s3.amazonaws.com/STRS_1013754.pdf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAICKLXNJJPOVS4TPQ%2F20221122%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20221122T000000Z&X-Amz-Expires=86400&X-Amz-Signature=2b7c6dc7e88e4f154c44bf28c793857052dd114621ca332f5e72979eaf11db87&X-Amz-SignedHeaders=host
[5] https://new.qq.com/rain/a/20221120A01FK400.html
本文来自微信公众号:果壳 (ID:Guokr42),作者:柚子,编辑:沈知涵