京公网安备 11010802034615号
经营许可证编号:京B2-20210330
编者注:相比于其他体育运动,足球的数据统计和分析工作开展得很晚,而且鉴于比赛的特殊性也没有太多的经验可供参考。不过,随着大数据时代的到来,这种趋势越来越明显,我们需要做的不仅是搜集数据,而且需要更好的分析数据以服务于这项运动。已经看到,越来越多的先行者已经开始涌入足球数据分析领域,而且得到了不错的结果,不过同志们还需继续努力啊!
在棒球分析领域有一个学派认为,如果没有这么多技术统计数据的话,棒球运动会发展的更好。之所以这么讲是因为他们声称这些目前被统计的数据不一定就是真实反映棒球比赛的决定性数据,他们只是最易于统计的数据而已。不管你同不同意这个观点,这确实直指棒球数据分析的痛处,仍然是人们争论的焦点。
这不是说你相不相信这些数据,而是说新的数据是否真的能取代原有的统计结果。就算是偶尔看看棒球打发时间的人也会更习惯原来的统计结果,部分原因是这些数据已经在棒球运动中存在了很长时间,事实上,人们总是习惯于早已熟知的数据统计,而对于学习新的数据分析结果保持谨慎态度。
对于足球来说,以前几乎没有什么统计数据。事实上,对于这么一个流畅性的比赛来说,也很难不借助科技手段去统计一些诸如传球次数等数据。人们开始系统性的记录一些关于比赛的统计数据也就是近十年来的事情,因为现在这个时代人们都乐于收集和分析数据,同时可以从中获得收益。类似OPTA 和Prozone 等专注数据统计分析的公司已经开始涌现,他们的盈利模式也是将这些数据卖给俱乐部或者媒体(事实上像ESPN,SKY Sports 等媒体的数据统计板块都是由OPTA 提供支撑的)。
就像曾经在棒球或其他一些数据导向的运动中探索更新更先进的评价指标那样,现在人们也迫切希望能够在足球领域找到一些新的统计指标,因为有启示性的衡量指标必然是数据分析的产物。不过这不是一蹴而就的,因为现在数据统计公司在足球领域中做的数据收集工作仅仅是一百年前棒球领域就做完了的。
现在,足球终于有了大量的数据,下一步就是怎么样更好的利用这些数据。不同于棒球等其他一些主流的运动(这些运动领域数据统计早已有之,数据分析只是近来兴起),足球领域目前比较独特的情景是数据的统计和分析是在同步展开的。
数据统计
让我们回到开头那个问题,如果没有技术统计数据,棒球是否会发展的更好?这个问题对于足球数据统计来说至关重要。
近年来涌现出一批诸如WhoScored、Squawka和FourFourTwo’s Stats Zone(均由OPTA 提供数据支持)之类的网站,他们把比赛的数据统计结果更好的展现给了球迷。这些网站主要提供个人和球队的比赛统计信息,这听起来让人觉得有点像棒球的技术统计数据,他们提供的信息让你可以知道哪个球员一场比赛乃至一个赛季的各项统计数据,还有一些类似热点图和传球线路图等的图片方式更好的呈现这些数据。
但是他们并没有进一步去提供如何利用这些数据进行比赛分析的内容。某某后卫的场均拦截率很高对球队很重要吗?某某射手的低得分率是否真的意味着他是一个浪射帝,以后应该多传球呢?抑或仅仅因为他运气太糟糕?一名传球成功率高达95%的防守球员要比一名传球成功率只有78%的边锋更适合下底传中么?
我们拥有这些数据,但是我们并不能解决这些问题,因为我们不清楚到底哪些数据对于比赛分析真正重要。
这种景象可以让人闪回到棒球领域刚开始进行数据革新的时候:如果你不知道他们到底有什么用的话,为什么要引用这些统计数据呢?这就是我不明白为什么在过去50多年的棒球直播中总要提到类似RBI(Run battled in,棒球术语:打点) 这种无用的数据!
毫无疑问,使用数据针对某些球员或球队的优异成绩做出一些无法证明的假设绝对是误入歧途。但是,这并不意味着不能使用这些数据。
如果反对使用这些统计数据同时意味着反对使用这些数据来描述比赛信息,以及球队和球员的表现。尽管棒球的传统统计数据无法有效分析及预测未来的比赛,但是他们对于描述历史信息的描述是很有用的。试着不用任何统计数据讲一下巴尔的摩金莺队过去一周的表现,或者解释一下Clayton Kershaw 有多么棒。
虽然原来的统计数据无法解释为什么球员和球队的表现是好还是坏,以及未来会怎样;但是使用这些数据来描述球员和球队的表现还是很直观的。
十年前,可能没人知道哈维每场比赛究竟传了多少次球,成功率是多少。没有这些信息,大多数人们也无从深入了解哈维究竟有多么伟大,或者他在什么时候状态开始有所下滑。同样的,你在观看洋基队巨星Derek Jeter 的比赛时,你只能说:“三年前,他的打击率非常高,今年他的该项数据有所下滑。”
即便是最原始的统计数据也会让我们清楚地了解比赛中发生了什么。如果没有这一步的积淀,接下来我们就很难解释为什么这些情况会发生,或者接下来会发生什么。这些作为数据分析基石的原始统计数据在美国体育中广泛存在,但是在足球领域却是一个全新的概念。
数据分析
我们当然希望从这些简单的描述性的统计数据背后能够挖掘出更多关于足球比赛本质的信息。虽然这方面已经开展了很多工作,也有了一些进展,但是还只是在萌芽阶段。
总射门率(Total Shots Ratio,TSR)是高级足球统计数据的鼻祖,他最初是由James Grayson 从冰球领域引入到足球中的。这个指标设计的初衷十分简单:强队一般情况下射门次数都比较多,同时他们会让对方很少有起脚的机会。
这项统计数据的威力在于它有很好的自相关性,并且可以更好的预测结果。实证分析显示球队过往的TSR 能够预测该队未来的TSR,同时它对于未来比赛进球数和结果的预测要比基于球队过去的进球数和结果效果更佳。
在赛季初进行排名预测的时候,TSR 是一个很好的先行指标(虽然很多砖家会抛开这项数据,他们凭自己的直觉预测最终排名,这里有个梗,该指标预测的结果显示曼联最终排名不可能进入前三,但是所谓的砖家,其实就是作者自己觉得曼联前三有戏,我们只能留待赛季末再来挖坟了~),当然在实际管理球队的时候它就不见得那么灵验了。
但是在冰球比赛中,可以随时调整球队阵容,而且射门次数很高,这使得能够我们能够细化分析哪名球员在球场上的时候球队表现最佳。而在足球比赛中,只有三次换人名额,同时射门次数也少的可怜,这就使得TSR 对于球员层面的评估作用很有限(至少目前没有很好的结果)。
最近,期望进球数(Expected Goals,ExG)又作为一个新的衡量指标出现。从预测的角度来看,ExG 与TSR 的表现结果不相上下(Grayson 对比了这两项指标,并给出了一些理论分析),但是ExG 的一个好处是它既可以预测球队的表现,也能预测球员个人的表现。换句话说,你可以通过球员的总进球数,并且基于他们的射门次数来预知他们未来的进球数。
将射门数据进行分解有点类似于棒球中将场内安打率(BABIP)从平均打击率(AVG)中分解出来。结果证明,与球员一般难以有持续高或低的 BABIP 类似,球员们也很难长期的踢出高于或低于他本身ExG 的数据。但是不得不又一次指出的是,这些工作仅仅只是足球数据分析的起步阶段。
调和数据统计与分析
你可能注意到的一个问题是目前大量的分析工作都与射门有关,但是这并不完全对。比如Caley 提出的ExG 模型中就将导致射门的传球类型考虑在内。StatsBomb 的Ted Knutson 创造了一个叫做球员雷达(player radars)的工具通过加入诸如球员比赛时间、本方半场控球率等指标来更全面更精确的描绘球员的统计数据
当然值得注意的是,这些数据如何进行综合集成,从而形成球队的数据又是一个令人头大的问题。但是就目前来说,数据分析工作中还未囊括将手头已有的统计数据以矩阵的形式综合起来分析。
这种情况的出现有很多原因,部分原因是目前公共领域的专家仅仅投入了少量时间来研究这些信息。而且,即便你想做大量的分析,目前的统计数据可能只有五到十年,不像棒球那样有近百年的大量数据,这使得你无法得出更有效的结论。
很有可能足球领域很多重要的数据我们还没有搜集到呢,与此同时,一些统计数据可能除了描述之外再无其他分析价值。关键是我们如何找到那些真正值得分析的数据。
说到底,我们需要统计数据来辅助分析,而分析的目的则是为了找到足球领域各种问题的答案。但是,如果棒球领域发生的事情对我们有所启发的话,那就是使用统计数据既有可能帮助我们真正发现有价值的信息,也有可能让我们误入歧途得到错误的结论。
足球领域内的统计数据太少了,以至于任何指标都需要合成,但是足球数据统计方面落后棒球一百年并不意味着足球就不会有自己特有的评价指标。而且足球领域确实有一点优势,那就是在棒球运动中,那些基于统计数据的各种假设猜测已经流行了一百年之后才被数据分析所冲击,而足球领域,数据统计和数据分析是齐头并进的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、机器学习的实操场景中,聚类分析与主成分分析(PCA)是两种高频使用的统计与数据处理方法。二者常被用于数据预处理 ...
2026-02-24在聚类分析的实操场景中,K-Means算法因其简单高效、易落地的特点,成为处理无监督分类问题的首选工具——无论是用户画像分层、 ...
2026-02-24数字化浪潮下,数据已成为企业核心竞争力,“用数据说话、用数据决策”成为企业发展的核心逻辑。CDA(Certified Data Analyst) ...
2026-02-24CDA一级知识点汇总手册 第五章 业务数据的特征、处理与透视分析考点52:业务数据分析基础考点53:输入和资源需求考点54:业务数 ...
2026-02-23CDA一级知识点汇总手册 第四章 战略与业务数据分析考点43:战略数据分析基础考点44:表格结构数据的使用考点45:输入数据和资源 ...
2026-02-22CDA一级知识点汇总手册 第三章 商业数据分析框架考点27:商业数据分析体系的核心逻辑——BSC五视角框架考点28:战略视角考点29: ...
2026-02-20CDA一级知识点汇总手册 第二章 数据分析方法考点7:基础范式的核心逻辑(本体论与流程化)考点8:分类分析(本体论核心应用)考 ...
2026-02-18第一章:数据分析思维考点1:UVCA时代的特点考点2:数据分析背后的逻辑思维方法论考点3:流程化企业的数据分析需求考点4:企业数 ...
2026-02-16在数据分析、业务决策、科学研究等领域,统计模型是连接原始数据与业务价值的核心工具——它通过对数据的规律提炼、变量关联分析 ...
2026-02-14在SQL查询实操中,SELECT * 与 SELECT 字段1, 字段2,...(指定个别字段)是最常用的两种查询方式。很多开发者在日常开发中,为了 ...
2026-02-14对CDA(Certified Data Analyst)数据分析师而言,数据分析的核心不是孤立解读单个指标数值,而是构建一套科学、完整、贴合业务 ...
2026-02-14在Power BI实操中,函数是实现数据清洗、建模计算、可视化呈现的核心工具——无论是简单的数据筛选、异常值处理,还是复杂的度量 ...
2026-02-13在互联网运营、产品迭代、用户增长等工作中,“留存率”是衡量产品核心价值、用户粘性的核心指标——而次日留存率,作为留存率体 ...
2026-02-13对CDA(Certified Data Analyst)数据分析师而言,指标是贯穿工作全流程的核心载体,更是连接原始数据与业务洞察的关键桥梁。CDA ...
2026-02-13在机器学习建模实操中,“特征选择”是提升模型性能、简化模型复杂度、解读数据逻辑的核心步骤——而随机森林(Random Forest) ...
2026-02-12在MySQL数据查询实操中,按日期分组统计是高频需求——比如统计每日用户登录量、每日订单量、每日销售额,需要按日期分组展示, ...
2026-02-12对CDA(Certified Data Analyst)数据分析师而言,描述性统计是贯穿实操全流程的核心基础,更是从“原始数据”到“初步洞察”的 ...
2026-02-12备考CDA的小伙伴,专属宠粉福利来啦! 不用拼运气抽奖,不用复杂操作,只要转发CDA真题海报到朋友圈集赞,就能免费抱走实用好礼 ...
2026-02-11在数据科学、机器学习实操中,Anaconda是必备工具——它集成了Python解释器、conda包管理器,能快速搭建独立的虚拟环境,便捷安 ...
2026-02-11在Tableau数据可视化实操中,多表连接是高频操作——无论是将“产品表”与“销量表”连接分析产品销量,还是将“用户表”与“消 ...
2026-02-11