【数据看球】2018 年世界杯夺冠预测，CDA带你用机器学习来分析-CDA数据分析师官网

【数据看球】2018 年世界杯夺冠预测，CDA带你用机器学习来分析

2018-06-14

【数据看球】2018 年世界杯夺冠预测，CDA带你用机器学习来分析

随着2018年FIFA世界杯开赛在即，世界各地的球迷都渴望知道：谁将夺取梦寐以求的冠军奖杯？

如果你不仅是一名资深球迷，而且还是技术宅，那么你还可以利用机器学习和人工智能这两个利器。下面让我们一起预测哪个国家会赢得本次世界杯。

足球比赛涉及到很多因素，因此许多因素无法在机器学习模型中进行探讨。这只是我作为技术宅，从数据角度的尝试。

目标

1. 目标是使用机器学习预测谁将赢得2018年世界杯。

2. 预测世界杯中每场比赛的结果。

3. 对下场比赛进行模拟预测，比如四分之一决赛，半决赛和决赛。

这些目标体现了现实世界中的机器学习预测问题，当中涉及的机器学习任务包括：数据整合，特征建模和结果预测。

数据

我使用了Kaggle的两个数据集，包括自1930年起所有参赛队在国际比赛中的结果。

Kaggle数据集链接：

(https://www.kaggle.com/martj42/international-football-results-from-1872-to-2017/data)

局限性：

由于国际足联排名创建于90年代，因此缺乏大部分数据集。在此我们按照历史比赛记录分析。

环境和工具：

jupyter notebook，numpy，pandas，seaborn，matplotlib和scikit-learn。

我们首先要对两个数据集进行探索性分析，通过特征工程选择最相关的特征进行预测。之后进行数据处理，选择机器学习模型，最后将其部署到数据集上。

开始

首先，导入必要的库并将数据集加载到数据框。

导入库

加载数据集

通过调用两个数据集world_cup.head()和results.head()，确保数据集加载到数据框中，如下所示：

探索性分析：

对两个数据集进行分析后，所得数据集包含过去比赛的数据。新产生的数据集对分析和预测之后的比赛很有用。

在数据科学项目中，确定哪些特征与机器学习模型相关是最耗时的部分。

现在，让我们在结果数据集中添加净胜球数和结果列。

查看新的结果数据框。

然后我们将使用数据的子集。其中包括只有尼日利亚参加的比赛。这将有助于我们了解某支球队的特色，并拓展运用到其他参赛球队。

第一届世界杯于1930年举办。创建年份列，选择1930年以后的所有比赛。

现在可以将这些年尼日利亚的比赛结果进行可视化。

每个世界杯参赛球队的获胜率是很有用的指标，我们可以用它来预测每场比赛的结果。其中比赛场地并不重要。

参赛球队

对所有参赛球队创建数据框。

然后进一步过滤数据框，只显示从1930年起到今年世界杯的球队，减少重复的球队。

创建年份列，并删除1930年之前的比赛，以及不影响比赛结果的列，例如日期、主队进球数、客队进球数、锦标赛、城市、国家、净胜球数和比赛年份。

修改“Y”(预测标签)以简化模型处理。

如果主队获胜，获胜队(winner_team)列将显示“2”，如果是平局则显示“1”，如果客队获胜则显示“0”。

通过设置虚拟变量，将主队(home_team)和客队(away _team)从分类变量转换为连续输入。

使用 pandas，get_dummies()函数。从而用one-hot(数字“1”和“0”)代替分类列，确保加载到Scikit-learn模式。

然后，我们将X和Y集分开，并将数据的70%用于训练，30％用于测试。

我们将使用逻辑回归。通过逻辑函数估计概率，我可以测量分类因变量和一个或多个自变量之间的关系。

换句话说，逻辑回归通过影响结果的数据点(统计数据)对结果进行预测(赢或输)。

在实际运用中，每次对一场比赛输入算法，同时提供上述“数据集”和比赛的实际结果。然后，模型将学习输入数据将如何对比赛结果产生积极或消极影响。

让我们看到最终数据框：

看起来很棒。现在加入算法：

我们的模型在训练集上的准确率为57％，测试集的准确率为55％。这并不理想，但让我们继续。

现在我们将创建数据框部署模型。

首先，我们将加载截至到2018年4月的国际足联排名数据集和小组赛阶段的数据集。

国际足联排名：

(https://us.soccerway.com/teams/rankings/fifa/?ICID=TN_03_05_01)

小组赛阶段数据：

(https://fixturedownload.com/results/fifa-world-cup-2018)

国际足联排名较高的球队将被视为“受欢迎”球队。由于世界杯中不分“主队”或“客队”球队，他们都将归属到“home_teams”列。然后，根据每个团队的排名将球队添加到新的预测数据集中。下一步将创建虚拟变量并部署机器学习模型。

预测比赛

你肯定在想什么时候才能到预测部分。前面代码和解释占据了太多的篇幅，现在我们开始预测。

将模型部署到数据集

首先将模型部署到小组赛。

下面是小组赛的结果。

该模型预测了三场平局，并预测西班牙有很高的胜率。我用这个网站预测了小组赛。

(https://ultra.zone/2018-FIFA-World-Cup-Group-Stage)

16强

以下是对16强的预测。

四分之一决赛

四分之一决赛的情况为：

葡萄牙vs法国，巴西vs英格兰，西班牙vs阿根廷，德国vs比利时。

预测结果：

半决赛

葡萄牙vs巴西；德国vs阿根廷

预测结果：

决赛

巴西vs德国

预测结果：巴西获胜。

根据模型预测，巴西很可能赢得本次世界杯。

结语

研究和改进空间：

1.数据集。为了改进数据集，你可以使用国际足联数据来评估球队中每个球员的水平。

2.混淆矩阵能够用于分析模型分析错误的情况。

3.我们可以整合更多模型，从而提高预测准确率。

机器学习特征逻辑回归 pandas 特征工程混淆矩阵 matplotlib numpy

数据分析咨询请扫描二维码

上一篇关于python的bottle框架跨域请求报错问题的处理方法

下一篇机器学习的第一步：先学会这6种常用算法

【数据看球】2018 年世界杯夺冠预测，CDA带你用机器学习来分析

考试指南

报考指南

热门栏目