东京奥运会能如期举办吗？带你用数据看120年奥运变迁史-CDA数据分析师官网

热线电话：13121318867

首页大数据时代东京奥运会能如期举办吗？带你用数据看120年奥运变迁史

东京奥运会能如期举办吗？带你用数据看120年奥运变迁史

2020-11-30

CDA数据分析师出品

作者：真达、Mika

数据：真达

【导读】

2020年年初，突然袭来的新冠疫情给我们的生活带来了巨大的改变，与此同时也让许多国际体育赛事停摆。3月24日，东京奥组委宣告，2020东京夏季奥运会延期至2021年夏季举行。

随着国内疫情逐渐得到有效控制，我们的生活已步入正轨，但全球的疫情形势还很严峻。8月份以来，日本的第二波疫情来势汹汹，单日新增确诊人数不断刷新历史新高，11月18日单日新增确诊人数已达到2201人。

这也使得原本延迟一年的2020东京奥运会，再次笼罩上了一层不确定性。人们不禁在想，已经要延期一年的东京奥运会还能顺利举办吗？

那么关于奥运会这场世界上影响力最大的体育盛会，背后有哪些有趣的数据。

奥运会参赛国数量和比赛项目有哪些变化？

各国累计奖牌数排名是怎样的？

参赛运动员的年龄和身高有哪些特征？

今天我们就带你用数据来好好盘一盘。

奥林匹克运动会发源于两千多年前的古希腊，因举办地在奥林匹亚而得名。并于1896年举办了首届奥运会，1924年举办了首届冬奥会，是世界上影响力最大的体育盛会。

01数据理解

我们选取了一个关于现代奥运会的历史数据集，包括从1896年雅典奥运会到2016年里约奥运会的所有奥运会。

数据集取自网站：www.sports-reference.com

需要注意的是，冬季奥运会和夏季奥运会从1994年起分开，每两年间隔举行，1992年冬季奥运会是最后一届与夏季奥运会同年举行的冬奥会。自1924年开始第1届，截至2018年共举办了23届，每四年一届。

athlete_events.csv 文件包含271116行和15列。每一行对应于在一个单独的奥运会项目（运动员项目）中参赛的运动员。列为：

ID - 运动员的ID编号
Name - 运动员姓名
Sex - 性别
Age - 年龄
Height - 身高(cm)
Weight - 体重(kg)
Team - 队伍名称
NOC - 国家奥委会编码
Games - 年份和季节
Year - 年份
Season - 季节
City - 主办城市
Sport - 体育运动
Event - 比赛项目
Medal - 获奖情况(金牌、银牌、铜牌或无)

02读入数据

首先导入包和数据。

# 导入库
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns 

import plotly as py 
import plotly.graph_objs as go 
import plotly.express as px 
import plotly.figure_factory as ff 
from plotly.subplots import make_subplots

pyplot = py.offline.plot

# 读入数据
df_athlete = pd.read_csv('./archive/athlete_events.csv')
df_regions = pd.read_csv('./archive/noc_regions.csv') 
df_athlete.head()

df_athlete.info() 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 271116 entries, 0 to 271115
Data columns (total 15 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   ID      271116 non-null  int64  
 1   Name    271116 non-null  object 
 2   Sex     271116 non-null  object 
 3   Age     261642 non-null  float64
 4   Height  210945 non-null  float64
 5   Weight  208241 non-null  float64
 6   Team    271116 non-null  object 
 7   NOC     271116 non-null  object 
 8   Games   271116 non-null  object 
 9   Year    271116 non-null  int64  
 10  Season  271116 non-null  object 
 11  City    271116 non-null  object 
 12  Sport   271116 non-null  object 
 13  Event   271116 non-null  object 
 14  Medal   39783 non-null   object 
dtypes: float64(3), int64(2), object(10)
memory usage: 31.0+ MB

df_regions.head()

03数据预处理

此处对数据做以下处理，以方便后续的分析：

将两个数据集横向合并为一个数据集，Key为NOC这一列
Sex：数据值替换
Medal：空值填充

# 合并数据
df_all = pd.merge(df_athlete, df_regions, how='left', on='NOC')

# 处理Sex列
df_all['Sex'] = df_all['Sex'].map({'M': 'Male', 'F': 'Female'})

# 处理Medal列
df_all['Medal'].fillna('No Medal', inplace=True)
df_all.head()

04数据可视化

我们使用处理好的数据做数据可视化分析，结果如下：

1奥运会总体数据

参赛国家数量变化

整体上来看，参赛国家呈现上升趋势，但其中有两届奥运会存在异常的下降。分别是：

1976年蒙特利尔奥运会：出现了规模空前的反种族歧视行动，此次运动会遭到了非洲国家的抵制，规模远逊于上届。

1980年莫斯科奥运会：为了表示对苏联入侵阿富汗的谴责和愤怒，美国带头拒绝参加1980年的莫斯科奥运会，并号召其他国家一起抵制。在美国的号召下，最终一共有65个国家抵制莫斯科奥运会，占当时报名参赛国数量的五分之二。最后只有80个国家参加莫斯科奥运会，大约5000余人参赛，参赛人数还没有参与报道的记者数量多，创历史记录。

比赛项目数量变化

可以看出，奥运会的比赛项目呈现波浪式上升的趋势，其中在1980-2000年这20年，比赛项目增长趋势最大，且以夏季奥运会尤为突出，但2000年以后比赛项目增加趋势慢慢变为平稳的态势了。

各个国家累计奖牌数量TOP 20

我们选取了各个项目获得奖牌数目排名前20的国家，通过比较发现美国不管是金牌、银牌还是铜牌都领先很多，然后是俄罗斯和德国。由于缺席了多届奥运会，我国的累计奖牌数排名偏后。

2奥运会参赛运动员数据

每届参赛人数

从图中可以观察到，夏季奥运会参赛最多人数的是2000年的悉尼奥运会，参赛人数13821人，冬季奥运会参赛人数最多的是2014年，参赛人数4891人。

参加夏季奥运会的人数远远多于冬季的人数，可能是比赛项目少的原因。同时，第一次世界大战和第二次世界大战期间没有举办过奥运会。

参赛运动员男女人数和比例变化

(男女人数变化)

（男女比例变化）

我们纵观整个奥运历史，虽然奥运会的开始，运动员男女比例较为悬殊，男性运动员占比一直高于女性运动员。但是我们可以看到，随着奥运会的发展，女性运动员的占比一直在提升，目前参加奥运会男女比例几乎接近于1:1。

参赛运动员年龄和奖牌数

图中可以看出，年龄的分布呈现右偏分布，其中80%的区域集中在19岁到33岁之间，25岁左右是运动员的黄金年龄。

纵观整个奥运史，年龄最小的运动员仅为10岁。1896年，第一届现代奥运会在希腊举办，仅仅10岁零218天的东道主体操选手Dimitrios Loundras参赛并获得了铜牌，

1928年阿姆斯特丹夏季奥运会中，一名97岁高龄的美国“运动员”，参加了雕刻的“运动项目”，但并未获得名次。这个记录应该是不会被打破了。

参赛运动员的身高、体重分布

（身高变化）

（体重变化）

我们筛选了1960年之后的数据，发现参赛选手中男性身高分布在127cm-226cm之间，女性身高分布在127cm-213cm之间，男性体重的分布在37kg-226kg之间，女性的体重分布在25kg-167kg之间。

结语

由于新冠疫情的影响，日本东京奥运会成为了现代奥林匹克运动史上首届被推迟的奥运会。而这次延期带来的影响无疑是巨大的，据多家日本媒体报道，东京奥运会推迟举行造成的直接经济损失约为60亿美元。赛事场馆和酒店的支出、人力成本等各项额外开支，都会让东道主接下来的筹办捉襟见肘。总之，还是期待明年的全球疫情能够有所好转吧...

参考资料：

http://rstudio-pubs-static.s3.amazonaws.com/510365_4989159dfb754097843f17b9606aabfe.html

维基百科奥林匹克运动会

https://zh.wikipedia.org/wiki/%E5%A5%A5%E6%9E%97%E5%8C%B9%E5%85%8B%E8%BF%90%E5%8A%A8%E4%BC%9A

——热门课程推荐：

想学习PYTHON数据分析与金融数字化转型精英训练营，您可以点击>>>“人才转型”了解课程详情；

想从事业务型数据分析师，您可以点击>>>“数据分析师”了解课程详情；

想从事大数据分析师，您可以点击>>>“大数据就业”了解课程详情；

想成为人工智能工程师，您可以点击>>>“人工智能就业”了解课程详情；

想了解Python数据分析，您可以点击>>>“Python数据分析师”了解课程详情；

想咨询互联网运营，你可以点击>>>“互联网运营就业班”了解课程详情；

想了解更多优质课程，请点击>>>

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；