京公网安备 11010802034615号
经营许可证编号:京B2-20210330
CDA数据分析师 出品
作者:Andrew Lombarti
编译:Mika
Kaggle是一个很流行的数据科学竞赛平台。在上面,你不仅可以参加各种数据分析题竞赛,还可以通过各行业的真实数据集来实践自己的技能。
在本文中我们将介绍10个数据集,从适合新手小白到高级进阶人群的都有。这些数据集非常有趣,而且还很适合在面试前练习技能。
下面让我们一起来看看吧!
泰坦尼克号数据集是Kaggle上最热门的数据集之一。这是一个很好的入门数据集,当中涉及到13个变量和超过1500个记录。该数据集中包含了乘坐泰坦尼克号的乘客信息。
目标是根据乘客的特征来预测他们是否能幸存下来。根据数据集,你可以看到已婚女性比单身男性有更高的存活概率。
该数据集中的变量有:
关于如何处理这个数据集,网上已经有很多教程了。如果你想挑战一下自己,不妨试着预测乘客在不同地点登船的存活率。
泰坦尼克号数据集链接:
https://www.kaggle.com/c/titanic
这个数据集是一个经典的二进制分类问题。目的是通过花萼长度,花萼宽度等属性预测鸢尾花属于(Setosa(山鸢尾),Versicolour(杂色鸢尾),Virginica(维吉尼亚鸢尾))三个种类中的哪一类。
例如,山鸢尾的花瓣较短,萼片较宽。假如花瓣长度大于3厘米,萼片小于6厘米,那么这种花很可能属于山鸢尾。
此数据集中的变量如下:
同样有许多可用于处理该数据集的教程。其中最流行的是“在鸢尾花数据集上使用Scikit Learn”。对于初学者来说,这是一个非常好的教程,当中因展示了如何使用scikit learn,还具有预构建的功能,能帮你轻松地训练模型。
鸢尾花数据集链接:
https://www.kaggle.com/uciml/iris
列车数据集也是Kaggle上很热门的一个数据集。该数据集包含了乘坐往返于波士顿和华盛顿特区的美铁列车上的乘客信息。
目的是预测乘客是否会在某站下车。根据数据集,可以看到在巴尔的摩下车的乘客比在费城下车的乘客下车的概率更高。
数据集中的变量如下:
根据这些变量,有多种方法可以预测某人是否会在某站下车。
列车数据集链接:
https://www.kaggle.com/c/train-occupancy-prediction/data
波士顿住房数据集包含波士顿市住房的信息。当中有超过20万条记录和18个变量,目标是预测房价是否昂贵。数据集有三个不同的类别,分别是:昂贵、正常以及便宜。
当中的变量包括:
如果你对数据科学领域感兴趣,这个数据集是一个很好的尝试。内容有趣而且不是太难。
波士顿住房数据集链接:
https://www.kaggle.com/c/boston-housing
酒精和药物关系数据集是练习数据可视化技能的绝佳数据集。它包含关于不同药物之间相互作用的信息。
该数据集的目标是根据两种药物的化学结构,从而预测它们是否会相互作用。例如,数据集中表示布洛芬和扑热息痛可以相互作用,因为它们都是抗炎药(NSAIDs)。
数据集中的变量包括:
这是一个很好的数据集,可以用来练习数据可视化技能。你可以在当中试着创建图表,显示不同药物之间的相互作用。
酒精与药物数据集链接:
https://www.kaggle.com/jessicali9530/kuc-hackathon-winter-2018
对于那些在数据科学方面比较有经验的人来说,威斯康星州乳腺癌数据集是一个很大的挑战。这个数据集包含了威斯康星州的乳腺癌患者的信息。
该数据集的目标是根据病人的特征来预测是否患有癌症。
例如,你可以从数据集中看到,肿瘤大小若小于0.50厘米,患者有98%的生存机会,而肿瘤大小大于或等于0.80厘米,患者只有15%的生存机会。
数据集中的变量有:
网上有一些关于如何处理这个数据集的教程。如果你想挑战下自己,可以尝试预测不同肿瘤大小的生存率。
威斯康星州乳腺癌数据集链接:
https://www.kaggle.com/uciml/breast-cancer-wisconsin-data
这个数据集是关于预测糖尿病的。这个比赛有超过15万个例子,你需要预测病人是否会患糖尿病(二元分类)。
变量相当简单,因为只有一个特征:
这项挑战的目标是预测病人在五年内是否会发展成糖尿病。这是练习二元分类问题技能的好方法。
印第安人糖尿病数据集链接:
https://www.kaggle.com/uciml/pima-indians-diabetes-database
亚马逊评论数据集很适合练习文本分析。当中包含了对亚马逊网站上产品的评论。
这个数据集很有趣,当中有正面和负面评论,数据集的目标是预测评论是正面还是负面的。
变量有:
关于如何处理这个数据集,也有很多教程。如果想加大难度,你可以尝试预测情感分析,然后在此基础上建立模型。
亚马逊评论数据集链接:
https://www.kaggle.com/bittlingmayer/amazonreviews
该数据集包含了很多手写体数字图像,当中由大小为28x28像素的图像组成,有6万个训练实例和1万个测试实例。
该数据集的目标是对训练集和测试集中的所有数字进行正确分类。对于这种类型的问题,通常要使用卷积神经网络(CNN)。
网上有很多关于如何处理这类问题的教程,所以我建议你先从基础知识开始,然后再继续学习更高级的方法。
MNIST手写数字数据集链接:
https://www.kaggle.com/c/digit-recognizer
CIFAR-100数据集非常适合练习机器学习的技能。该数据集包含了100张物体的图像,分为六个类别:飞机、汽车、猫、鹿、狗和船。每张图片是32x32像素,有三个颜色通道(红、绿、蓝)。
该数据的目标是预测每张图片属于这六类中的哪一类。
数据集中的变量有:
有很多关于如何应对这一挑战的教程。想加大难度的话,尝试预测以某种方式扭曲或变换的图像标签。
CIFAR-100数据集链接:
https://www.kaggle.com/fedesoriano/cifar100
结语:
本文中列出的10个数据集能很好地磨练你的数据分析技能。如果你是刚刚入门,可以先试着做一些比较简单的数据集,由浅到难,不断深入进阶。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28