京公网安备 11010802034615号
经营许可证编号:京B2-20210330
CDA数据分析师 出品
作者:Andrew Lombarti
编译:Mika
Kaggle是一个很流行的数据科学竞赛平台。在上面,你不仅可以参加各种数据分析题竞赛,还可以通过各行业的真实数据集来实践自己的技能。
在本文中我们将介绍10个数据集,从适合新手小白到高级进阶人群的都有。这些数据集非常有趣,而且还很适合在面试前练习技能。
下面让我们一起来看看吧!
泰坦尼克号数据集是Kaggle上最热门的数据集之一。这是一个很好的入门数据集,当中涉及到13个变量和超过1500个记录。该数据集中包含了乘坐泰坦尼克号的乘客信息。
目标是根据乘客的特征来预测他们是否能幸存下来。根据数据集,你可以看到已婚女性比单身男性有更高的存活概率。
该数据集中的变量有:
关于如何处理这个数据集,网上已经有很多教程了。如果你想挑战一下自己,不妨试着预测乘客在不同地点登船的存活率。
泰坦尼克号数据集链接:
https://www.kaggle.com/c/titanic
这个数据集是一个经典的二进制分类问题。目的是通过花萼长度,花萼宽度等属性预测鸢尾花属于(Setosa(山鸢尾),Versicolour(杂色鸢尾),Virginica(维吉尼亚鸢尾))三个种类中的哪一类。
例如,山鸢尾的花瓣较短,萼片较宽。假如花瓣长度大于3厘米,萼片小于6厘米,那么这种花很可能属于山鸢尾。
此数据集中的变量如下:
同样有许多可用于处理该数据集的教程。其中最流行的是“在鸢尾花数据集上使用Scikit Learn”。对于初学者来说,这是一个非常好的教程,当中因展示了如何使用scikit learn,还具有预构建的功能,能帮你轻松地训练模型。
鸢尾花数据集链接:
https://www.kaggle.com/uciml/iris
列车数据集也是Kaggle上很热门的一个数据集。该数据集包含了乘坐往返于波士顿和华盛顿特区的美铁列车上的乘客信息。
目的是预测乘客是否会在某站下车。根据数据集,可以看到在巴尔的摩下车的乘客比在费城下车的乘客下车的概率更高。
数据集中的变量如下:
根据这些变量,有多种方法可以预测某人是否会在某站下车。
列车数据集链接:
https://www.kaggle.com/c/train-occupancy-prediction/data
波士顿住房数据集包含波士顿市住房的信息。当中有超过20万条记录和18个变量,目标是预测房价是否昂贵。数据集有三个不同的类别,分别是:昂贵、正常以及便宜。
当中的变量包括:
如果你对数据科学领域感兴趣,这个数据集是一个很好的尝试。内容有趣而且不是太难。
波士顿住房数据集链接:
https://www.kaggle.com/c/boston-housing
酒精和药物关系数据集是练习数据可视化技能的绝佳数据集。它包含关于不同药物之间相互作用的信息。
该数据集的目标是根据两种药物的化学结构,从而预测它们是否会相互作用。例如,数据集中表示布洛芬和扑热息痛可以相互作用,因为它们都是抗炎药(NSAIDs)。
数据集中的变量包括:
这是一个很好的数据集,可以用来练习数据可视化技能。你可以在当中试着创建图表,显示不同药物之间的相互作用。
酒精与药物数据集链接:
https://www.kaggle.com/jessicali9530/kuc-hackathon-winter-2018
对于那些在数据科学方面比较有经验的人来说,威斯康星州乳腺癌数据集是一个很大的挑战。这个数据集包含了威斯康星州的乳腺癌患者的信息。
该数据集的目标是根据病人的特征来预测是否患有癌症。
例如,你可以从数据集中看到,肿瘤大小若小于0.50厘米,患者有98%的生存机会,而肿瘤大小大于或等于0.80厘米,患者只有15%的生存机会。
数据集中的变量有:
网上有一些关于如何处理这个数据集的教程。如果你想挑战下自己,可以尝试预测不同肿瘤大小的生存率。
威斯康星州乳腺癌数据集链接:
https://www.kaggle.com/uciml/breast-cancer-wisconsin-data
这个数据集是关于预测糖尿病的。这个比赛有超过15万个例子,你需要预测病人是否会患糖尿病(二元分类)。
变量相当简单,因为只有一个特征:
这项挑战的目标是预测病人在五年内是否会发展成糖尿病。这是练习二元分类问题技能的好方法。
印第安人糖尿病数据集链接:
https://www.kaggle.com/uciml/pima-indians-diabetes-database
亚马逊评论数据集很适合练习文本分析。当中包含了对亚马逊网站上产品的评论。
这个数据集很有趣,当中有正面和负面评论,数据集的目标是预测评论是正面还是负面的。
变量有:
关于如何处理这个数据集,也有很多教程。如果想加大难度,你可以尝试预测情感分析,然后在此基础上建立模型。
亚马逊评论数据集链接:
https://www.kaggle.com/bittlingmayer/amazonreviews
该数据集包含了很多手写体数字图像,当中由大小为28x28像素的图像组成,有6万个训练实例和1万个测试实例。
该数据集的目标是对训练集和测试集中的所有数字进行正确分类。对于这种类型的问题,通常要使用卷积神经网络(CNN)。
网上有很多关于如何处理这类问题的教程,所以我建议你先从基础知识开始,然后再继续学习更高级的方法。
MNIST手写数字数据集链接:
https://www.kaggle.com/c/digit-recognizer
CIFAR-100数据集非常适合练习机器学习的技能。该数据集包含了100张物体的图像,分为六个类别:飞机、汽车、猫、鹿、狗和船。每张图片是32x32像素,有三个颜色通道(红、绿、蓝)。
该数据的目标是预测每张图片属于这六类中的哪一类。
数据集中的变量有:
有很多关于如何应对这一挑战的教程。想加大难度的话,尝试预测以某种方式扭曲或变换的图像标签。
CIFAR-100数据集链接:
https://www.kaggle.com/fedesoriano/cifar100
结语:
本文中列出的10个数据集能很好地磨练你的数据分析技能。如果你是刚刚入门,可以先试着做一些比较简单的数据集,由浅到难,不断深入进阶。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27