京公网安备 11010802034615号
经营许可证编号:京B2-20210330
Kaggle机器学习大调查:中国从业者平均25岁,博士工资最高,最常使用Python
笔者按:Kaggle 是互联网上最著名的数据科学竞赛平台之一,用户数量超过了100 万人。最近,这一社区首次进行了机器学习/数据科学现状调查,向我们提供了有关从业者人群、业界最新动态以及如何进入该行业的洞见。
在超过 16,000 名从业者的详尽答卷中,我们可以一窥目前业内的发展趋势。
报告包括以下重点内容:
Python可能是当前最常使用的机器学习工具,但更多的统计学家仍然用R语言。
总体来说数据科学家平均年龄在30岁左右,但随着不同国家这个具体数值也在变化,例如,印度的受访者总体比澳大利亚平均年龄小9岁。
受访者学历占比最多的似乎是硕士,但是工资最高的(年薪150K以上)则更多是博士学位获得者。
雷锋网编译和解读报告内容如下,后台回复关键词“Kaggle调查”获取。
一、数据工作者是什么样的?
观察数据从业者的方式有很多,但本文将从人口统计学信息也就是数据科学从业者的工作和背景开始。
你的年龄是?
如图可见,本次调查对象的平均年龄大约 30 岁,但这个值在各个国家之间有变动。中国机器学习从业者年龄分布较为集中在20-45之间,中位数年龄非常年轻,在25岁左右,而美国的年龄分布则较为广泛,从图表上看起来,不乏百岁长者和稚子。
你目前的就业状况如何?
受调查者中,有 65.7% 表示自己有全职工作。但当将国籍选定为中国之后,这一数字的比例下降到53.5%。
你的职位是什么?
我们发现,数据科学领域可涵盖的工作非常多。比如在伊朗和马来西亚,数据科学从业者最流行的工作头衔是「科学家或者研究者」。在中国,最流行的头衔前三位是“机器学习工程师”、“数据分析师“以及”数据科学家“。
你的全职年薪是多少?
中位数$55,441,不过由于很多人没有全职工作,所以这一数字不见得准确。
就平均收入来说,美国的机器学习从业者薪资最高,年薪11万美元。中国则明显低于这个数字,平均不到$30K.印度则只有$11K,
你的最高学历是什么?
总体来说,数据科学从业者中最普遍的学历是硕士,但是获取最高薪水($150K - $200K 和 $200k+)的那些人多是有着博士学位。
中国的机器学习从业者学历以本科(39.5%)和硕士(40.5)为主,博士学历仅占比11.2%。美国对应的学历百分比则分别为26.5%,44.5%,和20.7%。
总体来说,被调查者的平均水平是数据科学家职称,30 岁左右,硕士学历,年薪$55,000 左右。但实际情况并不如此平均。这些最初的几个人口统计学问题只是展示了复杂的 Kaggle 数据科学社区在年龄、性别、国籍、工作职称、薪水、经验和学历方面的表层差异。
二、数据科学家的工作内容是什么?
我们把数据科学家定义为写代码以分析数据的一群人。他们的日常工作内容是什么?以下是我们的调查结果。
这一部分的问题受访者不再以国籍分类, 而是以所在公司规模、行业等。
工作中你使用什么数据科学方法?
Logistic 回归是工作之中最为常用的数据科学方法,不过军事领域和国家安全领域中神经网络使用则更为频繁。
总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。我们看到目前神经网络模型的使用频率要高于支持向量机,这可能是近来多层感知机要比使用带核函数的 SVM 更加广泛的表现。
工作中你使用最多的工具语言是什么?
Python 是数据科学家最常用的语言,也是最常用的数据分析工具。不过,还有很多数据科学家对R 语言仍保持着较高忠诚度。
在工作中你常用的数据类型是什么?
关系型数据是开发者在工作中最常用的数据类型,大多数产业工程师都十分关注。而学术研究者和国防安全产业则更关注文本与图像。
如何分享工作中的代码?
超过一半数据工作者(58.4%)使用Git分享代码。不过,大公司的工作者更喜欢将代码保留在本地,并将代码用邮件分享。而初创公司可能需要在云中共享以保持更加敏捷的反应。
工作中遇到的障碍主要是什么?
脏数据(dirty data)以占据接近一半的比例位列第一,脏数据(Dirty Read)是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,也就是说数据科学家一般最常见的困扰就是需要对数据进行大量的预处理工程。
紧随其后的是“缺乏数据科学天赋”、“缺乏资金和管理支持”“缺乏一个能明确回答的问题”以及“数据不可用或无法获取”。
值得注意的一点是,当调整公司规模到中小型企业,“缺乏资金组建数据团队”这一选项立刻跃居第三。看来资金和人才始终是创业公司面对的一大难题。这也意味着新的数据科学家很幸运。他们进入了一个抢手的行业。
三、数据科学家新手如何入行?
寻求新的职业发展时,看看别人的成功秘诀往往很有帮助。我们调查了在数据科学行业工作的人们,询问他们是如何“成功”的。以下是我们觉得较好的几条建议:
你建议数据科学家新手最先学哪门语言?
每一位数据科学家对于如何选择第一门语言都有自己的想法。事实证明,那些使用 Python 或 R 语言的人们做出了正确的选择。不过如果你问一下使用过 R 和 Python 的人们,他们推荐 Python 给你的概率可能会大两倍。
你们使用哪些数据科学学习资源?
数据科学是一个快速变化的领域,有很多有价值的资源可以帮助你学习并保持业内顶尖的位置,从而不断提升自己的竞争力。已经在数据科学领域中工作的人更多使用 Stack Overflow Q&A,Conferences 和 Podcasts,以在这个新人辈出的行业保持与时俱进。如果想要发布内容或开源软件,请记住,刚进入这个领域的人们通常更多使用官方的文档和观看 Youtube 视频。
你们在哪里获取开源数据?
没有数据,就没有数据科学。当需要学习数据科学技巧的时候,知道如何找到干净的开源数据集用于练习和开发项目相当重要。我们很高兴的得知,我们的数据集聚合器(dataset aggregators):https://www.kaggle.com/datasets 正发展为数据科学社区成员中最频繁使用的工具。
你们怎么找工作,以及怎么找到的?
找工作的时候你可能会到公司网站上,或寻找指定技术方向的招聘信息,但是根据已经在数据科学领域工作的人们的经验,这些方式是最差的选择。而通过建立自己在这个行业的关系网络、直接联系招聘者或建立自己的网络以进入这个领域才是他们的首选。
注:少于 50 名受访者的组别被合并进了「Other」类中。其中一些柱状图为了美观而做了缩放处理,希望查看所有问题和结果的原始数据可访问源网页查看。原报告后台回复关键词“Kaggle调查”获取。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22