数据分析1382份简历：就业性别歧视真的存在吗？-CDA数据分析师官网

热线电话：13121318867

数据分析1382份简历：就业性别歧视真的存在吗？

2017-12-19

数据分析1382份简历：就业性别歧视真的存在吗？

在求职时，性别真的有影响吗？不同行业、不同职业类别的人对此或许有不同看法。这样的看法是如何产生的？有没有一种科学的方法来衡量呢？美国旧金山的一位数据科学家Prasanna Parasurama通过对1382份简历的分析得出了结论：性别不平等往往和求职者的个人客观条件无关，而更多来自公司主管不可控的主观因素。

用大数据的方法来衡量职场的性别不平等

在科技业，求职时的性别不平等一直是个重要话题。但针对该议题，在实际操作层面却鲜有基于大数据的系统性研究。

对于那些拥有大量数据的企业来说，缺乏一个严格而科学的系统很容易导致人力资源部门仅仅根据道听途说来推测性别不平等问题产生的原因，而忽略了真正的根源。

为了这个目的，本文提出了一种可重复地用来评价求职性别不平等的系统研究方法，并且附带使用这种方法进行评价的案例。

样本和研究方法：基于1382份简历的数据分析

这次研究中用到的是一个数据工程师职位的1382名求职者的简历数据，其中1029人为男性，占74.4%，353为女性，占25.5%。

需要指出的是，因为不知道这些求职者的性别（注：在美国等一些国家，为了避免各种偏见，简历一般不附带求职者个人照片和性别信息等），因此上述性别人数和比例是基于求职者的姓名和Atipica公司（注：即本文作者所在的公司）的性别预测模型得到的，总的准确率可以达到96%，但会产生4%的误差。在后续的分析中，这一误差也可能会有所影响。

而求职者的职业技能也由Atipica公司的技能映射模型获得。

首先，我们需要明确的是，如何通过指标来衡量性别不平等？

通过比较特定职位的男女求职者的被拒比例，我们可以确定是否存在潜在的性别不平等，因为在其他条件相同的情况下，理论上被拒比例应该是接近的。

（图片说明：被拒比例=被拒的申请者人数/总申请人数）

在这项研究中，我们通过比较在审查求职申请阶段的被拒率来衡量不平等。选取这个阶段的原因主要有以下两个：

+ 在审查求职申请的阶段，雇主会有多重方式来评价一个求职者，例如，电话沟通技巧等，而不是单一通过简历来评价。为了减少不可控因素，我们把数据的收集固定在这个阶段。

+ 审查求职申请通常对于之后的进一步考察影响最大。我们发现约90%的求职者在这个阶段会被拒。

那么在审查求职申请阶段产生的被拒率的差异都可以被归结为：

+ 客观因素：工作经验、教育背景和技能体系。

+ 主观因素：被认为教育背景不符合、被认为工作经验不符合、故意或者非故意的偏见。

由于主观因素的本质，它本身是不可控的，所以我们把研究对象限定在客观因素。

我们基于以下假设对统计数据的显著性做了测试：

在测量显著性过程中，我们必须要考虑到两类误差。一是样本误差，二是性别预测的误差（4%）。考虑到性别预测误差，我们放弃了T检验（注：即t-test，是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著）。这类传统参数测试，而改用了置换测试并且配合蒙特卡洛方法，在每次重复测试中都在男性和女性中做了4%的样本交换，并且验证了重复性假设。

数据分析：男性和女性技能相差不大，但女性被拒率更高

被拒率的差异：