
用大数据来判定你的人品
电脑的作用可不仅仅是让你解决复杂的数学问题和播放萌猫视频,随着计算机技术的发展,它将能够判别出我们的为人,也许我们要为此感到庆幸。
一家名为 Upstart 的公司在过去的 15 个月中已经向那些几乎没有信用评级的人们借出了 1.35 亿美元。这些人大多是刚刚毕业的大学生,他们没有可抵押的资产、汽车,也没有相关的信用卡记录。
通常贷款机构会用上述指标来为一个人进行信用评级,以此判定他们是否能够获得贷款资格。然而这些年轻人刚刚踏入职场,还没有为自己建立起这一套用于判定信用等级的依据。因此 Upstart 转而参考了这些人的 SAT 得分、学校背景、所学专业以及在校平均成绩。这家公司需要参考的指标与公司对于录取新员工所做的背景调查差不多,除此之外他还会评估申请者的人格特质。
「如果两个人拥有同样的工作和同样的生活背景,比如都已经有孩子,相比之下那个在校时取得了更高 GPA 得分的人更有可能在五年之后还款。」Upstart 的联合创始人与产品主管 Paul Gu 解释道,「这无关于你的支付能力,它谨代表了你对于履行自己的义务是否看重。」
这种判定方法已经通过数据得以验证,那些会反复检查作业以及为了应对突击测试而额外花时间学习的人更有可能履行自己的债务。
Upstart 会通过数据分析和面对面交流来判定一个人的偿债能力。「我猜你可能会将这些特质称作性格特征,但是我们并没有使用这种标签。」年仅 24 岁的 Paul 向我们解释道。
拥有看重自己所承担义务的人格特质不仅能使人进入更好的学校,取得更好的成绩,同样也会让其看重自己的债务问题。ZestFinance 的创始人 Douglas Merrill 是谷歌公司前高管,他的公司也会通过一些非标准化的数据来判定是否要给一个借款人提供贷款。
Zest 公司的一个常用指标就是该人是否曾经放弃过一个预付费的手机号码。人的居住地变化不定,在找人的时候手机号码相比居住地址更加可靠。放弃了一个常用号码可能意味着你想要(或者不得不)逃避家人与潜在雇主的联系,这对于个人信用来说是一个糟糕的信号。
Zest 最近将业务拓展到那些「次优」借款人中,这些人可能是从最优借款人分类中跌落,也可能是从次级贷款借款人目录中得以提升。Zest 公司所面临的问题就是找出这些人为什么信用评级发生了变动,并且想要从中找出那些潜在的可靠的借款人。或许他们评级发生变化只是因为运气糟糕,比如承担了一次额外的医药费支出。
「『性格』这个词内涵丰富,一个人是否拥有还款能力和是否愿意还钱之间存在着本质的区别。」Merrill 进一步说明道,「如果仅仅是看金融机构提供的流水数据,你难以看出一个人是否具有还款意愿。」
Merrill 拥有心理学博士学位(他从普林斯顿大学毕业,从这点来看 Paul 应该是想要借钱给他的),他认为数据驱动的人格特质分析相比标准化的评判指标要更加公平。
「我们总是用各种方法来评判别人,但是如果没有数据支持,我们就是依靠自己的选择性偏见来做出判断。我们的判断通常来自于自身的认识,这通常就意味着人们总是会偏爱那些与自身相似的人。」利用熟悉感来进行风险管理非常原始的方法,这种方法得出的结果有失公平。
一个人的性格特征(我们通常会选择更为中性的词来表示相同的意思)如今已经可以由许多算法来完成判定。一家名为 Workday 的公司提供基于云端的性格分析软件,该公司发布了一款包含 45 项员工绩效指标的产品,其中包括了一个人在同一职位上工作了多长时间,以及他们的工作业绩如何。该软件中的指标可以用于预测一个员工离职的可能性,并且还能对于如何留住这类员工提供合适的参考建议,比如是给他换个新工作还是进行岗位调整。该产品还能够判断出主管经理是否具有留住人才能力,并且将其分为「人才大师」和「人才终结者」。
在 Workday 公司内部他们会使用该软件产品分析自己的销售队伍,并试图找出一个成功销售员的决定因素,结果发现造就成功销售员的首要品质就是坚韧不拔。
「在决定是否要雇佣某人或者晋升某人时,我们都会有着自己的偏见。」Workday 公司技术策略主管 Dan Beck 如此解释道,「如果你能够使用客观的数据去纠正这种存有偏见的判断,自然是极好的。」
Dan Beck 认为人们研究这些性格特征将会鼓励自身向这些好的品质看齐,因为「如果你知道一种指向成功的模式,那么为什么你自己不接受这种模式呢?」
从某种意义上来看,从数据中研究成功者的性格与行为特征与看名人传记寻找其成功的线索没有什么区别。只不过数据研究这种方式其范围要广得多,因为它的基础建立在观察每一个人的行为方式之上,而不像名人传记仅仅从个案研究入手。
我们有理由相信基于数据分析的性格特质判断会更加可靠。斯坦福大学计算机科学教授 Jure Leskovec 完成了一项对比研究,其内容是将数据分析的预测结果和与法官保释听证会的结果作比较。在保释听证会中法官们只有短短几分钟去评判一个囚犯是否应该获得保释,其结果是否会存在着危害社会的风险。据 Jure Leskovec 介绍,研究早期结果显示,依据数据分析的预测结果在预防犯罪上相比依靠法官个人经验判断获得了 30% 的提升。
「算法是客观的,偏见来源于人心。」Leskovec对其研究进行了总结。
然而这同时道出了很真实且重要的一点:任何算法都不是从天而降的。算法是由人写出来的,即使通过算法得出的结果并无偏见,但是在设计算法的过程中可能偏见已经存在其中,我们最终可能会接受一种有缺陷的信念即数学计算得出结果的永远符合事实。
Upstart 公司的创始人 Paul 表示他拥有完美的 SAT 得分,但是却从耶鲁辍学了,如果按照他自己最初设计的算法,连他本人也无法从 Upstart 公司获取贷款资格。据此他改变了对于算法的设计,因为他意识到了在今后工作中所承担的责任。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29