京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | Daniel Faggella
编译 | CDA数据分析师
机器学习在金融领域的出现,让人们对使用AI自动执行从欺诈检测到客户服务的流程产生了强烈的兴趣。 尽管某些用例的确定性不如其他用例,但我们的研究使我们相信,在未来五年中,银行将继续投资于机器学习,以进行与风险相关的流程,包括保险业。
在关于行业AI播客的采访中,我们与ZestFinance的CTO Jay Budzik进行了交谈,探讨了承销商如何利用基于机器学习的信用模型来赢得更多业务,并通过利用新的数据源来降低风险的方式。现在这些都可以通过数字方式获得,并且已经成熟,可以用于机器学习模型。
这些模型正在挑战传统的信用评分技术,包括FICO评分和简单的评分卡。 在本文中,我们讨论了机器学习如何扩展贷方的客户基础,以涵盖所谓的“看不见信用”(信用记录薄弱或没有信用历史的人)以及信用评分不能准确反映其风险的人。
我们从新的数据源入手:FICO和传统信用评分的范围太窄而无法为关键的人口统计数据提供服务,而这些人口统计结果通常都被拒之门外。
在过去的三十年中,FICO评分和类似的信用评分已成为信用建模的标准。FICO允许银行,信用卡公司和其他贷方客观地评估信贷申请人的信誉。分数是根据五个因素计算得出的,每个因素都由几个权重不同的变量组成,每个变量都占总FICO得分的百分比:
所有这些因素的共同点是,必须事先获得信贷额度。结果,传统的信用评分通常是“隐形信用”进入的障碍。根据美国消费者金融保护局(CFPB)的数据,2015年有2600万看不见信用的美国人,接近十分之一的美国人。此外,CFPB发现“低收入社区的消费者更有可能没有信用记录或没有足够的当前信用记录来产生信用评分。”
这些人群最有可能需要贷款购买大笔商品,但是由于缺乏信用记录,因此在承销商使用传统信用评分来评估贷款和信用额度时,他们无法获得贷款和信用额度的批准:这就是Catch-22。
还有一些借款人的信用评分不能准确反映他们对贷方的风险。益百利(Experian)发现,千禧一代的平均信用评分约为638,低于美国全国平均水平,也远低于前几代。该公司承认,部分原因是这些借款人的年龄;他们的信用记录很薄,信用记录占FICO分数的30%。结果,放贷者可能不批准它们的贷款,因为它们的分数太低,而实际上却没有带来太大的风险。他们还很年轻。
尽管FICO和传统的信用评分被证明对年纪较大的中产阶级美国人有用,但这些评分对习惯于使用借记卡购物的千禧一代和低收入美国人而言可能没有那么大的用处。这些看不见信用的借款人不一定具有风险,但是放款人很少批准它们,因为没有信用评分,他们的风险尚不清楚。
据该公司称,FICO分数不会随着时间而改变。ZestFinance认为,这会使FICO分数很难区分以下两个人:
FICO和传统的信贷模式可能难以解释这两个借款人的生活随时间变化并影响其偿债能力的情况。尤其对于年轻人而言,这可能会带来麻烦,其中许多人正举债挣扎。
益百利(Experian)在Opploans的一项调查中报告说,大约四分之一的千禧一代认为他们没有得到良好信誉的教育。同一项调查还发现15%的千禧一代经常错过信用卡付款。
他们可能会在以后的生活中找到自己的财务基础,从而可以轻松按时付款,但是传统的信用评分不会立即反映出来。这些借款人可能因为他们年轻时建立的不良信用记录而难以获得批准,并且无法开设信用帐户将使他们的得分保持较低。再次,这是一个陷阱22。
新的数据源可能是解决方案。
根据Budzik的说法,FICO分数可能会将一打或两个变量纳入其分数:
我们为客户量产的模型中往往包含数百或数千个变量。我们有一个拥有2200个变量的公司,它在从事自动贷款业务。
更多的数据意味着更细微的信用模型,这些模型可以使承销商更准确地了解贷款申请人是否存在风险。新数据源可能包括:
这些类别的数据将以某种方式通知贷款申请人的信誉,但是传统的信贷模型并未考虑其中的任何一个。
根据Budzik:
为了能够考虑更多的变量,[贷方]需要能够处理它们的新算法。机器学习提供了解决该问题的方法。ML可以考虑所有这些变量,但不会犯错误。传统的评分技术会被诸如数学的相关性和局限性之类的东西绊倒。
通过机器学习,理论上可计入信用模型的数据源数量是无限的。存在无数变量可以预测申请人的还贷能力,并且机器学习擅长在大型数据集中查找模式。基于ML的信用模型可能会考虑到尚未知道的数据点,以预测借款人偿还其贷款的可能性。
例如,Zest 与Discover合作,利用信用卡公司的消费者支出数据库,为其75亿美元的个人贷款业务建立了新模式。Zest声称该模型评估了数百个申请人数据点,比Discover以前使用的信用模型高出十倍。
据称建模者发现,折扣商店购物的历史增加了申请人获得个人贷款的机会,而申请人在贷款申请上写上雇主的法定全名会降低这种可能性。
从座机或手机而不是Skype或其他互联网电话服务致电Discover的申请人被认为是更安全的选择,因为它们更容易追溯到个人。
此外,这些来源的组合本身会创建自己的数据点。例如,贷款申请人有时会购买汽车配件的事实可能不会影响他们自行偿还汽车贷款的能力。
乙UT这与该申请人要拿出贷款可能表明更低或更高的可能性,申请人将支付那笔贷款后面的车的品牌组合。保险人几乎不可能弄清这种关系,但它们在很大程度上是机器学习的价值。
此外,机器学习可能比传统的信用模型更具适应性。开发新的信贷模型可能需要一年甚至更长的时间,这可能会阻碍银行跟上不断变化的经济形势的能力。
客户和市场可以相对快速地变化。一些用于信贷承销的机器学习软件带有自动风险管理功能,该软件可以使贷方在不到一个月的时间内对模型进行调整,以便随着经济的发展适应其承销业务。
机器学习可以允许银行和其他贷方通过批准更多的信用隐性申请人和更多信用评分不完整的信用状况申请人来增加收入。例如,ZestFinance声称已借助基于机器学习的信贷模型帮助Prestige Financial Services将贷款批准增加了14%。
同时,贷方可能能够增加收入而又不会增加风险。承销商可以开始拒绝比其信用评分所暗示的风险高的贷款申请人。结果,贷方可以减少从这些借款人那里蒙受的损失。
机器学习还可以实现更准确的基于风险的定价。如前所述,与传统模型相比,基于ML的信用模型可以处理更多的数据,从而使申请人的支付能力更加细致入微。结果,贷方可以更加细化他们为借款人提供的利率。
ML可以弥补两个非常相似的借款人之间的微小差异,而这些差异可能值得通过为一个借款人提供更高的利率来加以利用。这样可以增加每个借款人的利润率,而不会增加承销商审查借款人申请的时间。结果,从规模上讲,贷方可能会看到收入的大幅增长。
依靠新数据源的机器学习模型可以以传统模型完全专注于信用历史记录的方式评估信用隐性申请人。基于机器学习的信用模型的结果是,申请人可能会发现贷方正在批准它们,而这是他们以前所没有的。信用记录薄弱的年轻人可能能够建立自己的信用,因为贷方可以开始注册。
同样,在未来,千禧一代可能会发现,过去的信用失误并不能阻止他们在将来更有能力偿还贷款时获得大笔购买的贷款。
另外,Budzik指出:
贷方可以避免这种情况,而不是批准将要违约的人……通过向无法付款的人提供信贷来制造麻烦,而可以避免这种情况并防止这种情况发生在消费者身上
如前所述,具有良好信用评分的贷款申请人可能构成比其评分所反映的更大的风险。分数在700左右并触犯法律的申请人可能被迫在一年内分期付款。这样的判断可能会影响申请人偿还贷款的能力,影响其信用评分,并给他们的未来造成更长期的损害。
基于机器学习的信用模型会考虑未决的案件,这可能表明承销商不会完全批准申请人,即使他们的信用评分表明他们值得贷款。放贷人本质上可以通过不首先批准贷款来对付风险较高的消费者拖欠其贷款的风险。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02