互金时代大数据在贷后管理中的应用-CDA数据分析师官网

互金时代大数据在贷后管理中的应用

2016-08-18

互金时代大数据在贷后管理中的应用

在互联网金融时代，无论是传统商业银行还是新兴的互联网金融公司，面临的风险和挑战日益增加。在这种情况下，如何利用大数据技术及时有效地防堵各类信贷风险，也一直是各界关注的热点问题。大数据技术可以让贷后管理变得更简单吗？这篇来自“朝阳35处”的文章，将着重讲解这方面的应用。

个人信贷不良资产管理压力增大，贷后管理成管控重点

近年来，随着我国个人信贷市场业务规模快速增长，个人不良贷款余额和不良率不断走高也成为困扰金融信贷机构的首要问题。以银行个人信贷业务为例（如图1所示），其2015年第二季度不良贷款余额已达到1.18万亿元，不良贷款率也达到1.6%。

图一

相比于银行，互联网金融平台不良资产的问题和难点则更加凸显。陆金所董事长兼CEO 计葵生年初曾对媒体表示，网贷行业平均不良率高达13%-17%。相对于传统金融机构，互联网网贷行业平均不良率明显更高。

面对这一严峻形势，不良资产的管理能力逐渐成为金融信贷机构关注的重点领域。

不良资产管控的核心有两大方面，一是控制不良资产新增，二是化解存量不良资产。控制不良资产新增的有效手段是在“贷前”阶段建立完善风险管理措施，严格把控客户准入门槛。

而化解存量不良资产的核心则是“贷后管理”。

所谓贷后管理，主要内容是对不良资产进行有效评估，并以此为基础对客户进行分群，辅以失联修复手段，对不同客群采取差异化的催收策略。

贷后管理是不良资产管控的重点，而失联修复则是化解存量不良资产的先决条件。

以贷后管理中的催收为例，现阶段催收人员只能通过借贷人申请贷款时留下的三到五个关联号码和其进行联系。如果借贷人当时本就无心偿还贷款，已有号码有效率会非常低。就现在的国内个人信贷市场而言，新客户中失联比例达到30%~50%，而在进入不良阶段后，客户失联比例高达70%。

这时，对大部分商业银行和互联网金融公司而言，只使用贷款人当时提供的联系方式使贷后催收变得困难，需要寻求外部数据的支持协助。只有在结合外部数据对失联客户进行信息修复，可以很大程度上帮助催收部门和客户重新取得联系，从而化解存量不良资产。

然而，在初步修复客户信息后，新的问题出现了。一种经常出现的情况是，与客户有关联的联系人过多，有些客户的联系人可以多达几十个甚至上百个。这又给催收人员带来了另一种窘境，在面对过多的电话号码，如果一个个拨打，不仅耗时耗力更不符合实际情况。即使手上掌握了欠款客户充足的信息，但如果联系号码数量巨大，则修复率并不能够被保证。

大数据模型助力提升失联修复率

下面我们来举例说明，利用大数据筛选模型，如何解决客户联系人号码过多的问题。首先我们需要建立一个模型来对众多号码修复的成功率进行预测，从而通过筛选或排序，使催收人员可以从最可靠的号码开始联系客户。

我们可以先选取小规模的数据集进行研究。比如，我们抽样选取了9000多个联系人的数据，每组数据包括联系人的电话号码，对应的数据来源，电话更新时间以及是否有效修复失联的标签。其中，能够修复失联的定义为：电话号码是有效可以拨通，且联系人表示认识并愿意转告客户，积极提供客户信息；而空号，不可拨通，联系人态度差，表示不认识，或者认识客户但不愿意联系客户的电话号码则为无效。

这9000个样本联系人号码在数亿量级的全量数据库中，与其他联系人号码通过各种关系形成了一个个网络。如图二所示，一个节点代表一个联系人的电话号码，而两点之间的边则代表这两个电话号码之间存在某种关系。每个节点的自由度定义为与这个节点相连的边的数目。通过分析网络中每个节点的自由度，我们可以进一步得知与每个号码有联系的号码个数。以节点1为例，该电话号码与4个号码有联系，它的自由度为4；节点2的自由度为3。节点的自由度越高，代表持有该号码的人的社交圈子越大。

图二

1.使用单变量分析

首先我们用单变量分析的方法看一下节点自由度、更新时间以及不同数据源对失联修复率的影响。图三显示了节点自由度与失联修复率的关系。当节点自由度为1时，失联修复率最低，只有14%。随着节点自由度的增大，失联修复率也随之提高。当节点自由度为3时，失联修复率达到极值24%。随后，失联修复率随节点自由度的增大而降低。

图三

图四显示了电话号码更新时间与失联修复率的关系。由图可见，失联修复所使用的信息几乎99%都来源于最近四年的数据。其中，2014年更新的数据失联修复率最高，达到18%，而2015年更新的数据失联修复率最低，只有11%。

图四

图五显示了不同数据源与失联修复率的关系。我们整合了九个不同的内、外部数据源，所有的数据源均有用户授权。为了保护商业机密，我们不对数据源进行公布。但可以看到的是，数据源2、3和4的失联修复率最佳，均可达到20%，而数据源7表现最差，只有10%的失联修复率。

图五

2.使用机器学习模型

上述的单变量分析只能统计单个变量对失联修复率的影响，如果这些变量相互独立，我们可以通过简单的乘法公式计算出这些变量联合起来对失联修复率的影响。然而，这些变量显然不是相互独立的，而是彼此关联的。例如，对于数据源1，当电话号码的更新时间为2014年时，失联修复率最高；而对于另外一个数据源，当电话号码的更新时间为2016年时，失联修复率最高。

为了分析这些相互关联的变量联合起来对失联修复率的影响，我们采用Gradient Boosting非参数模型进行建模，来预测某个号码失联修复的概率。为了验证模型效果，我们将数据集进行拆分，其中训练集大小为6000，而测试集大小为3000。

在训练集上训练好模型之后，其在测试集上的表现如图六所示。修复概率排名前10%的号码的失联修复率为28.1%，这相对于整个数据源15.3%的平均修复率，提升达到了83%！这种优化带来的收益非常明显，如果与某客户相关联的联系人号码超过十个甚至上百个，通过上述方式的筛选则可以得到五到六个质量较高的联系人号码，使得催收人员轻松有效地找到失联客户；如果一个失联客户联系人数目较少，催收人员也可以按照大数据模型给出的电话号码靠谱程度排序，从高到低进行拨打，从而更快找到失联客户，显著提升催收效率。

图六

大数据对信贷风险管理的影响是巨大的，本文所述的也只是冰山一角。事实上，如果可以逐步建立以大数据分析逐步替代个人判断的新型信贷风险管理架构，围绕大数据分析对信贷风险管理架构进行重组与再造，势必会能提高金融机构信贷风险管理的有效性，进而平抑信贷不良率波动。因此，如何运用好大数据的众多“功夫”，推动金融信贷的良性发展，将会一直是今后热门的话题。

大数据数据分析机器学习

数据分析咨询请扫描二维码

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

互金时代大数据在贷后管理中的应用

考试指南

报考指南

热门栏目