登录
首页精彩阅读风控中的大数据和机器学习
风控中的大数据和机器学习
2016-06-10
收藏

风控中的大数据和机器学习

为什么说互联网时代的借贷和风控是由大数据驱动的?

1.  风控的核心
风险控制需要做什么?我们认为相比逾期率的绝对数值, 对于风险的控制能力要重要得多。 借款人需要享受合理的额度和借款成本。 投资人需要能够得到合理的风险调整后收益。作为撮合方的P2P平台,则希望在满足借款人和投资人两方的需求的同时(这是先决必要条件),尽可能地服务更多的用户。在这个过程中的核心是对每一笔借款违约概率的准确预测 :
借款人:基于借款人的风险预测,优质的借款人能享受更低的借款成本和更高的额度。相对不那么优质的借款人则需要付出更高但还是合理的成本。最劣质的借款人(甚至是欺诈借款人)则会被直接拒绝。

投资人:由于借款人承担的利息成本是基于其风险设置的,我们可以在大数上设定为未逾期的借款人所付出的利息减去逾期借款人带来的本金损失后依旧能够达到合理的收益水平。 
平台:需要合理地平衡借款人的成本和投资人风险调整后的收益。原则上,只要
1)投资人收到的利息足够覆盖风险(需在分散投资的情况下),
2)借款人能够接受成本,
3)这样的成本被法律保护,则平台就应该努力撮合这笔交易。
满足上述原则的过程,我们称为“风险定价”。
2. 线上风控的挑战和机遇
传统银行在做个人信用类贷款(例如信用卡申请)时,主要依赖申请资料、本行信贷历史以及央行征信报告作为风险评估的数据基础。基于相关信贷政策,各个银行会或多或少地利用反欺诈和信用风险模型,结合人工决策,来最终决定是否放贷。
相比于传统银行,P2P行业在征信报告和信贷历史数据上有着先天的劣势。拍拍贷作为目前全国唯一一家纯线上的P2P平台,其所有借款申请中的征信环节也都是在线上完成的,所以相对于传统银行甚至其它P2P平台,在申请资料数据的收集与核实上,面临着更大的挑战。
然而与挑战共存的也是机遇。相比传统银行和线下业务为主的P2P平台,线上获客拥有以下优势:
互联网可以提供每个借款人的庞大的、碎片化的、种类繁多的信息。
互联网的高效性和爆发性使我们能以较低的成本、较短的时间,积累大量的用户数据,为分析建模提供足够的样本量。
这种大样本量、多维度、非结构化的数据非常适合各类大数据分析处理和机器学习技术的运用。

3.  大数据机器学习在风控中的应用
我们所说的“大数据”并非指绝对的样本量的巨大。 跟传统银行相比,P2P的样本数并不在一个量级上。 如上文所描述,我们的“大数据”更多的是指运用大量的非常规的信息来评估风险,所以相比数据行数的多,主要还是数据维度的多和杂。

过去的10年里,机器学习领域有了天翻地覆的发展。我们认为在机器能够击败一流围棋高手的时代,让机器基于海量的、人工根本来不及消化的数据来评估一个人借钱后是否会还钱,其可行性是很高的!

数据分析咨询请扫描二维码

客服在线
立即咨询