登录
首页精彩阅读大数据根本无法解答风控命题别扯了
大数据根本无法解答风控命题别扯了
2017-07-22
收藏

大数据根本无法解答风控命题别扯了

现在很多人在扯大数据能解决风控难题,事实上都是一厢情愿,不现实也不可能!

诚然,大数据可以优化管理、提高风控效率、降低风控成本,但是无法决定风控质量,金融机构的风控质量永远是个一揽子系统工程。不同金融机构面对同一风险等级的客户,它们的风控往往不是同一个水平。因为不同的金融机构有不同的风险承受能力,自然会形成不同的风险定价,存在差异性。
所以,我曾说,很多互联网金融公司提出来的征信系统接口如何开放的问题,其实是无法解答风控命题的。不是说征信系统开放了,你风控就OK了,这是不可能的。因为全行业都面对同一个征信系统,最终的使用效率、定价能力,还是取决于你自己的能力。越是公开透明的市场,其实竞争的难度越大,单纯开放征信系统不能解决风控问题。
仔细分析下为什么大数据无效,我的理由是多方面的——
大数据无法预测系统性风险
第一个理由就是,金融其实是看天吃饭的。我一直坚持认为——金融是被经济形势所决定的,在经济形势低迷的情况下,金融机构无论怎么折腾都很难玩出特别好的花样。2008年金融危机一来,覆巢之下安有完卵,就是这么简单的道理。系统性风险是任何一家金融机构都必须面临的现实问题,大数据风控在系统性风险面前,毫无意义。
那么,大数据能否预测经济形势,即预测系统性风险呢?很多人说大数据可以做到,我觉得都是扯淡。过去是无法有效推演未来的!
就个人而言,是否有通过数据分析形成准确判断的可能性?这个很难说,有人一叶而知秋,有人一叶而障目,都是个人能力的结果。个人能力很难说是一种模式的核心竞争力,也缺乏可持续性。
经营性贷款无法进行大数据风控
第二个理由是,金融行业其实不完全符合大数据所要求的逻辑前提。大数据的核心逻辑前提是统计学,有两个要素:一是样本筛选,就是通过数据筛选出相同特征的群体出现违约的概率;二是需要足够数量来覆盖统计学里的偶发性特征。两者是统一而不可分割的。
因为大数据的相关性必然是建立在足够大样本量基础上的,仅仅是个体相关不足以成为推断相关性的基础。也就是说,在金融业务操作的时候,也必须覆盖足够大的人群,但足够大是多少?对于单一金融机构而言,“足够大”已经是个绝对致命的难题了。
另外,这里其实还隐含一个基础逻辑,就是每个操作的业务群体还要呈现独立非相关,否则也没啥意义。
这里我们做个小讨论:经营性贷款能否做大数据风控?我认为,经营性需求很难使用数据来进行模型化。为什么呢?先从企业主来看。什么人会成为企业主?事实上,只要成为企业主,无论是大是小,他们都自动从普通人群里独立出来了。再小的企业主,其实都是社会的另类,成功的是精英,失败的是脑残,唯一不可能的就是社会公众。所以这类人本身就是异类,个个都充满极大的不确定性和变数,很难被量化和模型化。
这里还有一个问题,相同的人群在不同场合呈现的特征是不一样的,尤其是目前人们在线上、线下割裂的状态,其行为方式往往会出现强烈的反差。因此,对于同一个人,根据单一维度数据对其进行判断的意义是很有限的,不同维度的数据会反映出极为不同的特征,这时候全数据就显得异常重要。
所谓全数据,就是N=所有,这个概念是牛津大学互联网中心的维克托迈尔-舍恩伯格教授提出的,他最喜欢的对于大数据集合的定义是“N=所有”,这里不再需要采样,因为我们有整个人群的数据。这就好比选举监察人不会找几张有代表性的选票来估计选举的结果,他们会记点每一张选票。当“N=所有”的时候,确实不再有采样偏差的问题,因为采样已经包含了所有人。
这个说法很有意思,因为互联网的海量容纳数据的可能性,的确给了全数据一个很好的假设前提,但是这个命题很容易回归到假设的前提上去,在未实现全数据之前,就别谈大数据了,毫无意义!
金融行业会“未来改变现在”
第三个理由是,大数据的前提——“过去决定未来”,并不总是成立的。现实中往往会出现未来改变过去的情况。这个有点难以理解,啥意思呢?其实很简单,就是一个人某些特征值的改变,会改变系统对他过去的数据所形成的基本特征的认定。
比如我们经常说“男人有钱就变坏”,这里隐含的逻辑是,过去判断一个男人是好人,是建立在他没钱的基础上的。而一旦这个基础被破坏,这个男人变成有钱人的时候,他就已经脱离了最早的系统判定,进入另外一个范畴了。因此,这个未来的变化,直接把过去建立的逻辑给打破了。
这种现象其实是一个循环函数的概念,带有变量值的东西往往是无法建模型的。我们在金融运作中经常发现这样的现象:给钱之后的企业跟给钱之前的企业,是有绝对不同的基础性特征的。过去往往被未来给改变了。
以前也碰到过有人谈所谓的“量化炒股”,设定各种各样的模型来实现炒股的自动化。这种方法,在你规模不大的情况下,我认为还真是有一定的成功概率的。但是一旦你的规模足够大,你自己也成为了市场的重要角色的时候,你就会发现你所有模型失效了,因为你进入了死循环。《银河帝国》里面给了一条重要的假设,就是所有成为统计样本的样本主体,并不知道自己是被统计的样本,否则就会失去统计意义。
前段时间碰到一朋友,谈到大数据风控,我们无法在大数据是否可以建立风控模型上达成一致。最后,退而求其次,我就说,好吧,假设你的模型能成立,事实上,你会面临一个非常严重和致命的问题,就是你的客户群体,会变得让你越来越不认识。
为什么呢?因为一旦某互联网金融公司采取大数据的量化放贷,在市场就会出现大量的放贷机构,依附在这个互联网金融公司之上,进行尾随和跟踪放贷。也就是在这个金融公司放贷的基础之上,再配置20%左右的贷款,期限比其更短。在这种情况下,这个金融公司之前所设定的所谓模型,会全部失去效应。事实上,在传统信贷中,浙江大量股份制银行就是采用如此策略,使得大银行的所谓风控审核都形同虚设。
“风险滞后”使风控无法数据模型化
第四个理由是,金融业还有一个与其他行业不同的地方,就是风险滞后。风险滞后意味着什么呢?意味着由过去数据所推导的模型,会在过去和未来之间留有一段缝隙,这个缝隙中所发生的任何变化,都让你无法有效调整风险的认定。简单举例,我们根据餐饮企业的大量数据推导出某一风控模型之后,进行批量化的业务操作,等着贷款回收。
这期间,银行基本无主动权,你要回收贷款,人家第一要有钱,第二要配合。实际上,贷前你是老大,贷后你就是孙子了。而突然某一天政府发文要求降低三公消费,你就等着傻眼吧!所有的数据都会因为期间任何一个偶发性变化而发生实质性变化,而你却丧失了主动权。
所以,我们哪怕撇开目前大数据受限制于数据孤岛等一系列的现实问题(全维度数据的成本极高、难度极大,美国政府的棱镜计划有点这个意思,但那几乎是集中了一个国家的资源),就单一大数据风控而言,实现风控的数据模型化只是美好的设想,是脱离了社会现实的一种自我意淫的产物。除非体系内不存在市场博弈行为,毫无竞争对手。不过,真到了市场毫无竞争对手的情况,你需要风控模型么?闭着眼睛做就行了。
大数据的现实意义
当然,我这里并非是全盘否认大数据的现实意义。大数据可以有效地提升效率,降低管理成本,作为金融机构,效率的提升和管理成本的下降,最终都是提升了对抗风险的能力。因此,大数据虽然不能直接提高风控能力,但也具备重要的现实意义。
我在看金融史和马克思的《资本论》时,会设想一个奇怪的命题:大数据能否让计划经济回归?这个说法其实最早是胡晓明先生提出来的,我后来越想越有道理。
马克思等人提出,社会总是生产出那些高于实际需要的产品,牛奶宁愿倒掉也不给予普通民众,说明市场的生产是过度的。为什么如此?虽然从结果来看,市场经济是高效的资源配置方式,但从过程来看,市场经济的弊端也是非常明显的,它高效的背后其实是巨大的资源浪费。一个成功企业的背后是倒下的无数个类似企业,这些都是要计入的社会成本。因此,市场经济高效率的背后其实是整个社会的低效率。
在这种情况下,计划经济从其出发点来看,力图构建一个体系,让市场需求能被有效计算,然后以需定产,从而最大程度地降低社会成本。理论无限美好,但现实中却往往发现,需求是无法统计和计算的。缺乏有效的统计手段,从而使得理想也只是理想。计划经济的失败,让前苏联的生产和实际需求产生了极大的错位,重工业泛滥而轻工业不足。
那么,现在大数据匹配云计算,是否可以解决这个问题呢?理论上是否可能让计划经济回归或者部分回归?呵呵,很有意思的问题。
不扯远的了。可能很多专家会认为我的理解过于肤浅,但是,从金融运行实践来看,我对自己的结论还是抱有极大信心的。其实,大数据即使成功,也必然只是个别案例,不具备普遍性。因为对于同一数据,不同的机构对其有效应用的能力必然是不同的,而这种应用能力,才是机构之间竞争的关键。


数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询