京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据环境下 征信 真的那么美好吗?
不知从什么时候开始,征信仿佛一夜之间成了一个很热门的业务。也曾经看过很多文章,都描绘着征信未来广泛的应用,和庞大的市场份额。其间,虽然偶尔也有人出来泼冷水,但显然很快就被更为狂热的后进者所淹没。
众多代表着传统金融和互联网金融的大腕们纷纷摩拳擦掌,下场厮杀。BAT中除了B略微落后之外,AT直接进入第一批玩家的角逐。其余二线、三线互联网跟进者,数不胜数。
征信大军越来越大,名头也越来越响。这个集团,那个平台,各村有各村的高招。
征信,真的那么美好吗?真的是一个一本万利的大买卖吗?下面,我逐一为大家展开,大家自己判断。
为什么需要征信
征信是做什么用的,相信搞过金融的人都知道,它是信用风险定价的一个基础。很多文章都有详细的描述,这里我就不啰嗦了。但是,为什么要在这个时候提出征信?看了很多文章,感觉都没有讲清楚。
有的人说,是为了建设信用社会。这个话也对,也不对。从建立良好的金融秩序,对建立信用社会做出贡献而言,是对的;但从金融领域本身而言,征信与建设信用社会两者之间没有直接的关系。应该说,只有征信在金融环境里建立了良好的金融秩序,才能对信用社会做出贡献。
征信,在金融领域,就是为了“信用”的风险定价。而“信用”贷款,是金融行业发展到今天,所必然产生的一种形态。这是金融行业本身的一种成熟度的体现。金融行业经营的就是风险。从简单的有抵押物的普通信贷,到虚拟的无抵押物的复杂的”信用“贷款,是一种能力的提高。在这次升级中,“信用”,这种虚拟的事物,被当作了“抵押物”;而金融机构,也需要从对实物的掌握,转移到了虚拟事物的控制上。金融机构,需要具备更高的能力,才能迎接新的挑战,驾驭新的风险。
信用,不像可抵押物,你来或者不来,它就在那里。信用是一个看不见摸不着的东西,但它确实有价值。就如一个产品的品牌一样,它是有价值的。信用也一样,是你个人或者企业在社会中的一种类似于”品牌“的价值。
对这种“无形资产”的掌控,自然不能像可抵押物那样。它需要根据对企业或者个人信用的评估,预测出违约的概率,从而依靠这一概率,来计算对风险的定价。
所以,我认为,征信的产生是因为金融行业本身发展的需求。当然,可能刚好跟建设信用社会的理想同步,巧了。
如何征信
征信分为个人征信和企业征信。企业征信多为企业基本工商信息,信贷历史信息以及诉讼信息等的罗列,不作任何加工。企业征信目前在央行实行备案制,只要在央行那里备个案就可以做生意了;而个人征信因为要触碰到个人隐私,所以央行管理很严,相关企业需要申请,审核通过颁发牌照方可做业务。第一批八家征信牌照申请企业到目前依然还未获得牌照。
企业征信没什么好说的,信息的罗列,下面重点说说个人征信。
如何做个人征信在业界分为两派。一派是以传统金融企业为代表的“保守派”,还有一派是以互联网金融企业为代表的“新锐派”。“保守派”还是沿用传统金融领域的方法,通过信贷历史记录来评价未来的风险程度,形成征信分;而“新锐派”基本采用Zest Finance的多变量大数据方案来形成征信分。
“保守派”的方法虽然保守,但经过了数十年的检验,是成熟可靠的。它的缺陷在于传统金融机构对用户数据采集的时效性和完整性不好。但随着传统金融机构引入大数据的方式,与自身客户数据打通,就可以解决好时效性和完整性的问题,再加上体系的成熟,不失为一个今天最稳妥的方案。
“新锐派”的方法很炫丽,利用大数据的方法,采集了用户上万个变量的信息,对用户无限逼近。可以通过这些数据为每一个客户完整地画像。但是,从信用风险的角度而言,即使对客户再了解,也不可能弥补信贷违约历史记录的缺失。这也是目前“新锐派”最大的困惑。其征信分用于闭环体系没有丝毫问题,但如果跨出闭环,比方说用于线下,缺乏足够的实践证明。
当然,随着新生代人群对互联网依赖程度的加深,线上消费行为的比重加大,“新锐派”可能走出一条更好的路来。
这是后话,应该需要一个演进的过程。在这个演进的过程中,需要注意两件事儿。一个是行为的稳定程度,还有一个就是标尺的唯一性。
目前大数据征信主要采集的是互联网上的数据,它反映了一个人的行为特征。那么在征信的应用里,就要考虑这个行为特征的稳定性。只有稳定的行为特征才有被征信的必要。比如,我们早期的移动互联网应用,跟现在的就有很大不同,因为当时人们的很多习惯并没有养成。反映到数据上,就是杂乱无章,毫无秩序,而且不可重复。在没有养成稳定的习惯之前,数据是没有意义的,它不意味着任何事情。
征信是一个信用体系的基础,是一个金融秩序的根本。如果这个秩序乱了,那么一切都会乱了。大到好坏人的评价,小到信用风险定价的步长,不管是通过什么方法实现的,结果必须一致(允许一定误差内)。再好的故事也要为应用服务。美国的三大征信局,对每一个用户都有自己的评分,但一个用户在三大征信局里的评分,误差不会超过50分。道理很简单,因为几乎所有的银行都依据此去做风险定价,如果误差大了,标尺不一致,那么各家银行依此做出的风险定价就不一致,贷款的行为就会出现问题。所以,不管你用什么方法,说的再天花乱坠,一定要有统一的标尺。标尺错了,起点就错了,后面的一切基于这个起点的推断就都是错误的。
为什么不能沿用美国的征信体系
相信这也是所有征信的后来者所困惑的问题,为什么我们不直接照搬美国的征信体系?有的人说,国情不同。到底是什么国情不同?我认为,首先是基础设施的成熟度,其次是人们对信用的观念。
基础设施的成熟度,很容易理解,就是数据的完备。每个人的各项征信所需要的数据都很完备,可以很容易被采集到(当然只有征信局可以被授权使用这些数据)。美国的基础物理设施的成熟度,自然是国内无法比拟的。尤其是个人的隐私信息的管理,有一整套严格成熟的法律法规;而国内,还处于建设阶段。
所以,数据的采集渠道,就造成了在基础设施层面上客观的差异。这也是为什么央行不像美国那样只对三家征信局发放牌照的主要原因。 因为,我国没有统一的数据资源。
人们对信用的观念,初看起来有点虚,其实不然。基础设施的匮乏导致了我国不能采取美国的模式;而信用观念的建立,也不是一朝一夕可以完成的。信用观念的树立,代表了未来市场的成熟度。很难想象,一个成熟的市场中的用户,连信用是什么,我为什么要守信都不知道?!在北美等发达国家,公众有很明晰的信用观念,信用代表一切。所有去过北美的人会深刻感受到这一点,没有信用,寸步难行。只有越来越多的用户有了信用的观念,征信才会被越来越多地应用;也只有这个时候,征信才可以作为一项可以自给自足的业务,独立存在。
投入产出ROI
不知道谁第一个传出征信是一个一本万利的好买卖,“钱多,人傻,速来”!于是,大家就都来了。征信真的那么赚钱吗?
我来给大家算笔账。
先说投入。
目前代表互联网一方介入到征信领域的,多为本身就拥有庞大的网民数据(有to c入口)的企业,但由于即便是他们,业务的侧重不同,也没有办法拥有网民全部的数据。而且上面也分析了,我国还处于建设阶段,国家也没有一个统一的数据中心能涵盖所有数据源。所以,大家都需要跟别人去交换、购买其他部分的数据。
征信需要大量的数据,而且必须是高质量的数据。什么是高质量的数据?就是距离你个人真实情况近的数据。在这些数据里,最需要的是金融相关类数据,比如你的各种消费,你的收入等等。
数据质量越高,价格就越贵。按照目前金融属性比较明显的数据条目来计,每一个个人用户的成本在5-20元,如果征集的属性多,甚至要到50以上。一个征信机构,至少要覆盖1亿以上的人群,过低的识别率(征信用户查询有结果即为可识别)就会使征信机构失去存在的价值了。按照每笔5元的价格来计算,1亿用户就需要5亿的投入。这还没包括其它的基础设施投入等等。
在方法上,目前还没有找到一个在确实信贷历史数据,仅通过网民行为的大数据实现经得起推敲的征信方法,所以还需要继续寻找。这种寻找,又分成了两个方向,一个是继续沿着大数据的路寻找,也许未来某个时间能找到;还有一个就是自身收集金融数据,打通线上线下的数据,来补上信贷历史数据的缺陷。目前,AT都是走的这个路径。也就是AT没有直接去交易数据,而是利用强大的影响力,直接在线下合规地收集数据。每客户数据的获得成本,恐怕比上面的额度还要高。
无论是自己收集,还是直接交易,征信所需的数据都是一个庞大的投入。而且,这还是在自身已经拥有了庞大数据源的前提下。
大家已经知道了征信需要一个庞大的投入,下面再看产出。
虽然现在有的个人征信报告宣称6元一份,但有价无市。征信还是一个发展中的事物,其共识性还有待未来的数年去建立。在此之前,恐怕难有人为此买单。这就是目前市场的现状。
一方面需要巨大的投入,而另一方面又面临中短期的颗粒无收,征信真的那么诱人吗?我也赞同征信的未来是美好的,但你是否真的清楚这个过程的艰难呢?
个人征信之未来
从上面的分析中可以看到,由于个人征信业务的特点,不可能引入更多的机构进入。数据的匮乏是暂时的,不能因为数据的匮乏,而引入每一个垄断数据源作为独立的征信机构;而且,由于个人征信需要触碰到的是个人隐私数据,这就决定了不可能依靠大规模的交易来完成数据的补充。所以,其实多数企业都是与个人征信无关的。只有少数几个巨头,才有能力活到最后,才有资格去帮助政府做征信。在这里,数据+能力缺一不可。
从另一个角度来看,央行拥有3亿多用户的信贷数据,这部分用户,央行已经可以形成很完善的征信评分了。由于数据的差异,很难有第三方能够获取如央行那样完整的个人用户信贷记录数据,因此也很难有第三方征信机构,对用户做出科学的征信评分。所以,在这一市场引入额外的征信机构动力不足。
目前的问题是除了这3亿之外的用户如何评价?以 AT、京东为代表的互联网在这一方面有一定的优势。虽然玩的很热闹,但是今天,各家还没有形成一个类似于传统征信那样,真正经稳定,得起推敲的征信方法。我认为,无论从数据的稳定性上,还是从方法上,还需要假以时日。
有一个特例,那就是AT、京东只做闭环,为自身的业务服务。比如阿里为淘宝用户在淘宝购物上授信;腾讯为微信用户在购物时授信,那么今天,这个模型就是成立的,整个征信分也是科学的。
从用途上来讲,未来个人征信市场的格局将会有两种,一种是为自己服务的,作为自身互联网银行信用风险定价的征信机构,如AT、京东等,(当然,他们也可以对外提供服务,但前提是征信结果的达标);还有一种就是第三方独立的为公众提供服务的征信机构,他们的特点是有能力覆盖央行3亿用户之外的人群。
由于征信需要触碰个人隐私数据,不可能让更多的机构介入到其中。自身形成业务闭环的征信机构和第三方独立对外提供服务的征信机构可能是未来的两种形态。无论采用哪种方法,无论拥有什么数据,征信的标准是一定的。不应该因为这些方面的差异而造成结果的不同。
征信并不是每一个人的游戏,更不是一个一本万利的生意。它需要一个成熟的过程。在此之前,需要玩家们不断地投入。它需要玩家们投入去补充数据,去形成一套新的体系,建立央行3亿以外用户的评估方法。如果你留心,去几乎每一家餐馆,超市,商场,都会看到醒目的支付宝、微信支付可以支付的广告,而且还有优惠。AT已经在做线上线下数据的打通。假以时日,数据的积累达到一定程度,相信他们就可以跳出闭环,走向社会。
征信不是一个短期变现的生意,因为市场的成熟需要时间;征信的未来是美好的,但在短期内,征信需要持续的投入,而且是巨额的投入。在数据成本已经高企的今天,这真的不是每一个人的游戏。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27