京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据征信的黑白两面:社交数据可以做依据吗
“从放贷人那里采集借款人信息”,这是中国人民银行征信中心副主任王晓蕾对于“征信”的理解,也是学院派对于征信的经典界定,然而革新者已经抛弃了这一界定,与之一同被抛弃的还有征信数据采集限于“金融属性信息”的范畴和“采集者与信息产生没有任何关系”的独立第三方原则。
非金融属性的数据能做征信吗?
7月11日下午,在上海外滩举办的“2015上海新金融年会”上,央行征信中心副主任王晓蕾、美国征信巨头FICO中国CEO陈建,以及四家即将拿到个人征信牌照机构的负责人坐在一起,就中国互联网金融和征信的发展展开了激烈的讨论。
“我不知道你们说的‘征信’是指什么,”王晓蕾首先表达了困惑,互联网金融的发展放大催生了征信的“新业态”,这种“新业态”让像王晓蕾这样全程参与了央行征信中心设计和建设的征信老兵也开始看不懂了。
追本溯源,基于银行借贷信息建立起来的个人征信中心,其初衷在于建立一个“放贷人之间的信息共享数据库”,原则上由放贷人上传所有借贷人的真实信用信息。但互联网企业所宣传的“大数据征信”早已不再是这种传统意义上的“征信”,其直接表现就是采集数据的范畴已经突破了“金融属性”,从仅收集真实借贷人的信息,延伸到未发生借贷的信息,如社交数据、电商数据等没有金融属性、缺乏验证性、弱关联的互联网大数据。
与此同时,征信机构“独立第三方”的边界也被模糊了。征信机构恪守的“数据从第三方来给第三方用”的绝对独立第三方原则,与民营机构数据的采集和使用都与自身有千丝万缕的联系形成了鲜明的对比,如腾讯征信用微信、QQ的社交数据,服务腾讯的放贷业务;芝麻征信使用的是阿里的电商数据,服务阿里的放贷业务。
在这种扩展了信息收集范围又模糊了独立第三方原则双突破的“新业态”下,不仅征信在风险管理上的效力有待检验,个人享受的公平信用权利也面临风险。
“新业态”下的信用风险
就数据有效性而言,有人已经提出直接的怀疑。
今年初,央行印发《关于做好个人征信业务准备工作的通知》,要求芝麻信用、腾讯征信、前海征信、鹏元征信、中诚信征信、中智诚征信、考拉征信、华道征信这8家民营征信机构做好个人征信业务的准备工作,准备时间为6个月。如今6个月已到,第一批民营征信机构牌照发放在即。
对于使用互联网大数据做征信,中智诚征信有限公司CEO李萱并不乐观,“迄今为止,没有一个国家,没有一家真正的征信机构做出来的基于互联网的征信产品,能够应用于较大的人群。”拥有19年征信从业经验的李萱进一步从技术评分的角度解释道,“我们没有见过一个基于互联网大数据做出的(征信)模型KS评分能够超过35分。”KS(Komolgorov-Smirnov)指数是衡量模型辨别能力的普遍方法,数值在0—100之间,数字越大模型越有效,35分为模型是否有效的地平线。
但在一线开拓业务的互联网金融企业对“大数据征信”依然拥有热情和信心,就在此次峰会召开的半个月前,6月26日,京东正式对外宣布投资Zestfinance,这是一家用互联网大数据做征信的美国新创公司,双方成立了合资子公司,欲为京东金融业务提供征信支撑。
京东金融战略发展部副总裁姚乃胜,亲自操刀促成此次合作的大数据征信拥护者,向《IT时报》记者表达了观点,“如果电商数据(做征信)都没用,那么什么数据有用?说电商数据不行的人怕是已经过时。”
对像京东金融一样长期无法接入央行征信系统,又不可能停止业务拓展脚步的互联网金融公司而言,“大数据征信”是一门好生意,尽管效用依然存在争议,但总比“裸奔”要强,而且这种征信一旦被广泛采纳,作用将不仅仅限于风险管理。
潜在的个人利益损失
人们早就领略过央行征信中心的威力,有时甚至不惜拆借高息贷款及时还清银行欠款,以免被计入央行征信系统黑名单中,影响以后诸如房贷等贷款的获得。
“新业态”下数据采集范围的扩大无疑将这种麻烦从金融领域带到整个网络生活中。尽管在2013年3月15日实施的《征信业管理条例》中规定,未经同意,平台不得收集、使用个人信息,但人们为了获得平台提供的服务往往轻易就“同意”了。
令人担忧的是,如果这种“新业态”的服务对象不是信贷业务,那么征信机构在出具报告时并不需要严格遵守征信报告的标准,但它所出的产品仍可能影响其他机构对你的态度,例如它从你的网络行为预测你是否有违约的倾向,或者用更为隐蔽的手法——给你的这种倾向一个综合的评分,一个较低的芝麻信用分或许将来会影响你的求职。在美国1970年制定的《公平信用报告法》中,一份信用报告的制作、传播、对违约记录的处理等等都有很严格的规定。
这意味着利用互联网大数据做征信产品的机构无形中获取了某种权力,而由于“第三方原则”被模糊,对个人而言可能是获得更高征信分值成本的提高。仍以芝麻信用分为例,随着芝麻分被越来越多地使用在非阿里系的业务中,如租车、旅游、办签证等等,而其来源数据却仍大多来自阿里系,这意味着个人为了提高芝麻分,必须在阿里体系的生态圈里做更多的事情,比如寻找更多支付宝还款记录良好、芝麻分高的人并成为好友。
监管层期待:做银行做不了的事
监管者并非没有预见风险,实际上王晓蕾在会上反复强调自己“不了解8家民营征信公司具体的产品”,能不能起作用尚有待观察。
王晓蕾对P2P的理解是,“P2P是独立出来的专业化的信用风险管理机构”,这种理解高估了当前P2P平台的能力,但反映了监管层对金融创新的期望。
不止一位P2P平台的管理层曾向《IT时报》记者表达过希望能接入央行征信中心的愿望,征信数据的缺失让平台在发展过程中捉襟见肘。在会上,王晓蕾从另一个侧面印证了这一事实,即大量P2P平台将没有央行征信报告的客户拒之门外。
监管层长期对互联网金融持包容态度的基础在于,“P2P是在为中国的普惠金融做贡献,做银行不做的事”。其含义在于,监管层希望互联网金融能够将银行体系服务不到的中小微企业服务好,将央行征信系统中5亿没有覆盖到的人群的信用记录补齐。
倘若它们不能做到这一点,甚至盯着央行征信系统里已有的2.9亿用户,和银行抢夺客户,而放弃服务小微企业的努力,类似“新业态”这种创新所带来的风险,监管层的包容将失去意义。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27对数据分析从业者和学生而言,表结构数据是最基础也最核心的分析载体——CRM系统的用户表、门店的销售明细表、仓库的库存表,都 ...
2025-11-27在业务数据可视化中,热力图(Heat Map)是传递“数据密度与分布特征”的核心工具——它通过颜色深浅直观呈现数据值的高低,让“ ...
2025-11-26在企业数字化转型中,业务数据分析师是连接数据与决策的核心纽带。但“数据分析师”并非单一角色,从初级到高级,其职责边界、能 ...
2025-11-26表格结构数据以“行存样本、列储属性”的规范形态,成为CDA数据分析师最核心的工作载体。从零售门店的销售明细表到电商平台的用 ...
2025-11-26在pandas数据处理工作流中,“列标签”(Column Labels)是连接数据与操作的核心桥梁——它不仅是DataFrame数据结构的“索引标识 ...
2025-11-25Anaconda作为数据科学领域的“瑞士军刀”,集成了Python解释器、conda包管理工具及海量科学计算库,是科研人员、开发者的必备工 ...
2025-11-25在CDA(Certified Data Analyst)数据分析师的日常工作中,表格结构数据是最常接触的“数据形态”——从CRM系统导出的用户信息表 ...
2025-11-25在大数据营销从“粗放投放”向“精准运营”转型的过程中,企业常面临“数据维度繁杂,核心影响因素模糊”的困境——动辄上百个用 ...
2025-11-24当流量红利逐渐消退,“精准触达、高效转化、长效留存”成为企业营销的核心命题。大数据技术的突破,让营销从“广撒网”的粗放模 ...
2025-11-24在商业数据分析的全链路中,报告呈现是CDA(Certified Data Analyst)数据分析师传递价值的“最后一公里”,也是最容易被忽视的 ...
2025-11-24在数据可视化实践中,数据系列与数据标签的混淆是导致图表失效的高频问题——将数据标签的样式调整等同于数据系列的维度优化,或 ...
2025-11-21在数据可视化领域,“静态报表无法展现数据的时间变化与维度关联”是长期痛点——当业务人员需要分析“不同年份的区域销售趋势” ...
2025-11-21在企业战略决策的场景中,“PESTEL分析”“波特五力模型”等经典方法常被提及,但很多时候却陷入“定性描述多、数据支撑少”的困 ...
2025-11-21在企业数字化转型过程中,“业务模型”与“数据模型”常被同时提及,却也频繁被混淆——业务团队口中的“用户增长模型”聚焦“如 ...
2025-11-20在游戏行业“高获客成本、低留存率”的痛点下,“提前预测用户流失并精准召回”成为运营核心命题。而用户流失并非突发行为——从 ...
2025-11-20在商业数据分析领域,“懂理论、会工具”只是入门门槛,真正的核心竞争力在于“实践落地能力”——很多分析师能写出规范的SQL、 ...
2025-11-20在数据可视化领域,树状图(Tree Diagram)是呈现层级结构数据的核心工具——无论是电商商品分类、企业组织架构,还是数据挖掘中 ...
2025-11-17核心结论:“分析前一天浏览与第二天下单的概率提升”属于数据挖掘中的关联规则挖掘(含序列模式挖掘) 技术——它聚焦“时间序 ...
2025-11-17