
用大数据进行P2P风险评级和风控只是理论可行吗
中国P2P平台交易规模的增速,比指数增长的陡峭曲线还狂放。据易观智库数据显示,中国P2P平台交易规模2011年为96.7亿元, 2014年中国P2P平台的交易规模跃升为2012.6亿元,四年间几乎有了20倍以上的增幅。但随着市场规模的扩大、参与P2P业务的企业数量暴增,P2P网贷平台的乱象也由此而生,在2013年开始出现卷款跑路事件,2014年出现跑路等问题的P2P平台数量多达275家。
虽然从P2P平台诞生的那一刻起,几乎所有的P2P企业都在说风控,但事实上中国P2P平台的风控一直在红色警戒线边缘。陆金所传出2.5亿元坏账虽然最终被落实在Lfex业务上,而非之前猜测的P2P业务,但让普通投资者了解到这些P2P平台的风险水平已成了燃眉之急,利用大数据技术来做P2P网贷平台风险评级和风险控制,已经成了行业继续发展必须迈过的一道坎。P2P平台风险评级虽然不去控制风险,但可以客观上反应P2P网贷平台信用等级和风险控制能力,对投资者来说有重要的参加价值。
孤立封闭的数据难以形成大数据
5月11日,笔者受邀参加了“中国P2P网贷平台风险评价体系专家研讨会”,本次研讨会由理财魔方(北京口袋财富信息科技有限公司)、中央财经大学中国互联网经济研究院、易观智库共同主办,目的就是探讨用量化的评价体系来评价P2P网贷平台的风险。
据该项目执行者之一、中央财经大学互联网研究院助理研究员赵宣凯介绍,该P2P网贷平台风险评级体系有三个特征:第一,主要是从投资者角度出发,帮助用户识别P2P网贷平台的风险,为投资者选择哪个网贷平台提供一个科学的依据;第二,是以数据驱动为核心,通过理财魔方独有的监控引擎获得大量P2P平台数据,从这些数据出发,避免人为打分和设定权重所带来的主观臆断;第三,该评级从既有纯客观的统计方法,还包括主观判断为辅,综合这两个方法最终得出P2P网贷平台的风险排名。
随着专家学者和行业代表讨论的深入,专家们对利用大数据和评级模型的探索给与肯定,但也提出了现在整个大数据风险评级诸如数据采集困难、真实性和一致性难以保持一致的现实性问题,这不仅是几家评级机构能解决的问题,而是整个P2P行业需要克服的顽疾。
社科院金融所书记副所长何德旭教授在发言直接指出,社科院也在做P2P网贷平台的评价体系,主观评价体系和客观评价体系各有优缺点,但目前用大数据做P2P平台评价体系最大的问题就是数据。第一,到现在为止近两千家P2P平台的数据,估计都拿不到;第二,拿到的数据难以保证是不是真实的;第三,数据统计口径带来的数据不一致;第四,指标体系的选取和指标的赋值要有主观确定,这会造成最终结果的差异性。
利用大数据做P2P平台风险评价体系,理论上来说是非常理想的方法手段,但落实过程中需要对数据采集和清洗过程中会遇到很多挑战。尤其是互联网金融法律法规尚未健全的今天,P2P平台没有义务向第三方机构或者投资者提供关键的运营数据和重大项目信息披露,第三方机构只能通过网上舆情监控和公开交易信息来获得所谓的数据,但这些数据通常都按照“报喜不报忧”的原则被人为修饰和过滤了,自然也就难以P2P平台真实的运营情况和风险状况,基本上只有等到盖子捂不住了,才会爆出卷款跑路的新闻,但这时再去做风险评估,对投资者和贷款者都已经是为时已晚。但解决之道要做数据链的相互比对和筛选,理财魔方和易观在采集数据时会采用直接采集和向P2P企业直接咨询两种方式相结合的方式,尽管目前还无法约束P2P企业的吹牛和隐瞒行为,但未来如果数据更丰富、更全面,那么数据的可靠性和评级的准确性都有望得到进一步提升。
按照理想状态,大数据应该是不同企业、不同部门共享而成,它可以真实、动态地反映个人和企业的经济状况和信用等级,但目前各家企业对数据都是抱着封闭独享的态度,而且就我观察,大多数中小型P2P企业只有数据收集能力,而缺乏数据挖掘和利用能力。
在P2P风险控制层面,在之前采访P2P企业中谈及风控,大家都会不约而同地说用大数据来做风控,但再去细问,大多数都是语焉不详,这既有商业机密的考量,但我认为更重要的原因是大数据挖掘的能力不足大致的,大数据真正的技术含量和价值体现在提取和利用上,而不在于对数据的占有。目前国内的数据大多处于独立孤岛,很难形成由共享而成的数据链和数据网,而这恰恰是大数据风控所需要的。
大数据风险评级到底有没有真疗效?
利用大数据技术来做互联网金融机构的风险评级和风险控制,在理论上几乎无争议,但在实际行动中却困难重重,大数据识别风险的现实路径是否存在?还需要我们付出巨大的努力。
在研讨会上提问环节,我对利用来做大数据风险评级和风险控制的实现路径做了两种路径猜测,第一是国家主管部门利用法律法规来强制公开P2P平台基本的运营信息,以供金融投资者和贷款者来作为选择的依据,另一种是采用市场化的方案,谁拿出自己的数据来分享,就可以分享到量级对等的其他数据源,这有点像过去电驴和BT下载的P2P机制类似。
当向专家提出这两种实现路径哪一种近期更有可能实现,从专家们的回答中,我认为他们对这两种实现路径都很审慎。在与一位来自金融监管部门的专家私下交流时,他指出当107号文件明确了P2P归属银监会监管之后,其他有P2P业务相关的部门都在等待着银监会出台监管细则,以避免与之发生监管规则上的冲突,而对于银监会而言,现在P2P平台监管还没有非常健全和完善的国际通行标准和规范,所以其制定过程也会相对谨慎,周期也可能比希望的更长。
而P2P平台对于信息公开和数据分享的态度也是截然不同的,相对而言一些规模较大、运行相对规范的P2P平台更愿意分享他们的数据,这是彰显实力的好方法;而另外一些P2P平台运营涉嫌设立资金池等违规行为,就会对公开信息非常抵触,所以希望P2P企业自律、自觉提供真实数据,虽然短期看还很难实现,但未来有可能是一个趋势和方向,谁都希望把贷款放在一个公开透明的平台。
风险评级体系首先要从完善大数据机制开始
利用风险评价体系来评定P2P网贷平台的风险,从初衷上是值得肯定的。如中国人民银行金融研究所李博博士所言,评级体系可以借给投资者一双慧眼,同时也帮助监管者对市场进行梳理,评级机构有三个原则一定要恪守:第一是独立,第二是专业,第三是公正。模型和数据都可以通过迭代更新来不断优化,但P2P网贷评级体系的初衷一定要有所坚持,方能对P2P产业的发展起到应有的促进和警示作用。
现在不管是客观数据为主的评级体系,还是以专家意见为主的主管评级体系,归根结底都需要庞大的数据链来做做最基本的支撑,否则算法和模型再好,没有真实有效的数据也是在做无用功。
如果要拿一把尺子去做量具,最先要保证的就是这把尺子的刻度精准。针对P2P网贷平台的评价体系也是如此,其评级体系必须有辅以科学、完备的大数据采集、清晰、提炼和利用机制,这也是结论正确的前提和重要保证。
2015年的中国P2P网贷平台依然火爆,但风险也在逐渐累积,而利用大数据进行风险评级和风险控制的美好愿望尽管理论可行,但在现实还存在诸多挑战。但不管阻力和困难有多大,借助大数据做风险评级和风险控制又是势在必行之举,我们在征信问题落下的课必须要补上,这既是在还历史的欠债,也是在为中国互联网金融的铺设未来之路,既然绕不过去,那就直面现实勇敢应对吧。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
MySQL 服务器内存碎片:成因、检测与内存持续增长的解决策略 在 MySQL 运维中,“内存持续增长” 是常见且隐蔽的性能隐患 —— ...
2025-09-24人工智能重塑工程质量检测:核心应用、技术路径与实践案例 工程质量检测是保障建筑、市政、交通、水利等基础设施安全的 “最后一 ...
2025-09-24CDA 数据分析师:驾驭通用与场景指标,解锁数据驱动的精准路径 在数据驱动业务的实践中,指标是连接数据与决策的核心载体。但并 ...
2025-09-24在数据驱动的业务迭代中,AB 实验系统(负责验证业务优化效果)与业务系统(负责承载用户交互与核心流程)并非独立存在 —— 前 ...
2025-09-23CDA 业务数据分析:6 步闭环,让数据驱动业务落地 在企业数字化转型中,CDA(Certified Data Analyst)数据分析师的核心价值,并 ...
2025-09-23CDA 数据分析师:以指标为钥,解锁数据驱动价值 在数字化转型的浪潮中,“用数据说话” 已成为企业决策的共识。但数据本身是零散 ...
2025-09-23当 “算法” 成为数据科学、人工智能、业务决策领域的高频词时,一种隐形的认知误区正悄然蔓延 —— 有人将分析结果不佳归咎于 ...
2025-09-22在数据分析、金融计算、工程评估等领域,“平均数” 是描述数据集中趋势最常用的工具之一。但多数人提及 “平均数” 时,默认指 ...
2025-09-22CDA 数据分析师:参数估计助力数据决策的核心力量 在数字化浪潮席卷各行各业的当下,数据已成为驱动业务增长、优化运营效率的核 ...
2025-09-22训练与验证损失骤升:机器学习训练中的异常诊断与解决方案 在机器学习模型训练过程中,“损失曲线” 是反映模型学习状态的核心指 ...
2025-09-19解析 DataHub 与 Kafka:数据生态中两类核心工具的差异与协同 在数字化转型加速的今天,企业对数据的需求已从 “存储” 转向 “ ...
2025-09-19CDA 数据分析师:让统计基本概念成为业务决策的底层逻辑 统计基本概念是商业数据分析的 “基础语言”—— 从描述数据分布的 “均 ...
2025-09-19CDA 数据分析师:表结构数据 “获取 - 加工 - 使用” 全流程的赋能者 表结构数据(如数据库表、Excel 表、CSV 文件)是企业数字 ...
2025-09-19SQL Server 中 CONVERT 函数的日期转换:从基础用法到实战优化 在 SQL Server 的数据处理中,日期格式转换是高频需求 —— 无论 ...
2025-09-18MySQL 大表拆分与关联查询效率:打破 “拆分必慢” 的认知误区 在 MySQL 数据库管理中,“大表” 始终是性能优化绕不开的话题。 ...
2025-09-18DSGE 模型中的 Et:理性预期算子的内涵、作用与应用解析 动态随机一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明确:TIF 中的地名有哪两种存在形式? 在开始提取前,需先判断 TIF 文件的类型 —— ...
2025-09-17CDA 数据分析师:解锁表结构数据特征价值的专业核心 表结构数据(以 “行 - 列” 规范存储的结构化数据,如数据库表、Excel 表、 ...
2025-09-17Excel 导入数据含缺失值?详解 dropna 函数的功能与实战应用 在用 Python(如 pandas 库)处理 Excel 数据时,“缺失值” 是高频 ...
2025-09-16深入解析卡方检验与 t 检验:差异、适用场景与实践应用 在数据分析与统计学领域,假设检验是验证研究假设、判断数据差异是否 “ ...
2025-09-16