京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据挖掘助力互联网金融风险控制
互联网金融发展的关键是风险控制,“风险控制”已然成为诸多互联网金融企业能否长大的魔咒,这个不争的事实像一座大山摆在众多互联网金融大佬与创业者的面前。为什么阿里金融能够将它的网络小贷不良率控制在不到1%,有胆量再贷多点吗?大数据挖掘技术和互联网金融的风险控制到底是什么关系?互联网金融将怎样建立有效的风险控制生态体系?本文将带你揭开大数据挖掘与互联网金融风险控制的神秘面纱。
最近互联网金融圈不仅自己玩的很开心,而且还拉上了金融界甚至央行的大佬们一起玩的很开心。尽管让互联网金融企业头痛的问题——央行征信系统不对市场开放,仍然没有解决,但至少央行的态度明朗,支持互联网金融的发展,并认为互联网金融是传统金融的有益补充。
生命的神奇之处在于它总能找到一个出口。作为新生事物的互联网金融也不例外,在那扇门朝他们关闭的同时,他们却找到了另外一扇窗。在亦步亦趋的探索中,他们中的大企业通过自身力量,小企业通过联合的力量找到了适合自身发展的风险控制生态系统,正朝着良性和有序的方向发展,正如凯文凯利在他的《失控》中描述的群氓智慧那只无形的手。
互联网金融掌握了可以颠覆传统金融的风控技术
在不依赖央行征信系统的情况下,市场自发形成了各具特色的风险控制生态系统。大公司通过大数据挖掘,自建信用评级系统;小公司通过信息分享,借助第三方获得信用评级咨询服务。
互联网金融企业的风控大致分为两种模式,一种是类似于阿里的风控模式,他们通过自身系统大量的电商交易以及支付信息数据建立了封闭系统的信用评级和风控模型。另外一种则是众多中小互联网金融公司通过贡献数据给一个中间征信机构,再分享征信信息。
央行的征信系统是通过商业银行、其它社会机构上报的数据,结合身份认证中心的身份审核,提供给银行系统信用查询和提供给个人信用报告。但对于其它征信机构和互联金融公司目前不提供直接查询服务。2006年1月开通运行的央行征信系统,至2013年初,有大概8亿人在其中有档案。在这个8亿人当中,只有不到3亿人有过银行或其他金融机构发生过借贷的记录,其中存在大量没有信贷记录的个人。
而这些人却有可能在央行征信系统外的其它机构、互联网金融公司自己的数据系统中,存有相应的信贷记录。市场上一些线下小贷公司、网络信贷公司对于借贷人的信用评级信息需求非常旺盛,也因此催生了若干市场化征信公司,目前国内较大的具有代表性的市场化征信公司有几家:如北京安融惠众、上海资信、深圳鹏元等等。
从P2P网贷公司和一些线下小贷公司采集动态大数据,为互联网金融企业提供重复借贷查询、不良用户信息查询、信用等级查询等多样化服务是目前这些市场化的征信公司正在推进的工作。而随着加入这个游戏规则的企业越来越多,这个由大量动态数据勾勒的信用图谱也将越来越清晰。
互联网海量大数据中与风控相关的数据
互联网大数据海量且庞杂,充满噪音,哪些大数据是互联网金融企业风险控制官钟爱的有价值的数据类型?下图为大家揭示了互联网海量大数据中与风控相关的数据,以及哪些企业或产品拥有这些数据。
利用电商大数据进行风控,阿里金融对于大数据的谋划可谓非一日之功。在很多行业人士还在云里雾里的时候,阿里已经建立了相对完善的大数据挖掘系统。通过电商平台阿里巴巴、淘宝、天猫、支付宝等积累的大量交易支付数据作为最基本的数据原料,再加上卖家自己提供的销售数据、银行流水、水电缴纳甚至结婚证等情况作为辅助数据原料。所有信息汇总后,将数值输入网络行为评分模型,进行信用评级。
信用卡类网站的大数据同样对互联网金融的风险控制非常有价值。申请信用卡的年份、是否通过、授信额度、卡片种类;信用卡还款数额、对优惠信息的关注等都可以作为信用评级的参考数据。国内最具代表性的企业是成立于2005年,最早开展网上代理申请信用卡业务的“我爱卡”。其创始人涂志云和他的团队又在2013年推出了信用风险管理平台“信用宝”,利用“我爱卡”积累的数据和流量优势,结合其早年的从事的FICO(费埃哲)风控模型,做互联网金融小微贷款。
利用社交网站的大数据进行网络借贷的典型是美国的Lending Club。Lending club于2007年5月24日在facebook上开张,通过在上面镶嵌的一款应用搭建借贷双方平台。利用社交网络关系数据和朋友之间的相互信任聚合人气。借款人被分为若干信用等级,但是却不必公布自己的信用历史。
在国内,2013年阿里巴巴以5.86亿美元购入新浪微博18%的股份,其用意给人很多遐想空间,获得社交大数据,阿里完善了大数据类型。加上淘宝的水电煤缴费信息、信用卡还款信息、支付和交易信息,已然成为了数据全能选手。
小贷类网站积累的信贷大数据包括信贷额度、违约记录等等。但单一企业缺陷在于数据的数量级别低和地域性太强。还有部分小贷网站平台通过线下采集数据转移到线上的方式来完善信用数据。这些特点决定了如果单兵作战他们必定付出巨大成本。因此,贡献数据,共享数据的模式正逐步被认可,抱团取暖胜过单打独斗。其中有数据统计的全国小贷平台有几百家,全国性比较知名的有人人贷、拍拍贷、红岭和信用宝等。
第三方支付类平台未来的机遇在于,未来有可能基于用户的消费数据做信用分析。支付的方向、每月支付的额度、购买产品品牌都可以作为信用评级的重要参考数据。代表产品为易宝、财付通等。
生活服务类网站的大数据如水、电、煤气、有线电视、电话、网络费、物业费交纳平台则客观真实地反映了个人的基本信息,是信用评级中一类重要的数据类型。代表产品为平安的“一账通”。
互联网金融风控大数据加工过程
如上图所示,在进行数据处理之前,对业务的理解、对数据的理解非常重要,这决定了要选取哪些数据原料进行数据挖掘,在进入“数据工厂”之前的工作量通常要占到整个过程的60%以上。
在数据原料方面,越来越多的互联网在线动态大数据被添加进来。例如一个虚假的借款申请人信息就可以通过分析网络行为痕迹被识别出来,一个真实的互联网用户总会在网络上留下蛛丝马迹。对征信有用的数据的时效性也非常关键,通常被征信行业公认的有效的动态数据通常是从现在开始倒推24个月的数据。
通过获得多渠道的大数据原料,利用数学运算和统计学的模型进行分析,从而评估出借款者的信用风险,典型的企业是美国的ZestFinance。这家企业的大部分员工是数据科学家,他们并不特别地依赖于信用担保行业,用大数据分析进行风险控制是ZestFinance的核心技术。他们的原始数据来源非常广泛。
他们的数据工厂的核心技术和机密是他们开发的10个基于学习机器的分析模型,对每位信贷申请人的超过1万条原始信息数据进行分析,并得出超过7万个可对其行为做出测量的指标,而这一过程在5秒钟内就能全部完成。
事实上,在美国,征信公司或者大数据挖掘公司的产品不仅用于提供给相关企业用于降低金融信贷行业的风险,同时也用于帮助做决策判断和市场营销,后两者不在本文的探讨范围内,但是可以从另一个方面给我们很多启发。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27对数据分析从业者和学生而言,表结构数据是最基础也最核心的分析载体——CRM系统的用户表、门店的销售明细表、仓库的库存表,都 ...
2025-11-27在业务数据可视化中,热力图(Heat Map)是传递“数据密度与分布特征”的核心工具——它通过颜色深浅直观呈现数据值的高低,让“ ...
2025-11-26在企业数字化转型中,业务数据分析师是连接数据与决策的核心纽带。但“数据分析师”并非单一角色,从初级到高级,其职责边界、能 ...
2025-11-26