京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据挖掘助力互联网金融风险控制
互联网金融发展的关键是风险控制,“风险控制”已然成为诸多互联网金融企业能否长大的魔咒,这个不争的事实像一座大山摆在众多互联网金融大佬与创业者的面前。为什么阿里金融能够将它的网络小贷不良率控制在不到1%,有胆量再贷多点吗?大数据挖掘技术和互联网金融的风险控制到底是什么关系?互联网金融将怎样建立有效的风险控制生态体系?本文将带你揭开大数据挖掘与互联网金融风险控制的神秘面纱。
最近互联网金融圈不仅自己玩的很开心,而且还拉上了金融界甚至央行的大佬们一起玩的很开心。尽管让互联网金融企业头痛的问题——央行征信系统不对市场开放,仍然没有解决,但至少央行的态度明朗,支持互联网金融的发展,并认为互联网金融是传统金融的有益补充。
生命的神奇之处在于它总能找到一个出口。作为新生事物的互联网金融也不例外,在那扇门朝他们关闭的同时,他们却找到了另外一扇窗。在亦步亦趋的探索中,他们中的大企业通过自身力量,小企业通过联合的力量找到了适合自身发展的风险控制生态系统,正朝着良性和有序的方向发展,正如凯文凯利在他的《失控》中描述的群氓智慧那只无形的手。
互联网金融掌握了可以颠覆传统金融的风控技术
在不依赖央行征信系统的情况下,市场自发形成了各具特色的风险控制生态系统。大公司通过大数据挖掘,自建信用评级系统;小公司通过信息分享,借助第三方获得信用评级咨询服务。
互联网金融企业的风控大致分为两种模式,一种是类似于阿里的风控模式,他们通过自身系统大量的电商交易以及支付信息数据建立了封闭系统的信用评级和风控模型。另外一种则是众多中小互联网金融公司通过贡献数据给一个中间征信机构,再分享征信信息。
央行的征信系统是通过商业银行、其它社会机构上报的数据,结合身份认证中心的身份审核,提供给银行系统信用查询和提供给个人信用报告。但对于其它征信机构和互联金融公司目前不提供直接查询服务。2006年1月开通运行的央行征信系统,至2013年初,有大概8亿人在其中有档案。在这个8亿人当中,只有不到3亿人有过银行或其他金融机构发生过借贷的记录,其中存在大量没有信贷记录的个人。
而这些人却有可能在央行征信系统外的其它机构、互联网金融公司自己的数据系统中,存有相应的信贷记录。市场上一些线下小贷公司、网络信贷公司对于借贷人的信用评级信息需求非常旺盛,也因此催生了若干市场化征信公司,目前国内较大的具有代表性的市场化征信公司有几家:如北京安融惠众、上海资信、深圳鹏元等等。
从P2P网贷公司和一些线下小贷公司采集动态大数据,为互联网金融企业提供重复借贷查询、不良用户信息查询、信用等级查询等多样化服务是目前这些市场化的征信公司正在推进的工作。而随着加入这个游戏规则的企业越来越多,这个由大量动态数据勾勒的信用图谱也将越来越清晰。
互联网海量大数据中与风控相关的数据
互联网大数据海量且庞杂,充满噪音,哪些大数据是互联网金融企业风险控制官钟爱的有价值的数据类型?下图为大家揭示了互联网海量大数据中与风控相关的数据,以及哪些企业或产品拥有这些数据。
利用电商大数据进行风控,阿里金融对于大数据的谋划可谓非一日之功。在很多行业人士还在云里雾里的时候,阿里已经建立了相对完善的大数据挖掘系统。通过电商平台阿里巴巴、淘宝、天猫、支付宝等积累的大量交易支付数据作为最基本的数据原料,再加上卖家自己提供的销售数据、银行流水、水电缴纳甚至结婚证等情况作为辅助数据原料。所有信息汇总后,将数值输入网络行为评分模型,进行信用评级。
信用卡类网站的大数据同样对互联网金融的风险控制非常有价值。申请信用卡的年份、是否通过、授信额度、卡片种类;信用卡还款数额、对优惠信息的关注等都可以作为信用评级的参考数据。国内最具代表性的企业是成立于2005年,最早开展网上代理申请信用卡业务的“我爱卡”。其创始人涂志云和他的团队又在2013年推出了信用风险管理平台“信用宝”,利用“我爱卡”积累的数据和流量优势,结合其早年的从事的FICO(费埃哲)风控模型,做互联网金融小微贷款。
利用社交网站的大数据进行网络借贷的典型是美国的Lending Club。Lending club于2007年5月24日在facebook上开张,通过在上面镶嵌的一款应用搭建借贷双方平台。利用社交网络关系数据和朋友之间的相互信任聚合人气。借款人被分为若干信用等级,但是却不必公布自己的信用历史。
在国内,2013年阿里巴巴以5.86亿美元购入新浪微博18%的股份,其用意给人很多遐想空间,获得社交大数据,阿里完善了大数据类型。加上淘宝的水电煤缴费信息、信用卡还款信息、支付和交易信息,已然成为了数据全能选手。
小贷类网站积累的信贷大数据包括信贷额度、违约记录等等。但单一企业缺陷在于数据的数量级别低和地域性太强。还有部分小贷网站平台通过线下采集数据转移到线上的方式来完善信用数据。这些特点决定了如果单兵作战他们必定付出巨大成本。因此,贡献数据,共享数据的模式正逐步被认可,抱团取暖胜过单打独斗。其中有数据统计的全国小贷平台有几百家,全国性比较知名的有人人贷、拍拍贷、红岭和信用宝等。
第三方支付类平台未来的机遇在于,未来有可能基于用户的消费数据做信用分析。支付的方向、每月支付的额度、购买产品品牌都可以作为信用评级的重要参考数据。代表产品为易宝、财付通等。
生活服务类网站的大数据如水、电、煤气、有线电视、电话、网络费、物业费交纳平台则客观真实地反映了个人的基本信息,是信用评级中一类重要的数据类型。代表产品为平安的“一账通”。
互联网金融风控大数据加工过程
如上图所示,在进行数据处理之前,对业务的理解、对数据的理解非常重要,这决定了要选取哪些数据原料进行数据挖掘,在进入“数据工厂”之前的工作量通常要占到整个过程的60%以上。
在数据原料方面,越来越多的互联网在线动态大数据被添加进来。例如一个虚假的借款申请人信息就可以通过分析网络行为痕迹被识别出来,一个真实的互联网用户总会在网络上留下蛛丝马迹。对征信有用的数据的时效性也非常关键,通常被征信行业公认的有效的动态数据通常是从现在开始倒推24个月的数据。
通过获得多渠道的大数据原料,利用数学运算和统计学的模型进行分析,从而评估出借款者的信用风险,典型的企业是美国的ZestFinance。这家企业的大部分员工是数据科学家,他们并不特别地依赖于信用担保行业,用大数据分析进行风险控制是ZestFinance的核心技术。他们的原始数据来源非常广泛。
他们的数据工厂的核心技术和机密是他们开发的10个基于学习机器的分析模型,对每位信贷申请人的超过1万条原始信息数据进行分析,并得出超过7万个可对其行为做出测量的指标,而这一过程在5秒钟内就能全部完成。
事实上,在美国,征信公司或者大数据挖掘公司的产品不仅用于提供给相关企业用于降低金融信贷行业的风险,同时也用于帮助做决策判断和市场营销,后两者不在本文的探讨范围内,但是可以从另一个方面给我们很多启发。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04在数字化转型进入深水区的今天,企业对数据的依赖程度日益加深,而数据治理体系则是企业实现数据规范化、高质量化、价值化的核心 ...
2026-03-04在深度学习,尤其是卷积神经网络(CNN)的实操中,转置卷积(Transposed Convolution)是一个高频应用的操作——它核心用于实现 ...
2026-03-03在日常办公、数据分析、金融理财、科研统计等场景中,我们经常需要计算“平均值”来概括一组数据的整体水平——比如计算月度平均 ...
2026-03-03在数字化转型的浪潮中,数据已成为企业最核心的战略资产,而数据治理则是激活这份资产价值的前提——没有规范、高质量的数据治理 ...
2026-03-03在Excel办公中,数据透视表是汇总、分析繁杂数据的核心工具,我们常常通过它快速得到销售额汇总、人员统计、业绩分析等关键结果 ...
2026-03-02在日常办公和数据分析中,我们常常需要探究两个或多个数据之间的关联关系——比如销售额与广告投入是否正相关、员工出勤率与绩效 ...
2026-03-02在数字化运营中,时间序列数据是CDA(Certified Data Analyst)数据分析师最常接触的数据类型之一——每日的营收、每小时的用户 ...
2026-03-02在日常办公中,数据透视表是Excel、WPS等表格工具中最常用的数据分析利器——它能快速汇总繁杂数据、挖掘数据关联、生成直观报表 ...
2026-02-28有限元法(Finite Element Method, FEM)作为工程数值模拟的核心工具,已广泛应用于机械制造、航空航天、土木工程、生物医学等多 ...
2026-02-28在数字化时代,“以用户为中心”已成为企业运营的核心逻辑,而用户画像则是企业读懂用户、精准服务用户的关键载体。CDA(Certifi ...
2026-02-28在Python面向对象编程(OOP)中,类方法是构建模块化、可复用代码的核心载体,也是实现封装、继承、多态特性的关键工具。无论是 ...
2026-02-27在MySQL数据库优化中,索引是提升查询效率的核心手段—— 面对千万级、亿级数据量,合理创建索引能将查询时间从秒级压缩到毫秒级 ...
2026-02-27在数字化时代,企业积累的海量数据如同散落的珍珠,若缺乏有效的梳理与分类,终将难以发挥实际价值。CDA(Certified Data Analys ...
2026-02-27在问卷调研中,我们常遇到这样的场景:针对同一批调查对象,在不同时间点(如干预前、干预后、随访期)发放相同或相似的问卷,收 ...
2026-02-26在销售管理的实操场景中,“销售机会”是核心抓手—— 从潜在客户接触到最终成交,每一个环节都藏着业绩增长的关键,也暗藏着客 ...
2026-02-26在CDA数据分析师的日常工作中,数据提取、整理、加工是所有分析工作的起点,而“创建表”与“创建视图”,则是数据库操作中最基 ...
2026-02-26在机器学习分析、数据决策的全流程中,“数据质量决定分析价值”早已成为行业共识—— 正如我们此前在运用机器学习进行分析时强 ...
2026-02-25在数字化时代,数据已成为企业决策、行业升级的核心资产,但海量杂乱的原始数据本身不具备价值—— 只有通过科学的分析方法,挖 ...
2026-02-25