京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据挖掘助力互联网金融风险控制
互联网金融发展的关键是风险控制,“风险控制”已然成为诸多互联网金融企业能否长大的魔咒,这个不争的事实像一座大山摆在众多互联网金融大佬与创业者的面前。为什么阿里金融能够将它的网络小贷不良率控制在不到1%,有胆量再贷多点吗?大数据挖掘技术和互联网金融的风险控制到底是什么关系?互联网金融将怎样建立有效的风险控制生态体系?本文将带你揭开大数据挖掘与互联网金融风险控制的神秘面纱。
最近互联网金融圈不仅自己玩的很开心,而且还拉上了金融界甚至央行的大佬们一起玩的很开心。尽管让互联网金融企业头痛的问题——央行征信系统不对市场开放,仍然没有解决,但至少央行的态度明朗,支持互联网金融的发展,并认为互联网金融是传统金融的有益补充。
生命的神奇之处在于它总能找到一个出口。作为新生事物的互联网金融也不例外,在那扇门朝他们关闭的同时,他们却找到了另外一扇窗。在亦步亦趋的探索中,他们中的大企业通过自身力量,小企业通过联合的力量找到了适合自身发展的风险控制生态系统,正朝着良性和有序的方向发展,正如凯文凯利在他的《失控》中描述的群氓智慧那只无形的手。
互联网金融掌握了可以颠覆传统金融的风控技术
在不依赖央行征信系统的情况下,市场自发形成了各具特色的风险控制生态系统。大公司通过大数据挖掘,自建信用评级系统;小公司通过信息分享,借助第三方获得信用评级咨询服务。
互联网金融企业的风控大致分为两种模式,一种是类似于阿里的风控模式,他们通过自身系统大量的电商交易以及支付信息数据建立了封闭系统的信用评级和风控模型。另外一种则是众多中小互联网金融公司通过贡献数据给一个中间征信机构,再分享征信信息。
央行的征信系统是通过商业银行、其它社会机构上报的数据,结合身份认证中心的身份审核,提供给银行系统信用查询和提供给个人信用报告。但对于其它征信机构和互联金融公司目前不提供直接查询服务。2006年1月开通运行的央行征信系统,至2013年初,有大概8亿人在其中有档案。在这个8亿人当中,只有不到3亿人有过银行或其他金融机构发生过借贷的记录,其中存在大量没有信贷记录的个人。
而这些人却有可能在央行征信系统外的其它机构、互联网金融公司自己的数据系统中,存有相应的信贷记录。市场上一些线下小贷公司、网络信贷公司对于借贷人的信用评级信息需求非常旺盛,也因此催生了若干市场化征信公司,目前国内较大的具有代表性的市场化征信公司有几家:如北京安融惠众、上海资信、深圳鹏元等等。
从P2P网贷公司和一些线下小贷公司采集动态大数据,为互联网金融企业提供重复借贷查询、不良用户信息查询、信用等级查询等多样化服务是目前这些市场化的征信公司正在推进的工作。而随着加入这个游戏规则的企业越来越多,这个由大量动态数据勾勒的信用图谱也将越来越清晰。
互联网海量大数据中与风控相关的数据
互联网大数据海量且庞杂,充满噪音,哪些大数据是互联网金融企业风险控制官钟爱的有价值的数据类型?下图为大家揭示了互联网海量大数据中与风控相关的数据,以及哪些企业或产品拥有这些数据。
利用电商大数据进行风控,阿里金融对于大数据的谋划可谓非一日之功。在很多行业人士还在云里雾里的时候,阿里已经建立了相对完善的大数据挖掘系统。通过电商平台阿里巴巴、淘宝、天猫、支付宝等积累的大量交易支付数据作为最基本的数据原料,再加上卖家自己提供的销售数据、银行流水、水电缴纳甚至结婚证等情况作为辅助数据原料。所有信息汇总后,将数值输入网络行为评分模型,进行信用评级。
信用卡类网站的大数据同样对互联网金融的风险控制非常有价值。申请信用卡的年份、是否通过、授信额度、卡片种类;信用卡还款数额、对优惠信息的关注等都可以作为信用评级的参考数据。国内最具代表性的企业是成立于2005年,最早开展网上代理申请信用卡业务的“我爱卡”。其创始人涂志云和他的团队又在2013年推出了信用风险管理平台“信用宝”,利用“我爱卡”积累的数据和流量优势,结合其早年的从事的FICO(费埃哲)风控模型,做互联网金融小微贷款。
利用社交网站的大数据进行网络借贷的典型是美国的Lending Club。Lending club于2007年5月24日在facebook上开张,通过在上面镶嵌的一款应用搭建借贷双方平台。利用社交网络关系数据和朋友之间的相互信任聚合人气。借款人被分为若干信用等级,但是却不必公布自己的信用历史。
在国内,2013年阿里巴巴以5.86亿美元购入新浪微博18%的股份,其用意给人很多遐想空间,获得社交大数据,阿里完善了大数据类型。加上淘宝的水电煤缴费信息、信用卡还款信息、支付和交易信息,已然成为了数据全能选手。
小贷类网站积累的信贷大数据包括信贷额度、违约记录等等。但单一企业缺陷在于数据的数量级别低和地域性太强。还有部分小贷网站平台通过线下采集数据转移到线上的方式来完善信用数据。这些特点决定了如果单兵作战他们必定付出巨大成本。因此,贡献数据,共享数据的模式正逐步被认可,抱团取暖胜过单打独斗。其中有数据统计的全国小贷平台有几百家,全国性比较知名的有人人贷、拍拍贷、红岭和信用宝等。
第三方支付类平台未来的机遇在于,未来有可能基于用户的消费数据做信用分析。支付的方向、每月支付的额度、购买产品品牌都可以作为信用评级的重要参考数据。代表产品为易宝、财付通等。
生活服务类网站的大数据如水、电、煤气、有线电视、电话、网络费、物业费交纳平台则客观真实地反映了个人的基本信息,是信用评级中一类重要的数据类型。代表产品为平安的“一账通”。
互联网金融风控大数据加工过程
如上图所示,在进行数据处理之前,对业务的理解、对数据的理解非常重要,这决定了要选取哪些数据原料进行数据挖掘,在进入“数据工厂”之前的工作量通常要占到整个过程的60%以上。
在数据原料方面,越来越多的互联网在线动态大数据被添加进来。例如一个虚假的借款申请人信息就可以通过分析网络行为痕迹被识别出来,一个真实的互联网用户总会在网络上留下蛛丝马迹。对征信有用的数据的时效性也非常关键,通常被征信行业公认的有效的动态数据通常是从现在开始倒推24个月的数据。
通过获得多渠道的大数据原料,利用数学运算和统计学的模型进行分析,从而评估出借款者的信用风险,典型的企业是美国的ZestFinance。这家企业的大部分员工是数据科学家,他们并不特别地依赖于信用担保行业,用大数据分析进行风险控制是ZestFinance的核心技术。他们的原始数据来源非常广泛。
他们的数据工厂的核心技术和机密是他们开发的10个基于学习机器的分析模型,对每位信贷申请人的超过1万条原始信息数据进行分析,并得出超过7万个可对其行为做出测量的指标,而这一过程在5秒钟内就能全部完成。
事实上,在美国,征信公司或者大数据挖掘公司的产品不仅用于提供给相关企业用于降低金融信贷行业的风险,同时也用于帮助做决策判断和市场营销,后两者不在本文的探讨范围内,但是可以从另一个方面给我们很多启发。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26