京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据和互联网金融间不得不说的故事!
谈到大数据,首先应当了解,对金融行业来说,大数据“大”在哪里,和传统数据在本质上有什么样的不同,才能够更好地理解和更有针对性地应用这宝贵的新资源。就如同原油也需要经过层层的提炼,才能成为人类可以大量应用的石油产品,大数据也需要经过精心的筛选和应用设计,才能起到实质的功效。
传统金融机构,在建设信用风险打分模型的数据来源主要有几个方面:第一,人民银行征信中心数据;第二,客户自己提交的外部个人财力证明数据,如房产证、汽车行驶证、单位开具的收入证明等;第三,金融机构或集团内部积累的客户历史数据,如银行的工资流水,历史贷款数据,保险数据等。
1.传统数据的优点和缺点
传统数据优点是这些数据和金融的价值相关性高、数据采集规范。然而缺点是维度较小,并且覆盖的人群有限,对于新形态的互联网模式适应程度较差,也不容易达到普惠覆盖的目的。
金融机构基于这些高价值数据,纷纷设计出各种信用风险评分模型,最终实现对客户信用风险的打分评估,是目前较为成熟的运行方式。
2.大数据的特点
大数据时代的客户信息渠道更加多元化,主要包括内部收集和外部渠道,内部收集指各互联网生态体系内,长期积累的用户数据。外部渠道则是指各种数据源采集,如通信数据、社保数据、法院失信数据、交通数据、保险数据等等。
其数据特征包括几个方面,第一,数据覆盖面广。各大互联网集团,通过各种APP采集积累了用户行为各方面的数据,如搜素历史数据、电商交易数据、支付交易数据、社交数据,以及各种APP采集的用户行为数据等等。第二,大量非结构化的破碎数据导致的数据不准确。数据采集渠道的多元化和非标准化,随之带来的问题就是,客户信息不准确,同一客户不同维度的信息经常不完整或匹配不上。第三,数据来源不稳定。不少大数据采集通过灰色渠道收集个人隐私数据,数据连续性和可持续性欠佳,往往有数据过时或缺失问题。第四,消费数据和信用数据关联性弱。
尽管市场上常见的大数据机构收集了各种维度的客户行为信息,试图描绘客户画像,但消费类的数据和客户信用风险以及还款意愿并不直接相关。目前的大数据公司往往缺少内部征信数据、外部征信数据、个人资产数据等强金融变量数据,而集中在客户衣食住行和社交信息,要直接拿来作为信用风险评分模型的有效性依旧有待考验。考虑到大数据和传统金融数据的差异性和互补性,所以更多的应该是如何通过模型的设计和提炼,使得这些大数据源经过提炼,可以从原油变成成品石油般广为应用。
大数据在借贷中的应用
1.借贷反欺诈
由于网络借贷和传统金融面对的受众区别,借款人主要来自线上,考虑到目前网络犯罪的试错成本极低,为数众多的网络借贷平台很容易成为诈骗集团觊觎的目标,一般根据行业经验,网络借贷平台往往都会有高达九成的借款需求存在欺诈和骗贷行为风险。因此借贷反欺诈的重点在于从100名潜在借款人当中,准确识别出真正有还款意愿的10名借款人。
通过技术的防范手段很多元化,一般通过核实手机号、身份证号码、电脑唯一设备号、手机唯一设备号,可以进行下列过滤识别手段:交叉比对借款人登记的住家地址、公司地址,以及申请人当时申请的定位地点,如果差距超过10公里,风险系数极高;某些地址或大楼,属于申请诈骗高发地址的,风险系数偏高,会得到一个分值;发现和多个平台同时存在借款记录的,风险系数偏高;手机号属于法院黑名单、租车黑名单、使用时间段不足6个月、被多次标记恶意骚扰电话等,风险系数偏高;6个月内,同一个手机设备号,曾经在银行、小贷公司、多家P2P平台有过多次申请记录的,风险系数极高;手机设备号近一天关联申请人3个手机号以上的,风险系数极高;手机号与设备是否匹配、第一次激活时间距离申请贷款时间较近,风险系数较高。
2.基于大数据自动化流程提升效率
在通过反欺诈引擎,识别出真正有还款意愿的借款人后,这个阶段的重点在于建立大数据辅助的信用风险评分模型,尽可能的从多维度数据补强出传统金融数据不足之处,精准定位达不到传统金融机构要求,但是又具有良好还款能力的借款人。目前行业内流行较广的应用是在个人征信过程中,针对小额度(低于1万元)的贷款需求尽量采取自动化、批量化的模型审批系统,将原先需要人工花费30分钟、逐一审核的15个风险控制点,采取自动化和接口的方式,在1分钟内能完成风险定价和放贷,极大地提升运营的效率,更有效地通过技术手段压缩了运营成本。不过针对大金额的借贷,考虑到欺诈风险和成本较高,传统的金融征信数据和手段依旧不可或缺,同时使用大数据进一步提升风险管控和提高效率,例如通过接口自动实现身份证、法院、社保的信息核实,可以提高准确率和审批效率。未来也可以试图在传统风控打分模型中引入更多的大数据元素,作为评级的参考标准,例如有金融参考性的保险数据、航空记录、社保记录等。
3.构建基于场景的数据风险管理体系
通过建设交易借贷的场景一体化,是目前各大互联网金融平台和传统金融机构进行错位竞争的舞台。其中由于借款人是直接通过信用借贷行为取得所想要的产品或服务,套现诈骗风险相对较低,金额一般也较小,各大平台借鉴着灵活的体系和快速执行力,纷纷投入精力设计各种低风险、场景化的金融应用服务,并不断持续优化客户体验。
场景化金融的风险管理要素,在任何一个的场景中,都有借款人、贷款用途(购买特定产品和服务)、资金流和产品服务流这几个基本要素,在这些特定点中,通过下列规则的设定和组合,可以有效的极大的降低风险。第一,基于购买特定产品和服务类场景的借贷产品,例如产品服务非一次性 交付,如长达一年的教育课程培训套餐或多次实施的医疗美容套餐。第二,资金流和产品服务流形成闭环,意味着借款人不能拿到现金,平台的资金流是直接付给产品服务提供方,如在线分期购买iPhone、个人二手车消费贷款。第三,风险可控有抵押需要快速周转灵活调度资金的场景,如二手车商的经营贷款、房地产置换的赎楼贷,也是很好的消费场景。
不过考虑到每个场景设定的不同,对应的风控要素自然也不同,最理想的互联网金融平台模式,会建立数十种不同的场景化金融,针对每个场景定义出不同的风控要素、准入条件和禁入人群、利率定价、还款周期等等。
从实操的角度来说,第一步应该是在每一个风控场景,由风控人员和技术人员设定出精密的各种金融要素条件,第二步是尽量善用外部数据源来辅助,能真正体现每一个互联网金融平台的产品设计和风控水平。
4.做催收贷后管理的应用
在传统数据受限的场景下,大数据能显著提升贷后催收的成果,目前国内各大银行信用卡中心都已经开始探索这方面的应用,互联网金融行业也早就已经着手使用。具体来说,主流应用是查找逾期失联客户的电话、地址、邮箱、QQ 、微信、微博等信息。帮助委托方与失联客户建立沟通渠道。如果还是失败,大数据公司往往会进一步分析该手机号最常联系人,做进一步联系,试图联系失联客户。
5.在获客和客户价值挖掘上的应用
传统金融机构或银行,目前评价一个客户价值,相对来说较为片面。举例来说,一个客户在某银行里,只有一张借记卡,没有其他信用卡或贷款服务,只有账户里面几千元活存,那这个客户对银行来说,往往被定义为交易不活跃的低价值客户。
如果可以通过大数据角度来看,通过身份证号、手机号进行客户画像描绘后,可能分析出来这个客户经常关注互联网理财,经常频繁使用各种股票和银行APP,较高频次的国内和国际航空记录。这个时候分析出来的结果反而可能是高净值客户。通过大数据可以帮助金融机构和互联网金融把客户画像描绘的更加完整。这样一来,结合了原先的传统情景和大数据分析后的场景,金融机构和互联网金融平台的决策就会截然不同。这个客户虽然在银行或互联网金融平台暂时是一个低价值客户,但实质上是一个高净值客户,可以通过适当推送的产品组合,并结合电话销售,推荐适合的金融产品或服务,例如全家海外旅游分期贷款,或者短期高收益的金融产品。这也是通过大数据分析能改变传统获客和客户挖掘交叉营销的模式。
同时,通过算法的分析和训练,可以建立现有用户的群组,分析出一群比较相似的人,推荐一些他们经常会选择的东西,根据这些信息可以去推荐相应的金融产品或服务给他,一方面让客户觉得不会干扰,进而提升接受度和转化率。从智能推荐的角度,会利用不同的标签参数、ID的参数等等完成推荐的工作。ID在整个数字营销领域是非常关键的一件事情,需要知道这是同一个人,才会有意义,不然所有营销的工作都是分散、割裂的,对整体的营销效果并不会很好。
有了相对稳定的老客户,那如何开发新客户进行获客?很多互联网平台往往会外包给一些外部营销公司、媒体公司。其实从大数据的视角来看,应该是分析现有的稳定老客户,根据这些老客户可以通过相似的推荐、相似的选择找到什么样的用户会发生转化,根据标签设定找到已经转化的老用户相似的用户,根据这些用户选择性的去投放不同的媒体渠道和属性,不停优化整个投放的结果,可以有效的降低获客成本。
从金融行业来看,各家大数据供应商的数据,随着采集设备和种类的增加,采集方式日渐结构化,辅以各种大数据分析工具的齐备、大数据分析从业人员增加,可以预期在不久的将来,大数据将会渐渐的彻底改变目前整体传统金融行业的运作方式,随之而来的,各金融机构在战规划略和资源倾斜上,也会越来越重视大数据的投入,并逐步将数据的积累、分析、应用变成金融机构核心竞争力的一部分。在国内,除了借贷业务外,预期在保险行业、券商行业、大资管与财富管理行业,还存在着巨大的发展空间和机遇等着各类金融机构进行探索。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27对数据分析从业者和学生而言,表结构数据是最基础也最核心的分析载体——CRM系统的用户表、门店的销售明细表、仓库的库存表,都 ...
2025-11-27在业务数据可视化中,热力图(Heat Map)是传递“数据密度与分布特征”的核心工具——它通过颜色深浅直观呈现数据值的高低,让“ ...
2025-11-26在企业数字化转型中,业务数据分析师是连接数据与决策的核心纽带。但“数据分析师”并非单一角色,从初级到高级,其职责边界、能 ...
2025-11-26