京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据风控已显山露水 哪些数据才是风控所需?
美国科学家近日宣布探测到引力波的存在,如获证实,将是物理学界里程碑式的重大成果。一时间,“引力波”成为热词,相关的知识普及也随之而来。然而,5年前国内一位下岗工人在节目上提及引力波时,却遭到了在场嘉宾的讥讽,这位工人还没有对自己的“发明发现”做详细阐述,便被频频打断和否定,只得匆匆下场。五年后的如今,引力波被捕捉到有存在的痕迹,着实是戏剧化的一幕。
当引力波还是一个新鲜事物时,人们没有预见到它的未来,甚至有人无知地直接否认它的存在。这让我也想到“青蒿素”,在屠呦呦教授没拿奖之前也无人所知。然而,纵然当初无人问津,如今可不是大放异彩。
如今的“大数据风控”这一词,或许就如五年前的“引力波”、一年前的“青蒿素”一样,尚处于一个初生试水、萌芽之姿的阶段,机遇与挑战并存。一方面,不可否认地存在鱼龙混杂、乱象丛生的问题,”挂羊头卖狗肉”有名无实的事例也有,对于一些没有核心数据却吹嘘数据风控的大忽悠平台我们当然要擦亮火眼金睛。做大数据风控本要求的是硬技术,谁能真正掌握谁才能扎根发展,行业内已经出现了一些有益的探索,显示了用大数据做风控的优势。
大数据风控已显山露水
目前市场的大数据风控系统现状是:大公司通过大数据挖掘,自建信用评级系统;小公司通过信息分享,借助第三方获得信用评级咨询服务。
已有的风控大致分为两种模式,一种是类似于阿里的风控模式,他们通过自身系统大量的电商交易以及支付信息数据建立了封闭系统的信用评级和风控模型。另外一种则是众多中小互联网金融公司通过贡献数据给一个中间征信机构,再分享征信信息。
那么,哪些数据才是风控所需的呢?
1、电商大数据
电商平台能够累积大量的交易信息,可作为信用评级参考的原材料。阿里金融是利用电商大数据进行风控的领头羊,在很多行业人士还在云里雾里的时候,阿里已经建立了相对完善的大数据挖掘系统。通过阿里巴巴、淘宝、天猫、支付宝等积累的大量交易支付数据作为最基本的数据原料,再加上卖家提供的销售数据、银行流水、水电缴纳等情况作为辅助数据原料。所有信息汇总后,将数值输入网络行为评分模型,进行信用评级。
2、信贷记录大数据
小贷类网站积累的信贷大数据包括信贷额度、违约记录等等。但单一企业缺陷在于数据的数量级别低和地域性太强。还有部分小贷网站平台通过线下采集数据转移到线上的方式来完善信用数据。这些特点决定了如果单兵作战他们必定付出巨大成本。因此,贡献数据、共享数据的模式正逐步被认可,抱团取暖胜过单打独斗。
3、社交网站大数据
社交大数据是风控大数据的一个重要组成部分。通过社交人际网络关系数据和生活圈中其他如水电煤缴费信息、信用卡还款信息、支付和交易信息等,可以多方面地反映出用户的习惯偏好、价值取向、人际交往、信誉度和活跃度等信息。
利用社交网站大数据进行网络借贷风控的典型是美国的Lending Club。Lending club于2007年在facebook上开张,通过在上面镶嵌的一款应用搭建借贷双方平台,利用社交网络关系数据和朋友之间的相互信任聚合人气。借款人被分为若干信用等级,但是却不必公布自己的信用历史。
4、信用卡借记类数据
信用卡类网站的大数据同样对互联网金融的风险控制非常有价值。申请信用卡的年份、是否通过、授信额度、卡片种类;信用卡还款数额、对优惠信息的关注等都可以作为信用评级的参考数据。
5、消费数据
第三方支付类平台做风控的机遇在于,能基于用户的消费数据做信用分析。支付的方向、每月支付的额度、购买产品品牌都可以作为信用评级的重要参考数据。
6、生活服务类数据
生活服务类网站的大数据如水、电、煤气、有线电视、电话、网络费、物业费交纳平台则客观真实地反映了个人的基本信息,是信用评级中一类重要的数据类型。
大数据的海量也就意味着,对数据的理解和对有效数据的挑选非常重要,并非所有数据都是风控有用信息。要选取哪些数据原料进行挖掘,什么数据才是金融风控真正所需的,对数据的类型和实效性都要有所考量。
17年前,很多人认为互联网是泡沫,现在证明互联网没被高估;7年前,很多人认为电子商务是泡沫,但今天中国已经有几亿人的电商市场。如今,大数据风控方兴未艾,也伴随着一些泡沫,但只要它朝着健康的方向发展,未来已来。大数据的相关理论与分析方法,很好地弥补了数据获得的时间连续性、数据的地理位置分布、数据样本的覆盖程度等传统分析方法中的不足,其精准度更高、覆盖面更广和响应速度更快的特点,运用到风险防控中大有裨益。大数据风控本身并非是忽悠,是真的具有发展的潜力,只是其研究还更待成熟。
最后借助苏萌教授在进行大数据辩论时的一句总结:所有新鲜事物都需要一定的泡沫,才能吸引到更多的投资和关注,最终才能让真正好的东西沉淀下来。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22