京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据提升互联网金融风险管控能力的应用实践
当量级庞大、实时传输、格式多样的全量数据通过某种手段得到利用并创造出商业价值,且能够进一步推动商业变革时,大数据就诞生了。过去,人们在处理数据时受到数据量和数据处理手段的制约,为了确保分析结果的准确性,人们偏向于收集可量化的、准确的数据。
而在大数据时代,人们可以获得海量的、非结构化数据,并且利用内存分析、流处理等新兴技术,大幅度提升了对海量数据的处理能力,人们得以从新的视角重新审视数据的利用和挖掘。大数据的出现,降低了数据分析的成本门槛,实现了从数据到价值的高效转化。
未来是一个大数据时代,2015年9月国务院在正式印发的《促进大数据发展行动纲要》(下文简称《纲要》)中指出,要加快政府数据开放共享,推动资源整合,依托政府数据统一共享平台,大力推进法人单位信息资源库等国家基础数据资源,以及金税、金盾等信息系统跨部门、跨区域共享。
如上海市已开放交通大数据,南京市打造了以社保、住房公积金、车辆违章等为基础的大数据平台并在一定范围内向社会机构开放。据国家发展和改革委员会透露,政府数据统一开放门户有望2018年以前建成,实现面向社会的政府数据资源一站式开放服务。
除了政府公共数据资源逐步开放外,《纲要》中还特别指出要发展新兴产业大数据,大力培育互联网金融等新业态。金融行业在发展大数据能力方面具有天然优势:在开展业务的过程中积累了海量的高价值数据,其中包括客户信息、交易流水等数据。有数据显示,中国大数据应用投资规模以五大行业为最高,其中第一是互联网行业,占28.9%,第二是电信行业,占19.9%,第三是金融行业,占17.5%。而金融行业中银行业又是重点,占41.1%。
面对着数据宝藏,每一家银行都需要回答这样的问题:如何充分利用外部开放数据和银行自有数据,让数据资产迸发出能量。
江苏银行在选择一个合适的大数据技术平台之后,积极采用“应用驱动”、“业务与科技紧密协同”、“迭代式开发和小版本发布”的项目管理方法,结合各个业务条线的业务拓展思路、客户管理和产品设计策略,以开放的思维引入先进的专家经验和汇聚本行创意,通过打造金融大数据应用平台,实现大数据弯道超车的目标,促进业务创新和管理创新。
一、互联网金融面临的风险和应对措施
移动互联网使商业服务和金融服务得以无形地嵌入到人们生活方方面面,为互联网金融的创新和广泛应用提供了基础。
我国互联网金融的发展现状从推进主体来看,互联网金融业态可以分为3种类型:
一是由金融机构进行的互联网交易,即传统金融交易方式的网络化和电子化,如手机银行等业务;
二是由互联网企业推出的金融业务,如第三方支付、P2P和众筹等业务;
三是由电子商务企业与金融机构或不同种类金融机构之间进行合作而产生的新兴业态,如余额宝(阿里与天弘基金的合作)等理财产品。
互联网金融常见的风险主要包括5种:
一是信用风险,由于交易双方基于虚拟的网络进行交易,容易被交易对手利用技术和法律漏洞谋取不当利益,信用风险较大;
二是信息科技风险,包括信息安全风险、技术选择风险和技术支持风险;
三是操作风险,由于交易主体对互联网金融业务的操作要求不太了解,或信息系统设计缺陷引起的操作风险;
四是声誉风险,互联网金融机构不能与客户建立良好的关系,从而导致其无法有序开展金融业务的风险;
五是法律风险,现有的法律法规都是为传统金融业务设置,不完全适合于互联网金融,如交易者身份认证、资金监管、市场准入等尚未有明确的监管规定,故在互联网金融的交易过程中容易出现由于交易主体间权利义务模糊而导致法律风险。
本文主要从信用风险角度展开,并结合江苏银行的实践对互联网金融的大数据风险管控应用实践进行分享。
和传统金融业相比,互联网金融的信用风险的防控具有以下两个关键点:
一是风险管理面临“免担保”模式的冲击,银行必须从更广阔的范围进行信用风险的防范,需要解决信息不对称的问题,并建立更加全面的客户信用风险量化体系。互联网的普及降低了信息成本,很大程度上解决了信息分散和不对称问题。互联网金融借鉴传统商业银行的信誉评估标准,整合电商、第三方支付等多平台数据,利用云计算、大数据等技术,深入挖掘企业信息,减少人力成本,提高风险预判。同时对企业财务经营状况、上下游关系等信息实时监测,方便违约后不良资产的及时处理变现,打造和谐信贷生态圈(链)。
二是在虚拟的网络进行交易,欺诈风险高,对客户信息的甄别更为重要,需要更先进的技术手段。除了传统数据反欺诈模型分析外,互联网时代必须引入移动数据的支持,如利用移动设备的位置信息,帮助商业银行验证贷款申请人居住地,分析贷款用户真实工作地点,识别出现在同一个经纬度的群体性恶意欺诈事件,降低恶意欺诈的风险。
二、大数据在风险管控领域的技术研究
大数据从内涵上看,其特征可归纳为三个方面:
一是数据类型方面,除了包括海量的结构化和半结构化的交易数据,还包括海量非结构化数据和交互数据;
二是技术方法方面,核心是从各种类型的数据中快速获取有价值信息的技术及其集成;
三是分析应用方面,重点是采用大数据技术对特定的数据集合进行分析,及时获得有价值的信息。
与其他行业相比,大数据对银行业更具潜在价值。一方面,大数据决策模式更符合银行发展需求。银行业发展模式转型、金融创新和管理升级等都需要充分利用大数据技术、践行大数据思维。另一方面,银行业数据特点是量大、类型多,不仅拥有账户信息和交易信息等结构化数据,还拥有客服音频、网点视频、网上银行记录、电子商城记录等非结构化数据。
在新的形势下,银行业需要加强大数据应用,如利用大数据图分析与流处理技术,快速统计历史数据、一段时间窗口的信息流和触发计算的事件,并匹配模型,在百毫秒级别内进行响应;处理非结构化数据,整合网页、文本、JSON、XML、图像和语音等非结构化数据,转化成结构化字段;通过引入和整合人民银行征信、税务、工商、公安、法院、电信服务商、P2P平台等网络数据源,实现客户的云数据360度画像标签;探索基于并行数据处理技术环境下R语言的运用,实现客户担保圈关系的自动挖掘,自动标识预警担保圈的形成。
基于大数据的风险管控分为五个步骤。
1.全面风险视图的建立
通过建立数据交互渠道,获得税务、司法、环保、工商等在线信息,通过爬虫等技术手段获得舆情信息,并利用半结构和非结构化数据加工分析技术,将上述数据转化成结构化数据,加工整合形成全面的客户征信视图。在此基础上,不断进行迭代设计,完善业务需求。
2.客户线上信息识别
通过人脸识别、反欺诈侦测技术核实客户身份的真实性,判断申请者是否存在欺诈行为。一般来说,人脸识别系统包括图像摄取、人脸定位、图像预处理以及人脸识别(身份确认或者身份查找)。系统输入的一般为一张或多张含有未确定身份的人脸图像、人脸数据库中的若干已知身份的人脸图象或者相应的编码,输出的则是一系列相似度得分,表明待识别的人脸的身份。
在线反欺诈是互联网金融必不可少的一部分,常见的反欺诈系统由用户行为风险识别引擎、征信系统、黑名单系统等组成,包含五个部分:数据采集、欺诈侦测、系统管理、报表、数据库。为了进一步提升反欺诈能力,设备指纹技术、代理检测技术、生物探针技术被应用到反欺诈系统中,实现从多维度降低风险。
3.信用评分模型建设以及与之匹配的业务策略设计
智能模型是一种欺诈风险量化的模型,它利用可观察到的交易特征变量,计算出一个分值来衡量该笔交易的欺诈风险,并进一步将欺诈风险分为不同等级。智能模型会在客户交易的第一个行为开始进行分析,为客户每一个动作赋予相对应的风险分数,为智能型反交易欺诈授权决策提供科学依据,对欺诈风险高的交易可以拒绝授权和展开调查。
银行业欺诈风险主要集中在注册、登录、借款、提现、支付、修改信息6个业务场景。如注册场景中的虚假注册、垃圾注册;登录场景中的撞库登录、暴力破解等;借款场景中的多头借贷、信用恶化;提现和支付场景中的欺骗行为等。
4.实时风控技术框架
针对个人线上消费贷款的风控需求,反欺诈系统需具备稳定、快速、准确的的特点,以平衡业务拓展、客户体验和风险控制三方的关系。通过引入反欺诈风险规则引擎,可以将不断变化的业务规则剥离出来,进行动态管理和多规则多重组合,从而使系统变得更加灵活,适用范围更加广泛。在交易过程中,通过实时计算当前交易和历史交易特征的偏离值,如平均交易金额、常用的交易类型等,计算该笔交易发生欺诈的概率。
5.智能决策与业务应用流程结合
基于行内和行外数据,将开发和设计出的智能模型及业务策略统一部署在企业级决策平台之后,需要将这些智能决策服务嵌入到现有的作业流程中,从而改进传统的作业模式,实现客户服务模式、体验模式及管理模式的创新。
在整个技术实现框架中,数据是基础,智能模型和业务策略是核心和灵魂,与各种业务流程及渠道结合是应用成果的外在展现。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09