京公网安备 11010802034615号
经营许可证编号:京B2-20210330
美国金融银行业的大数据算法:随机森林模型+综合模型
大数据的概念这两年非常火,对它的解读也是见仁见智。其实不管大数据也好,还是数据挖掘,或者机器智能,都只是个名词,代表了最先进的计算机数据存储和分析算法。它们的核心都是通过在看似变化莫测的数据中寻找规律来帮助解决实际问题,尤其是对未来的一些精准到个体的预测。比如如何最有效的寻找新客户,提高对现有客户的交叉销售以及防止客户流失,都是大数据的具有普遍性的典型应用。具体到银行业,就涉及到信用审批,额度确定,以及反欺诈等专业的应用。
我所就职的美国运通公司是全球知名的信用卡企业,道琼斯三十种工业股票之一。大数据技术被广泛应用于公司的各个部门,取得了令人瞩目的效果。公司的客户群信用非常好,坏账率只有1-2%,远远低于同行业中的其他企业。反欺诈也做得相当成功,在每年八千亿美元的刷卡量中仅造成一个亿左右的损失,占总量的约0.02%。此外公司通过细致分析持卡人的消费记录,并结合移动互联网,实时向用户推荐商家信息,进一步增加了公司的营收和客户忠诚度。
要做到这些好的业绩,仅靠个人经验和一些简单的规定是远远不够的,而必须依靠专业人员采用最先进和有效的数据挖掘算法。下面我就谈谈其中一些最主要的方法,希望对国内的同行能有所借鉴。
回归分析是数据挖掘中最常见和基本的算法,包括简单线性回归,逻辑回归以及其他的广义线性或非线性模型。它们在过去虽然被广泛使用,但存在明显的不足,尤其是变量的相互依存性会使结果发生偏差。为避免这些问题,近些年来美国银行业大量采用了树形算法家族。这其中包括决策树,聚类和回归树,以及较为复杂的随机森林模型。这些方法避免了变量间的相互依存性问题,而且预测分析能力也逐步增强。不过随机森林模型的复杂性使得结果有时不容易理解,新近出现的梯度递增树算法,在预测能力和可理解性方面都强于随机森林,而且适用的范围广,在反欺诈和其他一些领域被证明效果非常好,很值得业内人士关注。
除了树形算法以外,关联分析和序列分析也是最近比较热门的算法。关联分析的核心是寻找与一个客户相关的其他人,通过他们的行为来预测这个客户。序列分析则是通过跟踪一个客户在一段时间内的多个行为来寻找规律,判断他下一步可能的动作。这些算法虽然概念易懂,实际操作起来并不那么简单,需要相当一段时间的实践摸索。如果模型建得好,往往可以有事半功倍的效果。其他的著名算法还很多,比如支持向量模型,深度神经网络等等,这里就不再一一而足了。
算法这么多,自然就存在如何选择的问题,或者也可以同时使用多个算法,然后让他们投票决定结果,这种思路最近也很流行,称为综合模型算法。另外如何选择变量和进行变换,如何验证模型的正确性,和如何及时更新以防模型失效也都很有讲究,必须每一步都认真仔细进行才能产生令人满意的结果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25