京公网安备 11010802034615号
经营许可证编号:京B2-20210330
零售银行如何玩转大数据
我们可以从备用数据库里收集有关联的数组和数据,并使用Hadoop进行分析。或者我们可以通过机器学习技术现有数据中隐藏的关联关系。
普通数据组的介绍
针对所有客户每月收入和支出的分类分析数组是一直存在的。这类数组是因为客户银行账户借记、贷记等各种日常操作而产生的。每一笔交易的产生通常都伴随着一个电子号码,比如电费话费单、商户类别码等等。此外,我们还可以通过商户名称、描述以及留言来对交易进行区分。
我们可以识别出很多消费类别,比如房产类消费(租金或者按揭)、能源类消费(加油或者电费)、食品及家居类消费、教育类、汽车消费、餐饮、大额项目(购买电视、家具)、税费、娱乐、信用卡和贷款支付、奢侈品等等。
同样,收入分类有工资、分红、退税交易、社会福利收入、房租收入、销售等等。通过简单的回归分析可以得到针对每个客户的收入支出情况的整体趋势,以及每个细分类别的趋势。
机器学习和预测
我们可以使用各种机器学习算法和模型来做预测。这里我们介绍两种算法:监督学习以及非监督学习。
监督学习算法通过分析和验证历史数据来得到模型,这个模型可以通过输入数据之间的联系得到确定的结果。样本数据可以随意选取,但是最好提前进行分组处理以得到更准备的结果。通常可以将客户数组数据按照年龄、收入、地域、教育背影以及储蓄量进行分类。每一类还会继续细分,比如年龄可以分成5个20的层级。我们能直接看到每一层级中客户的数量,从而我们可以从每一层级里抽取5%的样本数据来进行分析。这类样本数据能够让我们最直接地看出哪个类别对最后结果的影响最大。比如我们可以很明显地看出教育背影对投资产品的影响最大。
非监督机器学习算法则会从现有的数据中寻找未知的关联模型。我们可以通过那些非正常的客户行为模式中来找到欺诈信息的蛛丝马迹。
1. 产品的私人订制
银行可以把钱省下来去做那些昂贵的市场推广活动来宣传银行产品。产品应该最大程度地提供给那些有可能需要并接受它们的人,所以应该针对客户推荐与其最相关的产品。这些就需要好好研究客户之前都爱使用哪些产品。
客户所使用的银行产品和服务的历史数据都可以拿来做分析,并生成独立的模型。我们筛选并验证出最好的学习算法,然后用它们计算哪些类别和变量能产生最大的效果。
2. 金融欺诈的早期侦测以及减少欺诈损失
这项内容包括识别身份造假、信用卡欺诈、电信欺诈、洗钱以及对网上银行和移动银行的攻击。不断出现的新型欺诈手段需要灵活、迅速的检测算法。过去,银行只使用基于统计学和规则的算法去识别可疑行为。这些算法有很大的局限性,因为它们只能识别已知的欺诈手段,维护成本高,计算中无法覆盖每个用户的全部历史数据,并且经常误报。
我们使用了包含已知欺诈案件的数据集。这些欺诈案件被分为几类储存,如盗取身份透支欺诈,信用卡盗窃,消费信贷欺诈,伪造支票偿还信用卡,盗窃支票,盗录磁条复制卡片,使用窃取的客户凭证或安全设备攻击网上银行,流氓电商运用信用卡诈骗等等。我们使用了利用反向传播进行训练的神经网络和决策树两种算法。这些算法对已有数据进行处理,从而识别新型诈骗的出现。
3. 预测客户流失和取消服务
银行对客户流失和取消服务的预测有很强的时间敏感性,因为在客户不可挽回地决定取消某项服务或转投竞争对手之前,留给银行的时间仅有几天而已。银行必须及早识别那些有可能流失的客户并联系他们,为他们提供其它可选择的服务或是解决他们的问题。留存能带来高利润的活跃客户的成本比起流失他们之后再吸引回来的成本要低得多。
我们预测时使用的原始数据包括账户流动情况,借记卡和信用卡流动情况,CRM中记录的客户数据,服务订购数据,服务中心和分支机构的访问交易数据以及登录信息等。常用的收入和支出数据也被纳入其中。
我们还建立关键事件的时间序列,诸如注销借记卡,从其它银行转入的工资、分红、租金等收入,客户主动联系服务中心或是访问分支机构,注销信用卡等等。
我们还建立了另外一组客户集,他们符合年龄、收入、存款和地理位置分布等画像但仍然是银行的存留客户。
基于以上,我们建立了有效的模型以预测客户在不可挽回地转投竞争对手之前的一系列行为。我们已经使用了一些监督学习算法,例如支撑向量机进行二类分类以及利用用反向传播的神经网络。在使用主成分分析对输入数据进行降维后,我们使用非监督学习算法中的K聚类算法和KCm算法来降低输入数据的维度。
我们在最近的数据中识别出了数百名符合模式的活跃用户,在他们转投竞争对手之前,相关分行应当及早进行联络。
4. ATM机和银行网点中现金分配的最优解决方案
对于ATM机和银行网点而言,一年之中不同时段的现金需求量是在不断变化的。这种变化可能由天气、突发事件、假期及旅游等各种因素引发。准确预测出ATM机和银行网点的现金需求量非常重要。无论是频繁地往ATM机里放现金,还是ATM机因缺少现金而停止使用,成本都很高。另一方面,我们又不希望出现ATM机和网点长期持有冗余现金的情况,因为这既不是最优的现金分配方法,同时也会加大引发犯罪的可能。
我们会使用多个维度的数据进行分析,包括:ATM机的服务日志,ATM机和银行网点的地理位置信息,每台ATM机的提款数据,ATM机和银行网点当地的天气预报,赛事安排,每个地区的文化活动、重要事件以及节假日安排。此外,信用卡和借记卡的流动情况也是重要的数据源,可以判断不同地区在每年不同时间的现金需求量。我们使用普通数据组来确定不同地区客户的工资、社会福利和其它收入的到账时间。
我们提取并分析了这样一些数据,包括:所有ATM机在一年中每一天取现数量的中位数,所有ATM机一天中每小时取现数量的中位数。这一数据集被用来计算天气、重要事件、星期几及节假日对某一具体地区的现金需求量的影响。我们还将过去4年间的重要文化、体育及其它事件与其发生的地理坐标数据结合加以处理,计算出了每项事件对其辐射范围100米以内的ATM机的现金需求量的影响。根据影响程度的不同,我们对这些事件进行了分类。这一数据组可以预测以后类似事件的影响。
同时,我们计算了天气与当地每台ATM机现金需求量的相关性,过程中涉及到的天气相关的参数包括降水量、温度和风力等。
另外,我们还建立数组分析了不同地区收入(包括工资、社会福利等)到账日和现金需求量的相关性。
基于以上数据集,我们建立了预测每台ATM机和网点一年中任意一天现金需求量的模型。这些模型考虑了历史天气预报数据和重要事件安排,也用到了很多高级算法如波尔兹曼机、感知机和高斯判别分析等。
5. 昂贵银行渠道使用的最小化
在昂贵的银行渠道比如柜台服务或光顾支行或电话客服的使用率最小化上我们做出了巨大的投入。
使用率的最小化可以由优化网上银行或手机银行应用、帮助页、帮助软件以及优化网站界面实现。另一个方法鼓励正在犹豫的客人转而使用更便宜的方式是目标更加明确的推广活动。
可分析数据最主要的来源是来源于网上银行以及手机银行应用的网页记录。我们曾用过带银行账号的使用记录,客服中心交易记录数据组,用户信息的CRM数据组,或分行交易记录的数据组。
另一个重要的数据组是客服中心、支行的投诉以及咨询的来电、邮件、来信。我们将数据以网络帮助页的咨询点的相关兴趣点分类。这能帮助找出解释不清晰、造成误解的以及不必要咨询电话的帮助页面。这还能帮助管理网上银行那些复杂的造成投诉的操作。它发现了许多领域比如关于帮助页面没有涵盖的信用卡支付汇率,这反而常常在电话或分行咨询中常常被提到。网上银行的产品据此修改,提供自助咨询、搜索优化、网上银行管理、以及手机银行应用等服务,以减少客服中心以及分行的使用率。
我们分析了以转化客户到网上银行、手机银行以及自助柜员机的市场营销活动的结果数据。根据相关性分析,许多大范围的营销活动并不十分有效。我们也分析了最近将大部分业务转移到网上的银行客户的规律。这帮助我们找出更有可能转移到网上的客户。对这些客户我们应该使用更有针对性的个性化的营销策略,根据各个分行的特点进行活动。
6. 评估债务产品的客户
为了可靠地评估风险,对现有客户批准借记产品,不仅需要考虑现有的信用状况、可支配收入状况,还需要客户的全部历史和社交记录。这样以减少银行承担的风险并增加来自有价值客户的收入。
我们使用通用收入支出数据库分析,客户全部的信用卡、借贷、透支或其他金融产品的交易记录以及CRM信息。
使用MarkovChain随机分析评估与客户行为相关的借贷支付可能。此类模型在盈利性借贷、信用卡以及其他金融产品的历史数据中得到验证。我们注意到信用记录的可靠性得到增加,并能够据此为被拒绝的客户提供替代产品。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05