京公网安备 11010802034615号
经营许可证编号:京B2-20210330
零售银行如何玩转大数据
我们可以从备用数据库里收集有关联的数组和数据,并使用Hadoop进行分析。或者我们可以通过机器学习技术现有数据中隐藏的关联关系。
普通数据组的介绍
针对所有客户每月收入和支出的分类分析数组是一直存在的。这类数组是因为客户银行账户借记、贷记等各种日常操作而产生的。每一笔交易的产生通常都伴随着一个电子号码,比如电费话费单、商户类别码等等。此外,我们还可以通过商户名称、描述以及留言来对交易进行区分。
我们可以识别出很多消费类别,比如房产类消费(租金或者按揭)、能源类消费(加油或者电费)、食品及家居类消费、教育类、汽车消费、餐饮、大额项目(购买电视、家具)、税费、娱乐、信用卡和贷款支付、奢侈品等等。
同样,收入分类有工资、分红、退税交易、社会福利收入、房租收入、销售等等。通过简单的回归分析可以得到针对每个客户的收入支出情况的整体趋势,以及每个细分类别的趋势。
机器学习和预测
我们可以使用各种机器学习算法和模型来做预测。这里我们介绍两种算法:监督学习以及非监督学习。
监督学习算法通过分析和验证历史数据来得到模型,这个模型可以通过输入数据之间的联系得到确定的结果。样本数据可以随意选取,但是最好提前进行分组处理以得到更准备的结果。通常可以将客户数组数据按照年龄、收入、地域、教育背影以及储蓄量进行分类。每一类还会继续细分,比如年龄可以分成5个20的层级。我们能直接看到每一层级中客户的数量,从而我们可以从每一层级里抽取5%的样本数据来进行分析。这类样本数据能够让我们最直接地看出哪个类别对最后结果的影响最大。比如我们可以很明显地看出教育背影对投资产品的影响最大。
非监督机器学习算法则会从现有的数据中寻找未知的关联模型。我们可以通过那些非正常的客户行为模式中来找到欺诈信息的蛛丝马迹。
1. 产品的私人订制
银行可以把钱省下来去做那些昂贵的市场推广活动来宣传银行产品。产品应该最大程度地提供给那些有可能需要并接受它们的人,所以应该针对客户推荐与其最相关的产品。这些就需要好好研究客户之前都爱使用哪些产品。
客户所使用的银行产品和服务的历史数据都可以拿来做分析,并生成独立的模型。我们筛选并验证出最好的学习算法,然后用它们计算哪些类别和变量能产生最大的效果。
2. 金融欺诈的早期侦测以及减少欺诈损失
这项内容包括识别身份造假、信用卡欺诈、电信欺诈、洗钱以及对网上银行和移动银行的攻击。不断出现的新型欺诈手段需要灵活、迅速的检测算法。过去,银行只使用基于统计学和规则的算法去识别可疑行为。这些算法有很大的局限性,因为它们只能识别已知的欺诈手段,维护成本高,计算中无法覆盖每个用户的全部历史数据,并且经常误报。
我们使用了包含已知欺诈案件的数据集。这些欺诈案件被分为几类储存,如盗取身份透支欺诈,信用卡盗窃,消费信贷欺诈,伪造支票偿还信用卡,盗窃支票,盗录磁条复制卡片,使用窃取的客户凭证或安全设备攻击网上银行,流氓电商运用信用卡诈骗等等。我们使用了利用反向传播进行训练的神经网络和决策树两种算法。这些算法对已有数据进行处理,从而识别新型诈骗的出现。
3. 预测客户流失和取消服务
银行对客户流失和取消服务的预测有很强的时间敏感性,因为在客户不可挽回地决定取消某项服务或转投竞争对手之前,留给银行的时间仅有几天而已。银行必须及早识别那些有可能流失的客户并联系他们,为他们提供其它可选择的服务或是解决他们的问题。留存能带来高利润的活跃客户的成本比起流失他们之后再吸引回来的成本要低得多。
我们预测时使用的原始数据包括账户流动情况,借记卡和信用卡流动情况,CRM中记录的客户数据,服务订购数据,服务中心和分支机构的访问交易数据以及登录信息等。常用的收入和支出数据也被纳入其中。
我们还建立关键事件的时间序列,诸如注销借记卡,从其它银行转入的工资、分红、租金等收入,客户主动联系服务中心或是访问分支机构,注销信用卡等等。
我们还建立了另外一组客户集,他们符合年龄、收入、存款和地理位置分布等画像但仍然是银行的存留客户。
基于以上,我们建立了有效的模型以预测客户在不可挽回地转投竞争对手之前的一系列行为。我们已经使用了一些监督学习算法,例如支撑向量机进行二类分类以及利用用反向传播的神经网络。在使用主成分分析对输入数据进行降维后,我们使用非监督学习算法中的K聚类算法和KCm算法来降低输入数据的维度。
我们在最近的数据中识别出了数百名符合模式的活跃用户,在他们转投竞争对手之前,相关分行应当及早进行联络。
4. ATM机和银行网点中现金分配的最优解决方案
对于ATM机和银行网点而言,一年之中不同时段的现金需求量是在不断变化的。这种变化可能由天气、突发事件、假期及旅游等各种因素引发。准确预测出ATM机和银行网点的现金需求量非常重要。无论是频繁地往ATM机里放现金,还是ATM机因缺少现金而停止使用,成本都很高。另一方面,我们又不希望出现ATM机和网点长期持有冗余现金的情况,因为这既不是最优的现金分配方法,同时也会加大引发犯罪的可能。
我们会使用多个维度的数据进行分析,包括:ATM机的服务日志,ATM机和银行网点的地理位置信息,每台ATM机的提款数据,ATM机和银行网点当地的天气预报,赛事安排,每个地区的文化活动、重要事件以及节假日安排。此外,信用卡和借记卡的流动情况也是重要的数据源,可以判断不同地区在每年不同时间的现金需求量。我们使用普通数据组来确定不同地区客户的工资、社会福利和其它收入的到账时间。
我们提取并分析了这样一些数据,包括:所有ATM机在一年中每一天取现数量的中位数,所有ATM机一天中每小时取现数量的中位数。这一数据集被用来计算天气、重要事件、星期几及节假日对某一具体地区的现金需求量的影响。我们还将过去4年间的重要文化、体育及其它事件与其发生的地理坐标数据结合加以处理,计算出了每项事件对其辐射范围100米以内的ATM机的现金需求量的影响。根据影响程度的不同,我们对这些事件进行了分类。这一数据组可以预测以后类似事件的影响。
同时,我们计算了天气与当地每台ATM机现金需求量的相关性,过程中涉及到的天气相关的参数包括降水量、温度和风力等。
另外,我们还建立数组分析了不同地区收入(包括工资、社会福利等)到账日和现金需求量的相关性。
基于以上数据集,我们建立了预测每台ATM机和网点一年中任意一天现金需求量的模型。这些模型考虑了历史天气预报数据和重要事件安排,也用到了很多高级算法如波尔兹曼机、感知机和高斯判别分析等。
5. 昂贵银行渠道使用的最小化
在昂贵的银行渠道比如柜台服务或光顾支行或电话客服的使用率最小化上我们做出了巨大的投入。
使用率的最小化可以由优化网上银行或手机银行应用、帮助页、帮助软件以及优化网站界面实现。另一个方法鼓励正在犹豫的客人转而使用更便宜的方式是目标更加明确的推广活动。
可分析数据最主要的来源是来源于网上银行以及手机银行应用的网页记录。我们曾用过带银行账号的使用记录,客服中心交易记录数据组,用户信息的CRM数据组,或分行交易记录的数据组。
另一个重要的数据组是客服中心、支行的投诉以及咨询的来电、邮件、来信。我们将数据以网络帮助页的咨询点的相关兴趣点分类。这能帮助找出解释不清晰、造成误解的以及不必要咨询电话的帮助页面。这还能帮助管理网上银行那些复杂的造成投诉的操作。它发现了许多领域比如关于帮助页面没有涵盖的信用卡支付汇率,这反而常常在电话或分行咨询中常常被提到。网上银行的产品据此修改,提供自助咨询、搜索优化、网上银行管理、以及手机银行应用等服务,以减少客服中心以及分行的使用率。
我们分析了以转化客户到网上银行、手机银行以及自助柜员机的市场营销活动的结果数据。根据相关性分析,许多大范围的营销活动并不十分有效。我们也分析了最近将大部分业务转移到网上的银行客户的规律。这帮助我们找出更有可能转移到网上的客户。对这些客户我们应该使用更有针对性的个性化的营销策略,根据各个分行的特点进行活动。
6. 评估债务产品的客户
为了可靠地评估风险,对现有客户批准借记产品,不仅需要考虑现有的信用状况、可支配收入状况,还需要客户的全部历史和社交记录。这样以减少银行承担的风险并增加来自有价值客户的收入。
我们使用通用收入支出数据库分析,客户全部的信用卡、借贷、透支或其他金融产品的交易记录以及CRM信息。
使用MarkovChain随机分析评估与客户行为相关的借贷支付可能。此类模型在盈利性借贷、信用卡以及其他金融产品的历史数据中得到验证。我们注意到信用记录的可靠性得到增加,并能够据此为被拒绝的客户提供替代产品。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在机器学习与数据分析领域,特征是连接数据与模型的核心载体,而特征重要性分析则是挖掘数据价值、优化模型性能、赋能业务决策的 ...
2026-01-27关联分析是数据挖掘领域中挖掘数据间潜在关联关系的经典方法,广泛应用于零售购物篮分析、电商推荐、用户行为路径挖掘等场景。而 ...
2026-01-27数据分析的基础范式,是支撑数据工作从“零散操作”走向“标准化落地”的核心方法论框架,它定义了数据分析的核心逻辑、流程与目 ...
2026-01-27在数据分析、后端开发、业务运维等工作中,SQL语句是操作数据库的核心工具。面对复杂的表结构、多表关联逻辑及灵活的查询需求, ...
2026-01-26支持向量机(SVM)作为机器学习中经典的分类算法,凭借其在小样本、高维数据场景下的优异泛化能力,被广泛应用于图像识别、文本 ...
2026-01-26在数字化浪潮下,数据分析已成为企业决策的核心支撑,而CDA数据分析师作为标准化、专业化的数据人才代表,正逐步成为连接数据资 ...
2026-01-26数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19