京公网安备 11010802034615号
经营许可证编号:京B2-20210330

【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数字化转型、模型运营、模型评估、运营分析、模型调优、模型逻辑
【专访摘要】本次CDA持证专访邀请到徽商银行总行大数据部郭畅,他分享了CDA考证内容与银行大数据工作的结合点,详解了模型开发的流程、语言工具及模型优化的方法与案例,解读了机器学习在银行智能风控中的应用,为银行大数据从业者及备考CDA的小伙伴提供了实用参考。
【主持人】大家好,今天我们邀请到了郭畅来参加我们CDA持证人的专访,郭畅可以和大家打个招呼。
【嘉宾】哈喽,大家好,我叫郭畅,安徽大学毕业,目前就职于徽商银行总行大数据部,目前是刚工作一年多,主要参与了两项跨部门的项目建设,在项目中主要负责模型开发、数据分析、模型运营优化等工作。
【主持人】就是看到您已经是CDA的二级持证人了,就是您平时的工作或者是项目能和考证的内容结合起来吗?
【嘉宾】可以的,其实我是在读研期间考的CDA,因为我的方向是机器学习和数据挖掘方向的,那段时间发现CDA二级建模分析师的考试内容也比较相符,再加上有实操的考试,就想着边考试边学习,可能会更系统一点,也能够检测自己的学习情况。在后来找工作的途中也发现这方面的知识确实比较热门的,特别是在整个银行数字化转型的这个背景下,现在是刚入职银行一年多,由于所在的岗位也是比较对口的,像之前学习的内容比较有用。比如说评分卡模型、逻辑回归、随机森林、GPT等等算法,现在在当前的互联网信贷的建模上也会有用到,在风控也一直都是我们互联网信贷的工作重心,像我刚刚提到的机器学习的算法也都是我们在做逾期客户或者说其他的一些坏客户的预测上会经常用到的。
【嘉宾】然而在这些算法和模型之前,还有最重要的,也是我们工作中比较费时的数据预处理以及特征筛选的这部分,其实在我们工作中遇到的很多数据都存在各种各样的问题,如何处理缺失异常,如何进行数据清洗以及编码?在特征构建以及说特征筛选的过程中,怎么样去构建有效的特征,怎么样进行特征的筛选?像其实这些内容在我考试的期间都有接触到,并且和实际工作也都是有一定重合度的,然而在工作的这一年中,也是仅仅通过一些系统的自己的学习没有办法接触到的是一些做模型设计以及开发中的一些业务知识,毕竟是我们模型也是为业务赋能的,也会用到有具体的业务场景,所有的模型都需要结合不同的业务场景去设计不同的指标,或者说你设计的指标也会根据不同的业务场景应用和筛选,具体的问题也需要具体分析,其实总体来说,从业务分析、数据获取、数据预处理、特征筛选、建模评估等等这应用这些的流程重合度,其实在我们考证中重合度还是蛮高的。
【主持人】平时用什么语言写模型呢?可以简单说说你的模型开发的工作流程吗?
【嘉宾】其实我们平时在数据提取或者说是指标开发方面用的比较多的还是SQL语言,因为大家都知道银行的数据大部分都在数据仓库里面。在建模型、运营分析,平时的一些分析基本上用的都是Python语言,我们在进行模型开发的时候,一般都会也都是根据业务流程、业务部门的需求进行的。
【嘉宾】所以首先就是需要确定业务需求,在明确了业务需求之后,我们需要做的就是分析数据的有效性、可用性,来提取好坏的样本,构建特征建模以及进行模型评估等等。在实际工作中,我目前工作遇到的模型分为规则模型、机器学习模型以及两种相结合的模型。其实在工作之前我会觉得像规则模型比较简单,但是在实际工作中也会发现针对特定场景、特定的政策要求,规则模型是必不可少的。针对这些规则模型,像业务要求、监管以及政策导向就显得极其重要了,重心主要放在如何量化指标、如何进行指标的调优是这一部分。而针对于机器学习的模型,像特征筛选、模型构建、调优的整个过程中,最主要还有占据比较大的部分,主要就是模型的本身和算法需要花我们的重点。
【主持人】模型优化是怎么操作的?是长期的工作吗?或者是一定周期就要优化吗?
【嘉宾】其实模型优化其实应该算是贯穿整个模型生命周期必不可少的一个环节吧。应该说是一个长期的工作,但是不能说是某一个固定周期,一定要去优化,也没有这种说法。其实在我当前工作中,模型优化主要有两个方面的原因,第一个就是业务需要,像第二个就是模型需要,对于前者来说,我们会针对不同的业务场景和产品的需要,结合业务或者说产品的变动进行模型的优化。对于后者模型需要来说,指我们会在模型运营分析的过程中发现一些问题,针对这些问题进行分析,然后进行模型的优化。举个例子,对于互联网信贷模型,像准入端、模型端和授信端都会有各自的模型或者说规则,如果某一些规则或特征出现了变动,针对于这些波动,它的原因需要进行分析。比如说如果是针对模型当前的客群发生了一些偏差,我们会进行不同的调整。还有一种就是针对于我现在模型是刚投产一段时间,可能需要增加接入不同的新增的数据,需要新建指标,对于这些新增的指标我们可能会进行不同程度的调整以及优化,所以说模型优化并不是单独进行的,需要和业务的场景以及日常的模型监控相结合。
【主持人】可以举一个模型优化的实际案例吗?
【嘉宾】好的,那我就从我参与的两次的模型优化来入手,简单说一下,其实刚才说的模型优化不是独立出来的一个过程,也是需要从好坏客户的定义、样本提取以及样本的分布、统计、查看、优化的调整、模型评估的结果等等方面进行的。在实际工作过程中也会存在像说模型刚上线一段时间坏样本不充足的这种情况,在这个时候我们做模型优化需要把一部分精力放在如何获取像坏样本的这种情况下,我们常常遇到的解决办法是说找类似的一些场景去扩充我们的坏样本,对于那些已经上线时间比较长的其他场景的逾期客户,我们进行一个迁移度的分析,或者说进行客户的分布重合度的验证以后,查看他是否进行可以进行快样本的扩充,在我们的好坏样本的定义和样本提取之后,需要查看我们样本在当前模型的表现,也就是说在我们当前的样本上,通过变量的取值回测、模型的规则评分以及额度策略等等,通过好坏样本的表现,他好坏样本的分布进行一个统计,结合前期调整的一些要求,比如说像变量的阈值调整、额度参数的调整等等这种简单层面的。
【嘉宾】最后说将调整后的结果和之前进行一个对比评估,我在我们的评估阶段主要就是从模型优化前后的效果和风险分析比较这个方面进行。在风险方面比如说你采用比较紧的变量调整办法,也就是说控制坏样本的进入,坏客户的进入,这种可能会造成客户申请的通过率下降,会造成业务上的贷款放不出去的,这种情况是业务不能接受的。如果你采用松的一些变量调整办法,比如说你放进了大量的客户,而导致坏客户同样进入了,以至于逾期率和不良率上升的风险也是有的,所以在实际的模型调优的过程中,需要和业务端共同的协定,在完成了所有流程之后,会需要写一个模型优化的报告,或者说测试报告,整个流程就算完成了一次简单的模型优化。
【主持人】银行怎样把机器学习应用到智能风控上?
【嘉宾】其实机器学习算法在银行的应用是越来越广的,像分类、聚类、关联等等都是越来越多,也会用到一些像神经网络、深度学习一些图算法等等。但其实从应用方向看,无外乎是四类嘛。客户管理、精准营销、智能风控和运营管理,我今天主要说一下在智能风控方面的应用,一般银行对智能风控这边的应用体现在互联网信贷,如何去识别和预测坏客户是我们的重中之重,一般我们会设置三大关卡,准入端、模型端、授信端,针对不同的关卡会设置不同的规则模型和策略。
【嘉宾】像其中用到机器学习模型主要会体现在评分卡模型以及各种的分类预测算法中。像传统的评分卡模型为了追求解释性,通通采用的是逻辑回归,也就是一种复杂的特征工程和一种简单的模型结合的方法,那现在为了增加一些预测的精度,会更多的结合一些先进的算法来挖掘更多其他的潜在风险。
【嘉宾】像近几年对团伙的挖掘,对关联关系的挖掘也层出不穷,就图算法最近也比较火,因为我们的项目中也会在用到,然后在与传统的算法比较中,图算法像这种先进的机器学习算法也会有一些比较突出的结果。总之在机器学习的算法,在整个银行数字化转型的背景下,是运用的越来越普遍了。作为职场新人,我也会有很多需要和大家一起共同学习,共同进步的地方。
【主持人】感谢郭畅今天为大家带来的分享,随着互联网时代信息技术的不断发展,大数据逐渐被大众熟悉和使用,并上升为国家战略,在各行各业都得到了广泛的应用。银行因为其特殊性,在大数据应用之中有着得天独厚的优势,以大数据为驱动,探索公司业务新增长模式,深入推进了业务的模式转型,已成为商业银行的共识,这一期我们就到这里,我们下期再见。

在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18