
一、案例综述
案例编号:
102005
案例名称:
银行数据宽表构建和描述分析
作者姓名(或单位、或来源):
朱江
案例所属行业:
J662 货币银行服务
案例所用软件:
R
案例包含知识点:
宽表构建 数据描述
案例描述:
案例描述部分主要有两个内容,一是介绍客户信息的基本概念和分类;二是案例数据的基本介绍和ER图
一. 客户信息
客户信息的收集主要用于客户分析,而客户分析一般是由公司内部不同部门组成的跨领域的团队实现的。客户分析的目标是找到一个单一准确的视角来制定策略,从而最优化的获取和保留客户、定义高价值客户。为了能够更好的实现客户分析,必须全方面的收集客户信息,客户信息主要分为以下四类。
Ø 描述信息:客户的基本属性信息,包括人口统计学的信息诸如性别、年龄、地理位置和收入,也包括自我描述类信息,对于产品的偏好和评价信息。从这些数据中可以细分出关于客户的有用的特征和分类,例如早期采用者(在产品介绍期和成长期采用新产品,对后面的采用者影响很大)、性价比追求者或特定的顾客角色。这些信息可以来自买卖信息、注册记录、调查、回访、情景访谈。这类信息一般易采集,但是质量难以保证。
Ø 行为信息:客户的行为信息,即客户在使用产品和服务的时候表现出来的一般的模式,包括购买行为、注册、浏览以及使用不同的设备等。例如经调查发现一些特定产品分类(消费性电子产品、家具)的顾客,晚上倾向于使用平板电脑购买,而白天倾向于使用台式机购买。行为信息的特点在于实时采集,需要整合汇总。
Ø 交互信息:客户和网站的交互信息,包含网站或者软件的点击信息、导航路径以及浏览行为。主要用途在于网站或软件实用性能测试,例如通过模拟真实的交互得到点击间隔对应的等级。收集数据的途径有:A/B测试,谷歌分析师(Google Analytics),实验室收集等。
Ø 态度信息:客户偏感性的信息,例如偏好、选择、愿望、品牌认可度及情怀等,可以通过调查问卷、特定关注群体的调查以及使用性测试等获得。一些知名的调查问卷公司常用来量化行为和交互信息对态度信息的影响。这些态度可能会影响描述信息中的量化的某些自我描述信息。
下图解释了这些信息之间的关系。
客户信息通常存储在数据仓库中,结合基于CRM的数据挖掘方法论进行信息分析,与商业应用结合最终产生价值。
二. 案例介绍
本案例的数据源自某银行的真实客户与交易数据,主要涉及客户的主记录、账号、交易、业务和信用卡数据等,即客户的一些描述信息和行为信息。一共八张二维表,存储在关系型数据库中,这些表的信息如下。
表名 |
标签 |
备注 |
主键 |
accounts |
账户表 |
账户信息 |
account.id |
card |
信用卡表 |
账户的信用卡信息 |
card_id |
clients |
客户信息表 |
客户的特征信息 |
client_id |
disp |
权限分配表 |
客户与账户的操作权限信息 |
disp_id |
district |
人口统计信息表 |
客户所在地区的人口统计信息 |
A1 |
loans |
贷款表 |
客户的贷款信息表 |
loan_id |
order |
消费信息表 |
客户的刷卡消费的信息 |
order_id |
trans |
交易表 |
客户的交易信息 |
trans_id |
这里使用实体联系模型图(Entity-relationship model,俗称ER图)来描述这些表的关系,这里没有严格的引用标准的ER模型图形符号,我们的目标在于能够详尽的说明各表的组成和相互之间的逻辑关系。
图中共八个表格,其中深灰色带下划线的字段是主键。数据中包含的逻辑关系有:1. 一个人可以有多个账户,一个账户id可以对应多个客户id,即可以多个人共同管理一个账户,账户与客户的关系在权限分配信息表中显示。2. 贷款和信用卡为银行提供给客户的服务。3. 一个账户可以有多张信用卡。4. 一个账户只能一笔贷款。
数据可以用于构建客户违约贷款模型,即根据客户的描述信息和行为信息预测新客户是否会产生违约行为,为银行客户关系管理提供数据依据,从而有效的控制违约风险。于是这里就需要一个结构化的规整的宽表数据。用于数据清洗、描述及挖掘。
涉及到的数据处理有:1. 数据清洗,即根据业务知识将初始数据转换成在逻辑上对目标变量有预测能力的衍生数据,形成宽表,且在时间上只考虑客户最近两年的行为信息。2. 依据贷款表的还款状态定义客户是否违约。3. 描述分析衍生变量和目标变量之间的关系,从而分析这些变量对目标变量的影响程度。
本案例共包含三个知识点
1 读取数据,根据业务知识生成衍生变量,形成宽表
2 描述分析衍生变量和目标变量之间的关系
3 使用逻辑回归预测是否违约
案例执行形式:
单人上机
二、案例知识点:
知识点1:
知识点名称:读取数据,形成宽表
知识点所属工作角色:
数据导入,数据转换
知识点背景:
使用R导入csv格式的文件,依据业务逻辑转换目标变量,形成宽表
知识点描述
加载使用到的包,读取多个文件,转变目标变量
知识点关键词:
R 读取数据,数据转换
知识点所用软件:
Rstudio
操作目的:
R读取csv文件,转换目标变量
知识点素材(包括数据):
accounts.csv card.csv clients.csv disp.csv district.csv load_credit.csv loans.csv order.csv trans.csv
操作步骤:
操作步骤:
Ø 将bank文件夹拷贝到工作路径下,设置工作路径
Ø 加载要用的数据包
Ø 读取数据,一般情况下都要设置参数stringsAsFactors(字符自动转为因子)为假
得到的读取结果:
可见其中trans表包含的观测最多,有105万行
Ø 生成违约标识变量,根据loans表中变量status生成违约标识变量bad_good,这里使用ifelse函数。
Ø 客户描述信息
客户信息这里涉及到loans、clients、disp和district 表,需要进行横向连接操作,这里筛选账户权限为‘所有者’的客户账户,根据相同字段进行简单的四表相连。而当数据量较大时一般先在单一表内计算衍生字段再进行连接。先将四表横向连接。
客户描述信息基于base表进一步衍生,客户贷款时的年龄可以由客户出生日期与贷款的时间差产生,同事计算客户居住地区的平均失业率、居住地区的平均犯罪率、人均GDP。
选择对自己有用的字段生成客户基本信息表。
至此包含目标变量的客户基本信息表info已经生成。得到的结果:
Ø 客户行为信息
在trans表中,amount和balance两个字段格式需要处理成数值型。
这里选择两年作为一个时间段,即选取每一个客户贷款前两年的数据。即需要根据trans表中客户的贷款时间找到每一个客户最近的贷款时间,并以此选择前两年的数据。
根据tmp2表生成贷款前两年每个客户的平均账户余额、标准差、变异系数。
根据tmp2表生成贷款前两年的出入账比率。首先按照客户账号和借贷类型计算对应的总金额,然后计算出入账比率。
生成客户行为信息表。
Ø 宽表汇总
将客户描述信息表与客户行为信息表进行连接得到待分析的宽表。
最终得到的宽表data0有682个客户观测,14个维度变量,变量汇总如下:
至此我们得到了最终用于描述性分析和进一步推断分析使用的宽表。宽表中可见原始变量只有4个(包含标识变量),而衍生变量有10个,占了七成以上。在实际需求中,尤其是数据量较大的时候,需要生成一些衍生变量抽取数据中的关键信息。也可以根据业务逻辑需求生成特定的衍生变量。
Ø 保存表
操作结果:
如操作步骤中显示生成新的衍生变量,汇总成新的宽表
知识点小结:
本知识点显示了数据前期处理的完整流程,关键在于衍生变量逻辑上的选取和生成
Ø 知识点2:
知识点名称:数据描述
知识点所属工作角色:
数据描述
知识点背景:
基本的数据描述分析包括描述性数据分析和探索性数据分析,描述性分析的目标主要在于描述数据集,而探索性分析的目标主要是在描述的基础上发现新的关联或者是未知的关系
知识点描述
描述性分析,探索性分析
知识点关键词:
描述性分析 探索性分析 箱线图 柱状图
知识点所用软件:
Rstudio
操作目的:
Ø 进行部分描述性分析,观察某些自变量与因变量之间的关系。因变量是否违约属于分类变量,多用箱线图和柱状图进行初步的观察。
知识点素材(包括数据):
data_final.csv
操作步骤:
Ø 读取数据,处理因变量使得易于理解
Ø 观察因变量,对因变量是否违约进行探索,观察变量分布情况。
Ø 探索因变量与连续变量
这里分析年龄和因变量之间的关系,探索不同年龄下客户的违约行为是否有差异。
Ø 探索因变量与分类变量
操作结果:
以上例举了常用的描述性分析的方法,用于初步观察数据之间的关系。
知识点小结:
描述性分析和探索性分析都是直观的通过图形来描述和探索变量之间的关系。
Ø 知识点3:
知识点名称:3 使用逻辑回归预测是否违约
知识点所属工作角色:
回归分析
知识点背景:
Ø 使用多元逻辑回归进行推断和预测分析
Ø 得到系数并且进行初步的观察和解释
Ø 通过逐步法和方差膨胀因子优化模型
知识点描述
知识点关键词:
逻辑回归 逐步法 方差膨胀因子
知识点所用软件:
Rstudio
操作目的:
Ø 使用多元逻辑回归进行推断和预测分析
Ø 得到系数并且进行初步的观察和解释
Ø 通过逐步法和方差膨胀因子优化模型
知识点素材(包括数据):
data_final.csv
操作步骤:
Ø 读取数据,去除缺失值
Ø 初步逻辑回归
结果中只有一个显著性变量,并不合理,可能是因为别的变量之间相互抵消减弱了对预测变量的影响,故接着用逐步法对模型进一步优化
Ø 进行逐步logsitic回归
最终得到结果
可见其中对y有影响的变量是贷款金额,余额标准差,变异系数,出入账比率
Ø 查看共线性
可见没有多重共线性的影响
Ø 总结
从经过优化的回归结果可以看出衍生变量对预测模型产生的重要作用
操作结果:
见操作步骤中的总结部分
知识点小结:
逻辑回归中一般需要用逐步法对模型进行优化,并且需要注意多重共线性的检验。
学数据分析技能一定要了解的大厂入门券,CDA数据分析师认证证书!
CDA(数据分析师认证),与CFA相似,由国际范围内数据科学领域行业专家、学者及知名企业共同制定并修订更新,迅速发展成行业内长期而稳定的全球大数据及数据分析人才标准,具有专业化、科学化、国际化、系统化等特性。
同时,CDA全栈考试布局和认证体系已得到教育部直属中国成人教育协会认可,并由为IBM、华为等提供全球认证服务的Pearson VUE面向全球提供灵活的考试服务。
报名方式
登录CDA认证考试官网注册报名>>点击报名
报名费用
Level Ⅰ:1200 RMB
Level Ⅱ:1700 RMB
Level Ⅲ:2000 RMB
考试地点
Level Ⅰ:中国区30+省市,70+城市,250+考场,考生可就近考场预约考试 >看看我所在的地哪里报名<
Level Ⅱ+Ⅲ:中国区30所城市,北京/上海/天津/重庆/成都/深圳/广州/济南/南京/杭州/苏州/福州/太原/武汉/长沙/西安/贵阳/郑州/南宁/昆明/乌鲁木齐/沈阳/哈尔滨/合肥/石家庄/呼和浩特/南昌/长春/大连/兰州>看看我所在的地哪里报名<
报考条件
业务数据分析师 CDA Level I >了解更多<
▷ 报考条件:无要求。
▷ 考试时间:随报随考。
建模分析师 CDA Level II >了解更多<
▷ 报考条件(满足任一即可):
1、获得CDA Level Ⅰ认证证书;
2、本科及以上学历,需从事数据分析相关工作1年以上;
3、本科以下学历,需从事数据分析相关工作2年以上。
▷ 考试时间:
一年四届 3月、6月、9月、12月的最后一个周六。
大数据分析师 CDA Level II >了解更多<
▷ 报考条件(满足任一即可):
1、获得CDA Level Ⅰ认证证书;
2、本科及以上学历,需从事数据分析相关工作1年以上;
3、本科以下学历,需从事数据分析相关工作2年以上。
▷ 考试时间:
一年四届 3月、6月、9月、12月的最后一个周六。
数据科学家 CDA Level III >了解更多<
▷ 报考条件(满足任一即可):
1、获得CDA Level Ⅱ认证证书;
2、本科及以上学历,需从事数据分析相关工作3年以上;
3、本科以下学历,需从事数据分析相关工作4年以上。
▷ 考试时间:
一年四届 3月、6月、9月、12月的最后一个周六。
(备注:数据分析相关工作不限行业,可涉及统计,数据分析,数据挖掘,数据库,数据管理,大数据架构等内容。)
——热门课程推荐:
想学习PYTHON数据分析与金融数字化转型精英训练营,您可以点击>>>“人才转型”了解课程详情;
想从事业务型数据分析师,您可以点击>>>“数据分析师”了解课程详情;
想从事大数据分析师,您可以点击>>>“大数据就业”了解课程详情;
想成为人工智能工程师,您可以点击>>>“人工智能就业”了解课程详情;
想了解Python数据分析,您可以点击>>>“Python数据分析师”了解课程详情;
想咨询互联网运营,你可以点击>>>“互联网运营就业班”了解课程详情;
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA 数据分析师:善用 Power BI 索引列,提升数据处理与分析效率 在 Power BI 数据分析流程中,“数据准备” 是决定后续分析质量 ...
2025-08-18CDA 数据分析师:巧用 SQL 多个聚合函数,解锁数据多维洞察 在企业数据分析场景中,单一维度的统计(如 “总销售额”“用户总数 ...
2025-08-18CDA 数据分析师:驾驭表格结构数据的核心角色与实践应用 在企业日常数据存储与分析场景中,表格结构数据(如 Excel 表格、数据库 ...
2025-08-18PowerBI 累计曲线制作指南:从 DAX 度量到可视化落地 在业务数据分析中,“累计趋势” 是衡量业务进展的核心视角 —— 无论是 “ ...
2025-08-15Python 函数 return 多个数据:用法、实例与实战技巧 在 Python 编程中,函数是代码复用与逻辑封装的核心载体。多数场景下,我们 ...
2025-08-15CDA 数据分析师:引领商业数据分析体系构建,筑牢企业数据驱动根基 在数字化转型深化的今天,企业对数据的依赖已从 “零散分析” ...
2025-08-15随机森林中特征重要性(Feature Importance)排名解析 在机器学习领域,随机森林因其出色的预测性能和对高维数据的适应性,被广 ...
2025-08-14t 统计量为负数时的分布计算方法与解析 在统计学假设检验中,t 统计量是常用的重要指标,其分布特征直接影响着检验结果的判断。 ...
2025-08-14CDA 数据分析师与业务数据分析步骤 在当今数据驱动的商业世界中,数据分析已成为企业决策和发展的核心驱动力。CDA 数据分析师作 ...
2025-08-14前台流量与后台流量:数据链路中的双重镜像 在商业数据分析体系中,流量数据是洞察用户行为与系统效能的核心依据。前台流量与 ...
2025-08-13商业数据分析体系构建与 CDA 数据分析师的协同赋能 在企业数字化转型的浪潮中,商业数据分析已从 “可选工具” 升级为 “核 ...
2025-08-13解析 CDA 数据分析师:数据时代的价值挖掘者 在数字经济高速发展的今天,数据已成为企业核心资产,而将数据转化为商业价值的 ...
2025-08-13解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-08-12MySQL 统计连续每天数据:从业务需求到技术实现 在数据分析场景中,连续日期的数据统计是衡量业务连续性的重要手段 —— 无论是 ...
2025-08-12PyTorch 中 Shuffle 机制:数据打乱的艺术与实践 在深度学习模型训练过程中,数据的呈现顺序往往对模型性能有着微妙却关键的影响 ...
2025-08-12Pandas 多列条件筛选:从基础语法到实战应用 在数据分析工作中,基于多列条件筛选数据是高频需求。无论是提取满足特定业务规则的 ...
2025-08-12人工智能重塑 CDA 数据分析领域:从工具革新到能力重构 在数字经济浪潮与人工智能技术共振的 2025 年,数据分析行业正经历着前所 ...
2025-08-12游戏流水衰退率:计算方法与实践意义 在游戏行业中,流水(即游戏收入)是衡量一款游戏商业表现的核心指标之一。而游戏流水衰退 ...
2025-08-12CDA 一级:数据分析入门的基石 在当今数据驱动的时代,数据分析能力已成为职场中的一项重要技能。CDA(Certified Data Anal ...
2025-08-12破解游戏用户流失困局:从数据洞察到留存策略 在游戏行业竞争白热化的当下,用户流失率已成为衡量产品健康度的核心指标。一款游 ...
2025-08-11