列联表和卡方检验 分类变量之间的相关性一般可以采用列联表分析或卡方检验的方法来进行验证。 列联表是两个分类变量的分类水平之间形成的交叉频数表,通过计算行百分比或列百分比,对实际频率和期望频率进行对 比分析,例如一个典型的列联表如下:
对于表中频数、期望频数、行/列百分比的解读方法要熟练掌握。 比如98代表的是头发颜色为金色,眼睛颜色为深色的样本数量。 而355.2则是期望的数量。6.7%是行百分比,也就是在所有头发颜 色为金色的样本中,眼睛颜色为深色的占比。
列联表是一种比较简单的描述性统计方法,而卡方检验则可以通过量化的方法对两个分类变量的相关性进行检验,卡方统 计量如下:
在掌握了列联表分析和卡方检验的基础上,可以学习使用逻辑回归对分类变量进行预测。 逻辑回归主要处理的就是分类问题。事实上,也可以把他看作是线性回归一种延伸。我们面对的因变量,也就是模型输出 结果不再是一个连续变量,而是一个分类变量。最常见的逻辑回归就是二分类变量逻辑回归,通常我们可以使用这种方法 来寻找目标客户。
1.进行逻辑回归时,我们希望选择的变量尽可能地有效,避免冗余。常用的变量筛选方法有如下几种:
Wald检验:通过Wald统计量,来检验自变量对因变量的影响能力。Wald越大,说明自变量的相关性越大,越应该保留。
似然比检验(Likehood Ratio):也是逻辑回归非常常用的一种检验方法。逻辑回归模型的估计一般是使用最大似然估计, 也就是说找到一个似然函数L,使其达到最大值。L越大,也就说明模型的预测效果越好。因此似然比检验本质上是对包 含或者不包含某一个或者几个变量的模型L值进行比较,从而做出判断。
比分检验(Score Test):以包含某个或者某几个变量的模型作为基础,加入系数为0的新变量,通过计算似然函数的一阶 偏导数和信息矩阵,取两者的乘积作为最终的统计量。
这三种方法中,似然比检验是最可靠,也是最常用的一种变量筛选方法。在变量存在共线性时,Wald检验结果不可靠。另 外,实际应用是以上三种方法,都可以采用向前或者向后逐步的方式进行变量筛选。
另外在逻辑回归模型里,我们需要使得自变量和因变量的对数存在线性关系。如果发现实际的变量不符合,可以通过筛选 变量,变量转换等方式进行调整。另外变量转换也可以避免异常值对结果造成偏差。
前面提到,逻辑回归的模型参数估计通常采用的是最大似然函数法,因此理论上需要有一定量的样本才能采用这种方法, 否则检验公式就是不合理的。另外也需要注意的是,逻辑回归的模型无法解决多重共线性的问题,因此在输入变量前,对 变量进行检验和清洗是非常必要的。 得到模型后,我们可以通过混淆矩阵和ROC曲线来评判模型的效果。
灵敏度指的是模型“击中”的概率,也就是对于实际发生(取值为1)的样本,模型预测为1的概率。对应上图的公式为 A/(A+B)。
特异度指的是模型“正确否定”的概率,也就是说对于实际没发生(取值为0)的样本,模型预测为0的概率。对应上图 的公式为D/(C+D)。
因此,可以看到不管是灵敏度还是特异度,都是越高,说明我们的模型越有效。在实际应用中,由于逻辑回归模型计算 的结果其实是一个相对可能性p,因此我们可以根据实际情况调整判断取值为1的p的标准。更有侧重性地提高灵敏度或 者特异度。
3.ROC曲线
除了使用混淆矩阵,我们还可以通过ROC曲线的方式来图形化地判断模型效果。
ROC曲线也是基于灵敏度和特异度来进行判断的。曲线下面积AUC 指的是ROC曲线、底线和右侧线围成的面积。ROC曲线的面积一般 在0.5-1之间。这个数值越接近1,表明模型预测能力越强。当AUC 在0.7-0.9时,我们认为模型有较高的判断作用。而AUC接近0.5的 时候,我们人为这个模型是无效的。
在实际业务中,我们一般利用二分类逻辑回归作为筛选目标客户的 主要手段。不管是识别明星客户、流失客户,甚至是可能存在违约 或者欺诈行为的客户,都可以采用这种方法。
1. 某客户为欺诈的概率为0.4,则优势odds为( )?
A. 0.4
B .2 / 3
C. 3 / 2
D. 0.6
答案:B 解析:该题考核了二分类变量分析的基础知识。Odds的定义是显性结果的概率比上非显性结果的概率,因此为0.4 / 0.6,等 于2 / 3。
2. 建立逻辑回归时,为什么有时候需要对连续变量进行分箱处理?
A. 避免变量的共线性
B. 捕获原始连续变量和被解释变量之间非线性关系
C. 避免异常值影响
D. 修正残差非正态分布
答案:BC 解析:如果发现解释变量与反应变量之间相关,但又不呈现线性关系时,往往会对解释变量进行分箱,同时分箱也能够消除极端值。 因此选BC。
点击CDA题库链接,获取免费版CDA题库入口,祝考试顺利,快速拿证!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03