热线电话：13121318867

【CDA干货】K-S 图的横轴设计

2025-09-02

要解答 “画 K-S 图时横轴是等距还是等频” 的问题，需先明确 K-S 图的核心用途（检验样本分布与理论分布的一致性），再结合横轴的定义逻辑与分布检验的需求来分析。以下从 K-S 图的本质、横轴设计原则及实际应用场景展开说明：

画 K-S 图时横轴的设计：以 “等距 / 有序数值” 为主，而非 “等频”

K-S 图（Kolmogorov-Smirnov 图）的核心是通过样本累积分布函数（CDF）与理论累积分布函数的对比，判断样本是否来自某一理论分布（如正态分布、均匀分布）。其横轴的设计需服务于 “准确反映数据的数值分布特征”，而非 “强制划分等频率区间”，具体逻辑如下：

一、先明确：K-S 图横轴的核心定义 ——“数据的数值维度”

K-S 图的横轴本质是样本数据的取值范围或有序排列的样本点，纵轴是 “累积概率”（样本累积频率 / 理论累积概率）。无论是手动绘制还是用工具（如 Python 的scipy、Excel）生成，横轴的核心功能是 “呈现数据本身的数值间隔”，而非 “按频率分组”：

若数据是连续型（如用户消费金额、设备运行温度），横轴通常按数据的自然数值范围进行等距划分（例如消费金额 0-100、100-200、200-300 元），或直接使用 “排序后的样本点”（如将 100 个样本按数值从小到大排列，横轴为 1-100 个有序样本的具体数值）；
若数据是离散型（如用户购买次数 1、2、3 次），横轴直接按离散数值的自然顺序排列（1、2、3...），无需刻意等距或等频。

二、为什么 K-S 图不适合用 “等频” 设计横轴？

“等频” 是指将数据划分为若干区间，每个区间包含的样本数量相等（如将 100 个样本分为 5 组，每组 20 个）。这种划分方式会扭曲数据的实际分布结构，与 K-S 检验的核心目标（检验分布一致性）相悖，具体问题如下：

破坏数值的自然间隔，误导分布判断

等频划分可能导致 “数值跨度差异极大的区间被强行归为一组”。例如分析用户年龄时，若按等频划分，可能出现 “18-22 岁（跨度 4 岁）” 与 “45-65 岁（跨度 20 岁）” 同属一个区间的情况，横轴刻度会被压缩或拉伸，使得累积分布曲线无法真实反映年龄本身的分布特征（如是否符合正态分布）。
违背 K-S 检验的 “分布位置与形状对比” 逻辑

K-S 检验关注的是 “样本分布与理论分布在各个数值点上的累积概率差异”（即 D 统计量，最大垂直距离）。若横轴按等频划分，相当于人为改变了 “数值点的位置密度”，导致部分数值区间被过度聚焦（如密集的小跨度区间），部分区间被忽略（如稀疏的大跨度区间），无法准确计算真实的 D 统计量，进而影响检验结论的可靠性。

三、实际应用场景：CDA 分析师如何设计 K-S 图横轴？

在企业数据分析中（如检验 “用户消费额是否符合正态分布”“设备故障间隔是否符合指数分布”），CDA 分析师绘制 K-S 图时，横轴的设计需结合数据类型与业务目标，核心原则是 “还原数据的自然分布特征”：

连续型数据：优先 “等距划分” 或 “排序样本点”

若数据范围较窄（如某产品单价 80-120 元），可按等距划分（如每 5 元一个区间：80-85、85-90...），横轴刻度均匀，便于直观对比样本 CDF 与理论 CDF 的重合度；
若数据范围广且存在极端值（如用户 lifetime value 0-10000 元），可先对数据做对数转换（缩小极端值影响），再按转换后的数值等距划分，或直接使用 “排序后的样本点”（横轴为样本序号，纵轴为累积概率），避免区间划分带来的偏差。

离散型数据：直接按 “数值顺序” 排列

例如检验 “某平台日均订单量（100-500 单）是否符合泊松分布”，横轴直接按订单量的离散数值（100、101、102...500）排列，纵轴为累积概率，确保每个数值点的分布特征都能被清晰呈现。

总结

K-S 图的横轴设计需围绕 “准确反映数据数值分布” 的核心目标，以 “等距划分”（连续型数据）或 “数值有序排列”（离散型数据）为主，绝对不建议使用 “等频” 。因为等频会破坏数据的自然数值间隔，导致分布检验结果失真，而等距 / 有序排列能最大程度还原数据的真实分布特征，帮助 CDA 分析师得出可靠的分布检验结论（如判断样本是否符合业务所需的理论分布，为后续建模、预测提供依据）。

如果在实际绘制 K-S 图时遇到数据处理难题（如极端值如何处理、区间宽度如何设定），可以结合具体业务数据（如零售行业的客单价、金融行业的信贷额度）进一步探讨优化方案。

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

特征正态分布累积分布函数数据分析数据处理指数分布压缩偏差

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇CDA 数据分析师：助力企业破解数据需求与数据分析需求难题

下一篇【CDA干货】解析 loss.backward ()：深度学习中梯度汇总与同步的自动触发核心

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

【CDA干货】K-S 图的横轴设计

画 K-S 图时横轴的设计：以 “等距 / 有序数值” 为主，而非 “等频”

一、先明确：K-S 图横轴的核心定义 ——“数据的数值维度”

二、为什么 K-S 图不适合用 “等频” 设计横轴？

三、实际应用场景：CDA 分析师如何设计 K-S 图横轴？

总结

推荐学习书籍《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】方法验证核心统计：重复性用卡方分析， ...

【CDA干货】两组数据的单因素方差分析：什么时候用 ...

CDA数据分析师：深耕数据治理体系，激活数据资产核 ...

【CDA干货】转置卷积后需要激活函数吗？深度学习实 ...

【CDA干货】搞懂算术平均与几何平均：什么时候用？ ...

CDA数据分析师：锚定数据治理驱动因素，筑牢数据价 ...

【CDA干货】Excel表外引用数据透视表数据：4种方法+ ...

【CDA干货】Excel相关性分析：从操作到解读，小白也 ...

CDA数据分析师必备：用应用效应分解法，解锁时间序 ...

【CDA干货】数据透视表更新后数据消失？6大核心原因 ...

【CDA干货】机器学习引导下的有限元模型参数识别： ...

CDA数据分析师：以用户画像为核心，激活用户数据的 ...

【CDA干货】详解Python类方法：定义、分类、实操与 ...

【CDA干货】MySQL中ADD KEY与ADD INDEX的区别：一文 ...

CDA数据分析师与标签体系设计：用结构化标签激活数 ...

【CDA干货】重复测量问卷统计分析：实操指南，精准 ...

【CDA干货】一文读懂销售漏斗：定义、核心逻辑及在 ...

CDA数据分析师必备技能：创建表与视图，筑牢数据分 ...

【CDA干货】数据清洗中的假数据鉴别：方法、实操与 ...

【CDA干货】运用机器学习进行分析：从流程拆解到行 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

【CDA干货】K-S 图的横轴设计

画 K-S 图时横轴的设计：以 “等距 / 有序数值” 为主，而非 “等频”

一、先明确：K-S 图横轴的核心定义 ——“数据的数值维度”

二、为什么 K-S 图不适合用 “等频” 设计横轴？

三、实际应用场景：CDA 分析师如何设计 K-S 图横轴？

总结

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】方法验证核心统计：重复性用卡方分析， ...

【CDA干货】两组数据的单因素方差分析：什么时候用 ...

CDA数据分析师：深耕数据治理体系，激活数据资产核 ...

【CDA干货】转置卷积后需要激活函数吗？深度学习实 ...

【CDA干货】搞懂算术平均与几何平均：什么时候用？ ...

CDA数据分析师：锚定数据治理驱动因素，筑牢数据价 ...

【CDA干货】Excel表外引用数据透视表数据：4种方法+ ...

【CDA干货】Excel相关性分析：从操作到解读，小白也 ...

CDA数据分析师必备：用应用效应分解法，解锁时间序 ...

【CDA干货】数据透视表更新后数据消失？6大核心原因 ...

【CDA干货】机器学习引导下的有限元模型参数识别： ...

CDA数据分析师：以用户画像为核心，激活用户数据的 ...

【CDA干货】详解Python类方法：定义、分类、实操与 ...

【CDA干货】MySQL中ADD KEY与ADD INDEX的区别：一文 ...

CDA数据分析师与标签体系设计：用结构化标签激活数 ...

【CDA干货】重复测量问卷统计分析：实操指南，精准 ...

【CDA干货】一文读懂销售漏斗：定义、核心逻辑及在 ...

CDA数据分析师必备技能：创建表与视图，筑牢数据分 ...

【CDA干货】数据清洗中的假数据鉴别：方法、实操与 ...

【CDA干货】运用机器学习进行分析：从流程拆解到行 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

推荐学习书籍《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !