热线电话：13121318867

【CDA干货】K-S 图的横轴设计

2025-09-02

要解答 “画 K-S 图时横轴是等距还是等频” 的问题，需先明确 K-S 图的核心用途（检验样本分布与理论分布的一致性），再结合横轴的定义逻辑与分布检验的需求来分析。以下从 K-S 图的本质、横轴设计原则及实际应用场景展开说明：

画 K-S 图时横轴的设计：以 “等距 / 有序数值” 为主，而非 “等频”

K-S 图（Kolmogorov-Smirnov 图）的核心是通过样本累积分布函数（CDF）与理论累积分布函数的对比，判断样本是否来自某一理论分布（如正态分布、均匀分布）。其横轴的设计需服务于 “准确反映数据的数值分布特征”，而非 “强制划分等频率区间”，具体逻辑如下：

一、先明确：K-S 图横轴的核心定义 ——“数据的数值维度”

K-S 图的横轴本质是样本数据的取值范围或有序排列的样本点，纵轴是 “累积概率”（样本累积频率 / 理论累积概率）。无论是手动绘制还是用工具（如 Python 的scipy、Excel）生成，横轴的核心功能是 “呈现数据本身的数值间隔”，而非 “按频率分组”：

若数据是连续型（如用户消费金额、设备运行温度），横轴通常按数据的自然数值范围进行等距划分（例如消费金额 0-100、100-200、200-300 元），或直接使用 “排序后的样本点”（如将 100 个样本按数值从小到大排列，横轴为 1-100 个有序样本的具体数值）；
若数据是离散型（如用户购买次数 1、2、3 次），横轴直接按离散数值的自然顺序排列（1、2、3...），无需刻意等距或等频。

二、为什么 K-S 图不适合用 “等频” 设计横轴？

“等频” 是指将数据划分为若干区间，每个区间包含的样本数量相等（如将 100 个样本分为 5 组，每组 20 个）。这种划分方式会扭曲数据的实际分布结构，与 K-S 检验的核心目标（检验分布一致性）相悖，具体问题如下：

破坏数值的自然间隔，误导分布判断

等频划分可能导致 “数值跨度差异极大的区间被强行归为一组”。例如分析用户年龄时，若按等频划分，可能出现 “18-22 岁（跨度 4 岁）” 与 “45-65 岁（跨度 20 岁）” 同属一个区间的情况，横轴刻度会被压缩或拉伸，使得累积分布曲线无法真实反映年龄本身的分布特征（如是否符合正态分布）。
违背 K-S 检验的 “分布位置与形状对比” 逻辑

K-S 检验关注的是 “样本分布与理论分布在各个数值点上的累积概率差异”（即 D 统计量，最大垂直距离）。若横轴按等频划分，相当于人为改变了 “数值点的位置密度”，导致部分数值区间被过度聚焦（如密集的小跨度区间），部分区间被忽略（如稀疏的大跨度区间），无法准确计算真实的 D 统计量，进而影响检验结论的可靠性。

三、实际应用场景：CDA 分析师如何设计 K-S 图横轴？

在企业数据分析中（如检验 “用户消费额是否符合正态分布”“设备故障间隔是否符合指数分布”），CDA 分析师绘制 K-S 图时，横轴的设计需结合数据类型与业务目标，核心原则是 “还原数据的自然分布特征”：

连续型数据：优先 “等距划分” 或 “排序样本点”

若数据范围较窄（如某产品单价 80-120 元），可按等距划分（如每 5 元一个区间：80-85、85-90...），横轴刻度均匀，便于直观对比样本 CDF 与理论 CDF 的重合度；
若数据范围广且存在极端值（如用户 lifetime value 0-10000 元），可先对数据做对数转换（缩小极端值影响），再按转换后的数值等距划分，或直接使用 “排序后的样本点”（横轴为样本序号，纵轴为累积概率），避免区间划分带来的偏差。

离散型数据：直接按 “数值顺序” 排列

例如检验 “某平台日均订单量（100-500 单）是否符合泊松分布”，横轴直接按订单量的离散数值（100、101、102...500）排列，纵轴为累积概率，确保每个数值点的分布特征都能被清晰呈现。

总结

K-S 图的横轴设计需围绕 “准确反映数据数值分布” 的核心目标，以 “等距划分”（连续型数据）或 “数值有序排列”（离散型数据）为主，绝对不建议使用 “等频” 。因为等频会破坏数据的自然数值间隔，导致分布检验结果失真，而等距 / 有序排列能最大程度还原数据的真实分布特征，帮助 CDA 分析师得出可靠的分布检验结论（如判断样本是否符合业务所需的理论分布，为后续建模、预测提供依据）。

如果在实际绘制 K-S 图时遇到数据处理难题（如极端值如何处理、区间宽度如何设定），可以结合具体业务数据（如零售行业的客单价、金融行业的信贷额度）进一步探讨优化方案。

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

特征正态分布累积分布函数数据分析数据处理指数分布压缩偏差

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇CDA 数据分析师：助力企业破解数据需求与数据分析需求难题

下一篇【CDA干货】解析 loss.backward ()：深度学习中梯度汇总与同步的自动触发核心

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

【CDA干货】K-S 图的横轴设计

画 K-S 图时横轴的设计：以 “等距 / 有序数值” 为主，而非 “等频”

一、先明确：K-S 图横轴的核心定义 ——“数据的数值维度”

二、为什么 K-S 图不适合用 “等频” 设计横轴？

三、实际应用场景：CDA 分析师如何设计 K-S 图横轴？

总结

推荐学习书籍《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

【CDA干货】K-S 图的横轴设计

画 K-S 图时横轴的设计：以 “等距 / 有序数值” 为主，而非 “等频”

一、先明确：K-S 图横轴的核心定义 ——“数据的数值维度”

二、为什么 K-S 图不适合用 “等频” 设计横轴？

三、实际应用场景：CDA 分析师如何设计 K-S 图横轴？

总结

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

推荐学习书籍《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !