从“杂乱”到“有序”：CDA数据分析师视角下的数据的描述性统计-CDA数据分析师官网

热线电话：13121318867

从“杂乱”到“有序”：CDA数据分析师视角下的数据的描述性统计

2026-04-20

很多数据分析师沉迷于复杂的机器学习算法，却忽略了数据分析最基础也最核心的能力——描述性统计。事实上，80%的商业分析问题，用描述性统计就能解决。

引言：为什么描述性统计是数据分析的“基本功”？

小张是一名刚入行的数据分析师，第一次拿到公司销售数据时，面对数万行密密麻麻的数字，他感到无从下手。客户满意度是上升还是下降？销售业绩的波动大不大？哪个客户群体贡献最高？

这些问题看似简单，但在数据面前，如果没有方法，就只是一堆数字。

描述性统计分析，正是解决这一困境的核心能力。描述性统计分析要对调查总体所有变量的有关数据做统计性描述，主要包括数据的频数分析、集中趋势分析、离散程度分析和分布形态，以及一些基本的统计图形。它不涉及推断或预测，其核心目的是“用简洁的方式呈现数据的核心特征”，将杂乱的原始数据转化为可理解的信息，回答“数据是什么样的”这一基础问题。

一、描述性统计的三大核心维度：数据画像的“三棱镜”

描述性统计的核心是通过量化指标揭示数据“是什么”，而非“为什么”，其指标体系可分为三大维度：集中趋势、离散程度和分布形态。

1. 集中趋势——数据的“中心锚点”

集中趋势反映数据的平均水平，是判断数据整体特征的首要工具。它回答了“数据的典型值是多少”这个问题。常用的集中趋势指标包括以下三种：

指标	定义	适用场景	CDA考点提示
均值	所有数据的算术平均	数据呈对称分布、无异常值	对异常值敏感，若有极端值需结合中位数修正结论
中位数	排序后位于中间位置的数值	偏态分布或含异常值的数据	反映“大多数”情况，如薪资、房价分析的首选
众数	数据中出现频率最高的数值	分类数据或离散数据	一组数据可能没有众数或有多个众数

在实际业务中，这三个指标往往需要结合起来解读。例如，某公司员工薪资呈右偏分布（少数高管薪资极高），此时中位数（8000元/月）比均值（12000元/月）更能反映普通员工的真实薪资水平。

此外，在集中趋势分析中，还有一个重要的工具——四分位数。四分位数是通过Q1（25%分位数）、Q2（中位数，50%分位数）、Q3（75%分位数）将数据划分为四个等份的统计量。它是描述数据分布形态和识别异常值的有效工具。

2. 离散程度——数据的“波动范围”

离散程度衡量数据的分散程度，反映各变量值远离其中心值的程度。它回答了“数据之间的差异有多大”这个问题。离散程度是“风险评估”“稳定性分析”的关键环节。

常用的离散程度指标包括：

指标	定义	适用场景	CDA考点提示
极差	最大值与最小值的差值	快速判断数据跨度	对异常值敏感，易受极端值影响
方差	每个数据与均值之差的平方的平均值	衡量数据的整体离散程度	单位是原单位的平方，解释性较差
标准差	方差的平方根	最常用的离散程度指标	单位与原数据相同，易于理解和比较
四分位距（IQR）	Q3与Q1的差值	识别异常值	IQR=Q3-Q1，异常值通常定义为超出Q1-1.5IQR或Q3+1.5IQR的数值
变异系数	标准差与均值的比值	比较不同量纲数据的离散程度	消除单位影响，适用于跨指标比较

在实际应用中，标准差是业务分析中最常用的离散指标之一。例如，某连锁超市的日销售额标准差为2000元（均值为5万元），说明销售额波动可控；若标准差达1万元，则需排查门店运营问题。

案例：某金融平台通过四分位距筛选出“贷款金额超过Q3+1.5IQR”的客户，作为高风险群体重点审核，显著降低了坏账率。

3. 分布形态——数据的“形状密码”

分布形态是描述性统计分析中较为进阶的内容，它回答了“数据是如何分布的”这个问题。在统计研究中，常常假设总体数据服从正态分布，则需要利用偏度和峰度来判断样本数据是否符合这一假设。

分布形态的判断，主要包括以下几个方面：

偏态：指数据分布偏斜的程度，用偏态系数（SK）来测度。若偏态系数 > 0，数据呈右偏分布，即均值 > 中位数 > 众数；若偏态系数 < 0，数据呈左偏分布，即众数 > 中位数 > 均值。

峰态：指数据分布尖峭或平坦的程度，用峰态系数来测度。正态分布的峰度为0；峰度 > 0表示分布比正态分布更尖峭，数据更集中于均值附近；峰度 < 0表示分布更平坦，数据更分散。

理解分布形态，对于选择合适的分析方法和识别数据特征至关重要。

二、描述性统计的图表工具——让数据“可视化”

除了数值指标，描述性统计还离不开图表工具。CDA大纲中明确要求掌握以下统计图形：

图表类型	适用场景	CDA考点提示
直方图	展示数值型数据的分布形态	观察数据是否呈正态分布，发现异常值
柱状图	比较不同类别的数值大小	分类变量对比的首选图表
箱型图	展示数据的五数概括和异常值	快速识别异常值，判断数据对称性
折线图	展示数据随时间的变化趋势	时间序列分析的核心图表
饼图	展示各类别占总体的比例	分类变量占比分析，适合少量类别
散点图	展示两个变量之间的关系	相关分析的基础图表

在实际分析中，建议先用描述性统计数值指标（均值、标准差、偏度等）快速了解数据的基本特征，再用图表（直方图、箱型图）直观呈现分布形态，两者结合才能全面把握数据的“画像”。

三、变量的类型与计量尺度——描述性统计的“语言基础”

在进行描述性统计分析之前，必须先理解数据的变量类型。数据的计量尺度与变量类型是高频考点。数据的计量尺度和具体的统计方法息息相关，大致分为3类，分别是名义测量、次序测量和连续变量测量。

1. 分类变量（名义测量）

分类变量是最低的测量等级，其数值仅代表某些分类或属性，一般不做高低、大小区分。

典型示例：性别（1表示男性，2表示女性）、民族（1表示汉族，2表示回族等）。

描述性统计方法：频次/频数、百分比、累积频次与累积百分比（仅对顺序变量有意义）。

2. 顺序变量（次序测量）

顺序变量的量化水平高于分类变量，用于测量的数值代表了一些有序分类。

典型示例：受教育程度（1表示小学、2表示中学、3表示大学）、满意度等级（1表示满意、2表示一般、3表示不满意）。

描述性统计方法：众数、频次、百分比、累积频次与累积百分比、四分位差等。

3. 数值变量（连续变量测量）

数值变量的量化程度最高，其取值是采用一定单位的实际测量值。数值变量可进一步细分为：

间距测量：可进行加减运算，但不能进行乘除运算，因其“0”值不是物理上的绝对“0”。例如考试成绩——0分不代表完全没有知识。

比率测量：是最高级的测量等级，具有绝对意义的“0”值，可进行加减乘除运算。例如增长率、收入等。

描述性统计方法：中心水平（均值、中位数、众数）、离散程度（极差、标准差、方差）、分布形态（偏度、峰度）。

值得注意的是，分类变量、顺序变量、数值变量的量化水平是由低到高的。低水平变量的统计量可以用于高水平，但高水平变量的统计量不一定能用于低水平。例如，分类变量的统计量（如众数）可以用于连续变量，但反之则不成立。

四、实战演练：从一份“用户行为数据”完成描述性统计分析

背景

某电商平台运营团队需要了解用户的行为特征，以便制定精准营销策略。他们收集了1000名用户的以下信息：

变量	变量类型	说明
用户ID	分类变量	唯一标识，不用于统计
性别	分类变量	男/女
会员等级	顺序变量	普通/银卡/金卡/钻石
年龄	数值变量	岁
月均消费金额	数值变量	元
月均登录天数	数值变量	天

任务：通过描述性统计分析，回答以下问题：

1. 用户的平均消费水平是多少？是否稳定？

2. 哪个会员等级的用户最多？

3. 不同性别用户的消费能力是否有差异？

4. 用户的年龄分布特征如何？

完整分析流程

第一步：数据准备与变量识别

检查数据质量：是否存在缺失值、异常值？年龄为负数或大于120岁需要处理

确认变量类型：会员等级是顺序变量（有等级关系，但差值不一定相等）

第二步：频数分析与分类变量描述

对于性别和会员等级等分类变量，使用频数分析：

会员等级	频数	百分比
普通	320	32%
银卡	280	28%
金卡	250	25%
钻石	150	15%

结论：普通会员占比最高，钻石会员占比最低——提示运营资源应向会员升级转化倾斜。

第三步：集中趋势与离散程度分析（数值变量）

对月均消费金额进行集中趋势分析：

指标	数值	业务解读
均值	1250元	平均每位用户月消费1250元
中位数	980元	50%的用户月消费低于980元
众数	500元	最常见的月消费金额为500元

发现：均值 > 中位数，数据呈右偏分布，说明存在少数高消费用户拉高了平均值。运营应重点关注“腰部用户”，而非被少数高消费用户的数据迷惑。

离散程度分析：

标准差 = 580元 → 标准差较大，用户消费行为差异明显

变异系数 = 580 / 1250 = 0.464 → 数据分散度较高

第四步：分组对比分析（维度交叉）

按性别分组对比月均消费：

性别	频数	均值	中位数	标准差
男	520	1320元	1100元	620元
女	480	1180元	950元	540元

结论：男性用户的平均消费略高于女性，但中位数差距更大，说明男性用户中的高消费群体更突出。

第五步：分布形态分析与可视化

绘制年龄分布的直方图：

呈现左偏分布，年轻人（20-30岁）是主力用户群体

分布相对集中，说明目标人群明确，可针对性设计年轻化营销内容

第六步：综合分析结论

通过以上分析，可以得出以下业务建议：

1. 消费能力方面：用户月均消费1250元，但中位数仅980元，存在高端消费群体拉高平均值，建议分层运营——对高消费用户提供VIP服务，对腰部用户设计升级激励。

2. 会员体系方面：普通会员占32%，钻石会员仅15%，建议设计会员升级路径，引导普通会员向更高等级转化。

3. 目标人群方面：用户年龄集中在20-30岁，男性消费略高于女性，营销内容应突出年轻化和个性化。

这就是一套完整的“变量识别 → 频数分析 → 集中趋势与离散分析 → 分组对比 → 分布分析”的描述性统计分析实战流程。

下一步行动：

找一份真实的业务数据，练习识别各列数据的变量类型
用描述性统计方法（频数分析、集中趋势、离散程度、分布形态）快速了解数据的核心特征
结合直方图、箱型图等可视化工具，直观呈现数据分布


数字是杂乱的，但掌握描述性统计的人能让它们说出真相。
”

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

异常值标准差特征统计分析数据分析正态分布直方图箱型图

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇权威收录｜CDA数据科学院发布的《2026 全球数智化人才指数报告》获中国教育科学研究院官方报道

下一篇【CDA干货】特征重要性分析：解锁机器学习模型价值的核心钥匙

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

从“杂乱”到“有序”：CDA数据分析师视角下的数据的描述性统计

引言：为什么描述性统计是数据分析的“基本功”？

一、描述性统计的三大核心维度：数据画像的“三棱镜”

1. 集中趋势——数据的“中心锚点”

2. 离散程度——数据的“波动范围”

3. 分布形态——数据的“形状密码”

二、描述性统计的图表工具——让数据“可视化”

三、变量的类型与计量尺度——描述性统计的“语言基础”

1. 分类变量（名义测量）

2. 顺序变量（次序测量）

3. 数值变量（连续变量测量）

四、实战演练：从一份“用户行为数据”完成描述性统计分析

背景

完整分析流程

第一步：数据准备与变量识别

第二步：频数分析与分类变量描述

第三步：集中趋势与离散程度分析（数值变量）

第四步：分组对比分析（维度交叉）

第五步：分布形态分析与可视化

第六步：综合分析结论

下一步行动：

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !

免费加入阅读：https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

从“杂乱信号”到“有序资产”：CDA数据分析师视角 ...

CDA持证人专访：周婧博谈会计行业数据分析与经营诊 ...

【CDA干货】问卷调查卡方检验：原理、前提与实战应 ...

从“整体波动”到“因子归因”：CDA数据分析师视角 ...

【CDA干货】单因素方差分析：三组及以上独立样本的 ...

【CDA干货】次日付费留存计算方法、统计口径与业务 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

CDA持证人专访：王晓琳谈数据分析备考与秋招实战经 ...

【CDA干货】用户决策流程全解析：核心环节、影响因 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】透视表跨表数据应用原理与实战方法 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

推荐学习书籍《CDA一级教材》适合CDA一级考生备考，也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校，累计已有10万+在读~ !