热线电话:13121318867

登录
首页大数据时代从“杂乱”到“有序”:CDA数据分析师视角下的数据的描述性统计
从“杂乱”到“有序”:CDA数据分析师视角下的数据的描述性统计
2026-04-20
收藏

很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题,用描述性统计就能解决。

引言:为什么描述性统计是数据分析的“基本功”?

小张是一名刚入行的数据分析师,第一次拿到公司销售数据时,面对数万行密密麻麻的数字,他感到无从下手。客户满意度是上升还是下降?销售业绩的波动大不大?哪个客户群体贡献最高?

这些问题看似简单,但在数据面前,如果没有方法,就只是一堆数字。

描述性统计分析,正是解决这一困境的核心能力。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析和分布形态,以及一些基本的统计图形。它不涉及推断或预测,其核心目的是“用简洁的方式呈现数据的核心特征”,将杂乱的原始数据转化为可理解的信息,回答“数据是什么样的”这一基础问题。


一、描述性统计的三大核心维度:数据画像的“三棱镜”

描述性统计的核心是通过量化指标揭示数据“是什么”,而非“为什么”,其指标体系可分为三大维度:集中趋势、离散程度和分布形态。

1. 集中趋势——数据的“中心锚点”

集中趋势反映数据的平均水平,是判断数据整体特征的首要工具。它回答了“数据的典型值是多少”这个问题。常用的集中趋势指标包括以下三种:

指标 定义 适用场景 CDA考点提示
均值 所有数据的算术平均 数据呈对称分布、无异常值 异常值敏感,若有极端值需结合中位数修正结论
中位数 排序后位于中间位置的数值 偏态分布或含异常值的数据 反映“大多数”情况,如薪资、房价分析的首选
众数 数据中出现频率最高的数值 分类数据或离散数据 一组数据可能没有众数或有多个众数

在实际业务中,这三个指标往往需要结合起来解读。例如,某公司员工薪资呈右偏分布(少数高管薪资极高),此时中位数(8000元/月)比均值(12000元/月)更能反映普通员工的真实薪资水平。

此外,在集中趋势分析中,还有一个重要的工具——四分位数。四分位数是通过Q1(25%分位数)、Q2(中位数,50%分位数)、Q3(75%分位数)将数据划分为四个等份的统计量。它是描述数据分布形态和识别异常值的有效工具。

2. 离散程度——数据的“波动范围”

离散程度衡量数据的分散程度,反映各变量值远离其中心值的程度。它回答了“数据之间的差异有多大”这个问题。离散程度是“风险评估”“稳定性分析”的关键环节。

常用的离散程度指标包括:

指标 定义 适用场景 CDA考点提示
极差 最大值与最小值的差值 快速判断数据跨度 异常值敏感,易受极端值影响
方差 每个数据与均值之差的平方的平均值 衡量数据的整体离散程度 单位是原单位的平方,解释性较差
标准差 方差的平方根 最常用的离散程度指标 单位与原数据相同,易于理解和比较
四分位距(IQR) Q3与Q1的差值 识别异常值 IQR=Q3-Q1,异常值通常定义为超出Q1-1.5IQR或Q3+1.5IQR的数值
变异系数 标准差与均值的比值 比较不同量纲数据的离散程度 消除单位影响,适用于跨指标比较

在实际应用中,标准差是业务分析中最常用的离散指标之一。例如,某连锁超市的日销售额标准差为2000元(均值为5万元),说明销售额波动可控;若标准差达1万元,则需排查门店运营问题。

案例:某金融平台通过四分位距筛选出“贷款金额超过Q3+1.5IQR”的客户,作为高风险群体重点审核,显著降低了坏账率。

3. 分布形态——数据的“形状密码”

分布形态是描述性统计分析中较为进阶的内容,它回答了“数据是如何分布的”这个问题。在统计研究中,常常假设总体数据服从正态分布,则需要利用偏度和峰度来判断样本数据是否符合这一假设。

分布形态的判断,主要包括以下几个方面:

偏态:指数据分布偏斜的程度,用偏态系数(SK)来测度。若偏态系数 > 0,数据呈右偏分布,即均值 > 中位数 > 众数;若偏态系数 < 0,数据呈左偏分布,即众数 > 中位数 > 均值。

峰态:指数据分布尖峭或平坦的程度,用峰态系数来测度。正态分布的峰度为0;峰度 > 0表示分布比正态分布更尖峭,数据更集中于均值附近;峰度 < 0表示分布更平坦,数据更分散。

理解分布形态,对于选择合适的分析方法和识别数据特征至关重要。


二、描述性统计的图表工具——让数据“可视化”

除了数值指标,描述性统计还离不开图表工具。CDA大纲中明确要求掌握以下统计图形:

图表类型 适用场景 CDA考点提示
直方图 展示数值型数据的分布形态 观察数据是否呈正态分布,发现异常值
柱状图 比较不同类别的数值大小 分类变量对比的首选图表
箱型图 展示数据的五数概括和异常值 快速识别异常值,判断数据对称性
折线图 展示数据随时间的变化趋势 时间序列分析的核心图表
饼图 展示各类别占总体的比例 分类变量占比分析,适合少量类别
散点图 展示两个变量之间的关系 相关分析的基础图表

在实际分析中,建议先用描述性统计数值指标(均值、标准差、偏度等)快速了解数据的基本特征,再用图表(直方图箱型图)直观呈现分布形态,两者结合才能全面把握数据的“画像”。


三、变量的类型与计量尺度——描述性统计的“语言基础”

在进行描述性统计分析之前,必须先理解数据的变量类型。数据的计量尺度与变量类型是高频考点。数据的计量尺度和具体的统计方法息息相关,大致分为3类,分别是名义测量、次序测量和连续变量测量。

1. 分类变量(名义测量)

分类变量是最低的测量等级,其数值仅代表某些分类或属性,一般不做高低、大小区分。

典型示例:性别(1表示男性,2表示女性)、民族(1表示汉族,2表示回族等)。

描述性统计方法:频次/频数、百分比、累积频次与累积百分比(仅对顺序变量有意义)。

2. 顺序变量(次序测量)

顺序变量的量化水平高于分类变量,用于测量的数值代表了一些有序分类。

典型示例:受教育程度(1表示小学、2表示中学、3表示大学)、满意度等级(1表示满意、2表示一般、3表示不满意)。

描述性统计方法:众数、频次、百分比、累积频次与累积百分比、四分位差等。

3. 数值变量(连续变量测量)

数值变量的量化程度最高,其取值是采用一定单位的实际测量值。数值变量可进一步细分为:

间距测量:可进行加减运算,但不能进行乘除运算,因其“0”值不是物理上的绝对“0”。例如考试成绩——0分不代表完全没有知识。

比率测量:是最高级的测量等级,具有绝对意义的“0”值,可进行加减乘除运算。例如增长率、收入等。

描述性统计方法:中心水平(均值、中位数、众数)、离散程度(极差、标准差方差)、分布形态(偏度、峰度)。

值得注意的是,分类变量、顺序变量、数值变量的量化水平是由低到高的。低水平变量的统计量可以用于高水平,但高水平变量的统计量不一定能用于低水平。例如,分类变量的统计量(如众数)可以用于连续变量,但反之则不成立。


四、实战演练:从一份“用户行为数据”完成描述性统计分析

背景

某电商平台运营团队需要了解用户的行为特征,以便制定精准营销策略。他们收集了1000名用户的以下信息:

变量 变量类型 说明
用户ID 分类变量 唯一标识,不用于统计
性别 分类变量 男/女
会员等级 顺序变量 普通/银卡/金卡/钻石
年龄 数值变量
月均消费金额 数值变量
月均登录天数 数值变量

任务:通过描述性统计分析,回答以下问题:

1. 用户的平均消费水平是多少?是否稳定?

2. 哪个会员等级的用户最多?

3. 不同性别用户的消费能力是否有差异?

4. 用户的年龄分布特征如何?

完整分析流程

第一步:数据准备与变量识别

检查数据质量:是否存在缺失值异常值?年龄为负数或大于120岁需要处理

确认变量类型:会员等级是顺序变量(有等级关系,但差值不一定相等)

第二步:频数分析与分类变量描述

对于性别和会员等级等分类变量,使用频数分析:

会员等级 频数 百分比
普通 320 32%
银卡 280 28%
金卡 250 25%
钻石 150 15%

结论:普通会员占比最高,钻石会员占比最低——提示运营资源应向会员升级转化倾斜。

第三步:集中趋势与离散程度分析(数值变量)

对月均消费金额进行集中趋势分析:

指标 数值 业务解读
均值 1250元 平均每位用户月消费1250元
中位数 980元 50%的用户月消费低于980元
众数 500元 最常见的月消费金额为500元

发现:均值 > 中位数,数据呈右偏分布,说明存在少数高消费用户拉高了平均值。运营应重点关注“腰部用户”,而非被少数高消费用户的数据迷惑。

离散程度分析:

标准差 = 580元 → 标准差较大,用户消费行为差异明显

变异系数 = 580 / 1250 = 0.464 → 数据分散度较高

第四步:分组对比分析(维度交叉)

按性别分组对比月均消费:

性别 频数 均值 中位数 标准差
520 1320元 1100元 620元
480 1180元 950元 540元

结论:男性用户的平均消费略高于女性,但中位数差距更大,说明男性用户中的高消费群体更突出。

第五步:分布形态分析与可视化

绘制年龄分布的直方图

呈现左偏分布,年轻人(20-30岁)是主力用户群体

分布相对集中,说明目标人群明确,可针对性设计年轻化营销内容

第六步:综合分析结论

通过以上分析,可以得出以下业务建议:

1. 消费能力方面:用户月均消费1250元,但中位数仅980元,存在高端消费群体拉高平均值,建议分层运营——对高消费用户提供VIP服务,对腰部用户设计升级激励。

2. 会员体系方面:普通会员占32%,钻石会员仅15%,建议设计会员升级路径,引导普通会员向更高等级转化。

3. 目标人群方面:用户年龄集中在20-30岁,男性消费略高于女性,营销内容应突出年轻化和个性化。

这就是一套完整的“变量识别 → 频数分析 → 集中趋势与离散分析 → 分组对比 → 分布分析”的描述性统计分析实战流程。


下一步行动:

  • 找一份真实的业务数据,练习识别各列数据的变量类型

  • 用描述性统计方法(频数分析、集中趋势、离散程度、分布形态)快速了解数据的核心特征

  • 结合直方图箱型图等可视化工具,直观呈现数据分布

数字是杂乱的,但掌握描述性统计的人能让它们说出真相。

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析师资讯
更多

OK
客服在线
立即咨询
客服在线
立即咨询