京公网安备 11010802034615号
经营许可证编号:京B2-20210330
很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题,用描述性统计就能解决。
”
小张是一名刚入行的数据分析师,第一次拿到公司销售数据时,面对数万行密密麻麻的数字,他感到无从下手。客户满意度是上升还是下降?销售业绩的波动大不大?哪个客户群体贡献最高?
这些问题看似简单,但在数据面前,如果没有方法,就只是一堆数字。
描述性统计分析,正是解决这一困境的核心能力。描述性统计的本质,是“用简洁、标准化的方式总结数据特征”,核心解决“数据是什么样的”这一核心问题——它不涉及数据的推断与预测,仅聚焦于对现有原始数据的客观描述与整理。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析和分布形态分析,以及一些基本的统计图形。
本文将从CDA认证的知识体系出发,系统拆解数据的描述性统计的三大核心维度、图表工具与实战应用,帮助你把“死记硬背”的统计知识,转化为“活学活用”的数据分析能力。
描述性统计的核心是通过量化指标揭示数据“是什么”,其指标体系可分为三大维度:集中趋势、离散程度和分布形态。
集中趋势是指数据围绕某一中心值分布的特征,核心用于描述数据的“平均水平”“典型值”,帮助CDA快速掌握数据的整体概况。它回答了“数据的典型值是多少”这个问题。常用的集中趋势指标包括以下三种:
| 指标 | 定义 | 适用场景 | CDA考点提示 |
|---|---|---|---|
| 均值 | 所有数值之和除以个数 | 数据呈对称分布、无极端值 | 最常用,但对异常值敏感 |
| 中位数 | 排序后位于中间位置的数 | 数据有极端值或偏态分布 | 反映“中间水平”,避免极端值干扰 |
| 众数 | 出现频率最高的数值 | 分类数据或离散数据 | 一组数据可能没有众数或有多个众数 |
在实际业务中,这三个指标往往需要结合起来解读。例如,某公司员工薪资呈右偏分布(少数高管薪资极高),此时中位数比均值更能反映普通员工的真实薪资水平。如果数据分布对称且无异常值,均值是最佳选择;如果数据存在极端值,中位数更具代表性;如果面对分类数据(如最常见的投诉原因、最畅销的商品品类),众数则是最合适的指标。
离散程度描述的是数据分散的程度,衡量各变量值远离其中心值的程度。它回答了“数据之间的差异有多大”这个问题。
常用的离散程度指标包括:
| 指标 | 定义 | 适用场景 | CDA考点提示 |
|---|---|---|---|
| 极差 | 最大值与最小值的差值 | 快速判断数据跨度 | 对异常值敏感 |
| 方差 | 每个数据与均值之差的平方的平均值 | 衡量数据的整体离散程度 | 单位是原单位的平方 |
| 标准差 | 方差的平方根 | 最常用的离散程度指标 | 单位与原数据相同 |
| 四分位距(IQR) | Q3与Q1的差值 | 识别异常值 | 反映数据中间50%的范围 |
| 离散系数 | 标准差与均值的比值 | 比较不同量纲数据的离散程度 | 消除单位影响 |
标准差反映数据与均值的平均偏离程度,值越小说明数据越稳定。例如,某连锁超市A门店日销售额标准差为2000元(均值5000元),B门店标准差为500元(均值5000元),说明A门店销量波动大,需加强库存管控;B门店销量稳定,运营更可控。
四分位距可有效识别异常值(超出Q1-1.5IQR或Q3+1.5IQR的数值)。在实际业务中,通过四分位距筛选出“贷款金额超过Q3+1.5IQR”的客户,可作为高风险群体重点审核。
分布形态描述的是数据形状,是描述性统计分析中较为进阶的内容。它回答了“数据是如何分布的”这个问题。在统计研究中,常常需要利用偏度和峰度来判断数据分布是否符合正态分布假设。
除了数值指标,描述性统计还离不开图表工具。CDA大纲中明确要求掌握的描述性统计图表包括:直方图、柱状图、散点图、箱型图、折线图、饼图等。
| 图表类型 | 适用场景 | CDA考点提示 |
|---|---|---|
| 直方图 | 展示数值型数据的分布形态 | 观察数据是否呈正态分布,发现异常值 |
| 箱型图 | 展示数据的五数概括和异常值 | 快速识别异常值,判断数据对称性 |
| 折线图 | 展示数据随时间的变化趋势 | 时间序列分析的核心图表 |
| 饼图 | 展示各类别占总体的比例 | 分类变量占比分析 |
| 柱状图 | 比较不同类别的数值大小 | 分类变量对比 |
| 散点图 | 展示两个变量之间的关系 | 相关分析的基础图表 |
在业务描述性分析中,箱型图可以快速确认数据的分布以及数据的中位数、四分位数,是数据初探阶段非常实用的可视化工具。直方图则能够显示数据在不同区间内的频率分布情况,直观反映出数据的集中趋势、离散程度以及是否存在偏态或异常值等信息。
实操建议:在实际分析中,建议先用描述性统计数值指标(均值、标准差、偏度等)快速了解数据的基本特征,再用图表(直方图、箱型图)直观呈现分布形态,两者结合才能全面把握数据的“画像”。
某电商平台运营团队需要了解用户的行为特征,以便制定精准营销策略。他们收集了1000名用户的以下信息:用户ID(分类变量)、性别(分类变量)、会员等级(顺序变量)、年龄(数值变量)、月均消费金额(数值变量)、月均登录天数(数值变量)。
任务:通过描述性统计分析,回答以下问题:
第一步:识别数据类型与数据准备
检查数据质量:年龄为负数或大于120岁需要处理。确认会员等级为顺序变量。
第二步:频数分析与分类变量描述
对于性别、会员等级等分类/顺序变量,使用频数分析:
| 会员等级 | 频数 | 百分比 | 解读 |
|---|---|---|---|
| 普通 | 320 | 32% | 占比最高 |
| 银卡 | 280 | 28% | |
| 金卡 | 250 | 25% | |
| 钻石 | 150 | 15% | 占比最低 |
结论:普通会员占比最高,钻石会员占比最低——提示运营资源应向会员升级转化倾斜。
第三步:集中趋势分析——用户月均消费金额
| 指标 | 数值 | 业务解读 |
|---|---|---|
| 均值 | 1250元 | 平均每位用户月消费1250元 |
| 中位数 | 980元 | 50%的用户月消费低于980元 |
| 众数 | 500元 | 最常见的月消费金额为500元 |
发现:均值>中位数,数据呈右偏分布,说明存在少数高消费用户拉高了平均值。运营应重点关注“腰部用户”,而非被少数高消费用户的数据迷惑。
第四步:离散程度分析
第五步:分组对比分析
按性别分组对比月均消费:
| 性别 | 频数 | 均值 | 中位数 | 标准差 |
|---|---|---|---|---|
| 男 | 520 | 1320元 | 1100元 | 620元 |
| 女 | 480 | 1180元 | 950元 | 540元 |
结论:男性用户的平均消费略高于女性,但中位数差距更大,说明男性用户中的高消费群体更突出。
第六步:分布形态分析
第七步:综合分析与业务建议
通过以上分析,可以得出以下业务建议:
这就是一套完整的“变量识别 → 频数分析 → 集中趋势分析 → 离散程度分析 → 分组对比 → 分布形态分析”的描述性统计分析实战流程。
”
很多数据分析师会算均值、标准差,但当被问到“均值和中位数分别适用什么场景”“如何判断数据的分布形态”“不同变量类型应该用哪些统计指标”时,却答不上来。
知其然还要知其所以然,这正是CDA Level Ⅰ认证的价值所在。
对CDA数据分析师而言,描述性统计并非单纯的“指标计算”,而是一套标准化的实操逻辑,贯穿数据预处理、初步分析、汇报呈现等多个环节。描述性统计的价值,不在于“会算指标”,而在于“能用指标读懂数据、定位问题、驱动决策”。面对海量表结构数据,CDA无需逐一查看每条记录,通过描述性统计指标,可在短时间内掌握数据的整体概况,快速定位数据异常,为数据清洗和后续深度分析奠定基础。
描述性统计是CDA数据分析师的“基本功”,其价值不在于复杂的计算,而在于从基础指标中挖掘业务痛点。通过掌握集中趋势、离散程度、分布形态的核心逻辑,结合图表等辅助工具,分析师可将零散数据转化为决策依据,为企业的精细化运营奠定基础。
下一步行动:
数字是杂乱的,但掌握描述性统计的人能让它们说出真相。
”
图文含有广告内容

在数字化管理与数据化运营体系中,指标是连接原始数据与业务决策的核心载体。零散的原始数据只是无意义的数值堆砌,无法直接反映 ...
2026-06-25在Excel数据汇总、财务统计、业务复盘等日常办公场景中,经常需要完成逐行相乘、整体汇总求和的计算需求,最典型的场景就是:单 ...
2026-06-25 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-06-25【核心关键词】主数据、资产、供应商、现金流、企业、精细化、集团、数字化、中国、数据质量、数据管理、经营管理、地产行业、 ...
2026-06-24在数据分析、假设检验、AB测试、学术研究等统计场景中,显著水平(α)与P值(P-value)是判断统计结果是否具有统计学意义的两个 ...
2026-06-24小李刚入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5 ...
2026-06-24在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-06-22【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16