京公网安备 11010802034615号
经营许可证编号:京B2-20210330
很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题,用描述性统计就能解决。
”
小张是一名刚入行的数据分析师,第一次拿到公司销售数据时,面对数万行密密麻麻的数字,他感到无从下手。客户满意度是上升还是下降?销售业绩的波动大不大?哪个客户群体贡献最高?
这些问题看似简单,但在数据面前,如果没有方法,就只是一堆数字。
描述性统计分析,正是解决这一困境的核心能力。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布形态描述以及一些基本的统计图形。它不涉及推断或预测,其核心目的是“用简洁的方式呈现数据的核心特征”,将杂乱的原始数据转化为可理解的信息,回答“数据是什么样的”这一基础问题。
描述性统计的核心是通过量化指标揭示数据“是什么”,而非“为什么”,其指标体系可分为三大维度:集中趋势、离散程度和分布形态。
集中趋势反映数据的平均水平,是分析师判断数据整体特征的首要工具。它回答了“数据的典型值是多少”这个问题。常用的集中趋势指标包括:
均值(Mean) ——所有数据的算术平均,适用于数据呈对称分布且无异常值的场景。例如,某电商平台日均订单量的均值为5000单,可作为基础运营目标的参考。在CDA考点提示中,均值对异常值敏感,若存在极端大值(如单日大促订单远超正常水平),需结合中位数修正结论。
中位数(Median) ——将数据排序后位于中间位置的数值,适用于偏态分布或含异常值的数据。例如,某公司员工薪资分布呈右偏(少数高管薪资极高),此时中位数比均值更能反映普通员工的薪资水平。
众数(Mode) ——数据中出现频率最高的数值,适用于分类数据或离散数据。例如,某快消品牌的产品规格中,某种规格的销量占比达60%,众数指标直接指导生产备货。
此外,分位数也是重要的描述工具。四分位数(Quartiles)通过Q1(25%分位数)、Q2(中位数,50%分位数)、Q3(75%分位数)将数据划分为四个等份,是描述数据分布形态和识别异常值的有效工具。
离散程度衡量数据的分散程度,反映各变量值远离其中心值的程度。它回答了“数据之间的差异有多大”这个问题。离散程度是“风险评估”“稳定性分析”的关键环节。
常用的离散程度指标包括:
极差——最大值与最小值的差值,是离散程度最简单的测度值,可快速判断数据跨度。例如,某产品的最高月销售额为100万元,最低为50万元,极差为50万元。极差的缺点是极易受极端值影响,且未考虑数据的分布情况。
平方差、方差与标准差——方差是先计算一组数据的平均数,再计算各数据与平均数之差的平方和,最后用所得平方和除以这组数据的个数,能反映一组数据与平均数的偏离程度。标准差是方差的平方根,是衡量离散程度最常用的测度值,反映了各变量值与均值的平均差异。例如,某连锁超市的日销售额标准差为2000元(均值5万元),说明销售额波动可控;若标准差达1万元,则需排查门店运营问题。
离散系数(变异系数) ——标准差与均值的比值,用于比较不同量纲数据的离散程度,消除单位影响。例如,比较员工薪资与年龄的离散程度时,离散系数能提供统一的比较标准。
四分位距(IQR) ——Q3与Q1的差值,IQR=Q3-Q1,可有效识别异常值(超出Q1-1.5IQR或Q3+1.5IQR的数值)。CDA实践案例:某金融平台通过四分位距筛选出“贷款金额超过Q3+1.5IQR”的客户,作为高风险群体重点审核。
平均差(Mean Deviation) ——各数据点与算术平均数之间差异绝对值的平均数,是另一种度量数据离散程度的重要指标。
分布形态是描述性统计分析中较为进阶的内容,它回答了“数据是如何分布的”这个问题。在统计研究中,常常需要利用偏度和峰度来判断数据分布是否符合正态分布假设。
偏态(Skewness) ——指数据分布偏斜的程度,即数据分布不对称的方向和程度。观察数据分布的偏态可通过数据分布图进行判断,看分布图的“尾巴”在哪里:
峰态(Kurtosis) ——指数据分布尖峭或平坦的程度,相对于标准正态分布而言:
一组数据的分布形状可通过直方图将该数据分布在数轴上拟合出一条曲线,将曲线的尖峭程度和对称性与正态分布曲线相比较。
除了数值指标,描述性统计还离不开图表工具。
直方图——查看数值型数据的分布情况时是最优选择,能够显示数据在不同区间内的频率分布情况,直观反映出数据的集中趋势、离散程度以及是否存在偏态或异常值等信息。
箱型图——展示数据的五数概括和异常值,快速识别异常值,判断数据对称性。在业务描述性分析中,箱型图可以快速确认数据的分布以及数据的中位数、四分位数,是数据初探阶段非常实用的可视化工具。
折线图——展示数据随时间的变化趋势,是时间序列分析的核心图表。
饼图/柱状图——展示各类别占总体的比例(饼图)或比较不同类别的数值大小(柱状图)。
在实际分析中,建议先用描述性统计数值指标(均值、标准差、偏度等)快速了解数据的基本特征,再用图表(直方图、箱型图)直观呈现分布形态,两者结合才能全面把握数据的“画像”。
描述性统计与概率分布紧密相关。
正态分布——最常见、最重要的连续型概率分布,许多自然和社会现象都近似服从正态分布(如身高、考试成绩等)。正态分布的形态呈“钟形曲线”,对称分布在均值两侧,具有“中间高、两头低”的特点。在描述性统计中,通过计算样本的均值、标准差和偏度/峰度,可以判断数据是否近似服从正态分布。在正态分布中,均值、中位数、众数三者相等,都位于曲线的中心。
两点分布(伯努利分布) ——最简单的离散型概率分布,只有两种可能的结果(成功/失败、是/否),是二项分布的基础。
二项分布——n次独立的两点分布试验之和,描述在n次试验中成功次数k的概率分布。二项分布是描述性统计分析中理解“分类变量”分布形态的重要理论支撑。
在描述性统计分析中,还有两个重要的概念需要掌握。
数据标准化值——也称为Z分数,是将原始数据转化为以标准差为单位表示其与均值差异的量值。标准化值能够消除不同量纲对数据比较的影响,是进行跨指标比较的重要工具。
自由度——统计学中的基础概念,是指在计算统计量时能够自由取值的变量个数。在计算样本方差时,分母通常使用n-1,这体现了自由度在统计计算中的实际应用。
某电商平台运营团队需要了解用户的行为特征,以便制定精准营销策略。他们收集了1000名用户的以下信息:
| 变量 | 变量类型 | 说明 |
|---|---|---|
| 用户ID | 分类变量 | 唯一标识,不用于统计 |
| 性别 | 分类变量 | 男/女 |
| 会员等级 | 顺序变量 | 普通/银卡/金卡/钻石 |
| 年龄 | 数值变量 | 岁 |
| 月均消费金额 | 数值变量 | 元 |
| 月均登录天数 | 数值变量 | 天 |
任务:通过描述性统计分析,回答以下问题:
第一步:识别变量类型与数据准备
检查数据质量:年龄为负数或大于120岁需要处理。确认会员等级为顺序变量,有等级关系但差值不一定相等。
第二步:频数分析与分类变量描述
对会员等级等分类变量使用频数分析:
| 会员等级 | 频数 | 百分比 | 解读 |
|---|---|---|---|
| 普通 | 320 | 32% | 占比最高 |
| 银卡 | 280 | 28% | |
| 金卡 | 250 | 25% | |
| 钻石 | 150 | 15% | 占比最低 |
结论:普通会员占比最高,钻石会员占比最低——提示运营资源应向会员升级转化倾斜。
第三步:集中趋势分析——用户月均消费金额
| 指标 | 数值 | 业务解读 |
|---|---|---|
| 均值 | 1250元 | 平均每位用户月消费1250元 |
| 中位数 | 980元 | 50%的用户月消费低于980元 |
| 众数 | 500元 | 最常见的月消费金额为500元 |
发现:均值>中位数,数据呈右偏分布,说明存在少数高消费用户拉高了平均值。运营应重点关注“腰部用户”,而非被少数高消费用户的数据迷惑。
第四步:离散程度分析
第五步:分组对比分析
按性别分组对比月均消费:
| 性别 | 频数 | 均值 | 中位数 | 标准差 |
|---|---|---|---|---|
| 男 | 520 | 1320元 | 1100元 | 620元 |
| 女 | 480 | 1180元 | 950元 | 540元 |
结论:男性用户的平均消费略高于女性,但中位数差距更大,说明男性用户中的高消费群体更突出。
第六步:分布形态分析
第七步:综合分析与业务建议
通过以上分析,可以得出以下业务建议:
这就是一套完整的“变量识别 → 频数分析 → 集中趋势分析 → 离散程度分析 → 分组对比 → 分布形态分析”的描述性统计分析实战流程。
”
很多数据分析师会算均值、标准差,但当被问到“均值和中位数分别适用什么场景”“如何判断数据的分布形态”“不同变量类型应该用哪些统计指标”时,却答不上来。
描述性统计是CDA数据分析师的“基本功”,其价值不在于复杂的计算,而在于从基础指标中挖掘业务痛点。通过掌握集中趋势、离散程度、分布形态的核心逻辑,结合图表等辅助工具,分析师可将零散数据转化为决策依据,为企业的精细化运营奠定基础。
如果你想系统掌握从原始数据到商业洞察的完整描述性统计方法论,并获得行业认可的专业能力证明,可以考虑了解CDA数据分析师认证。LEVEL Ⅰ考试完整覆盖了本文提到的所有知识点,通过系统的教材和官方模拟题训练,帮助你真正把“统计知识”变成“数据分析能力”。
???? 下一步行动:
数字是杂乱的,但掌握描述性统计的人能让它们说出真相。
”
图文含有广告内容

数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】报表、数据源、客户、营销、业绩、销售、时效性、函数、可视化、运营、数据分析、数据报表、业务部门、数据运营 ...
2026-06-30在数据分析、商业预测、经济统计、运维监控等领域中,绝大多数业务数据都具备时间连续性特征,例如月度销售额、日度客流量、季度 ...
2026-06-30 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-06-30在 SQL Server 安装、服务启动、数据库文件操作等场景中,经常会遇到 “实例已在使用” 类报错,不同触发场景的原因与处理方式差 ...
2026-06-29在Excel数据统计、财务核算、销售复盘、库存盘点等办公场景中,经常需要在数据透视表中实现一列数据乘以另一列数据的计算需求, ...
2026-06-29在数据分析中,指标是连接业务与数据的核心语言。它并非一个简单的数字,而是一个将模糊的业务需求(如“提升用户粘性”)转化为 ...
2026-06-29【核心关键词】大数据、零售商、消费者、供应链、运营、企业、产品、客户、数据模型、大数据平台、数据开发、系统运维、业务逻 ...
2026-06-26在物流配送、供应链履约、终端供货等业务场景中,送货率是衡量企业履约能力、服务质量、供应链稳定性的核心业务指标,直接关联客 ...
2026-06-26 很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度” ...
2026-06-26在数字化管理与数据化运营体系中,指标是连接原始数据与业务决策的核心载体。零散的原始数据只是无意义的数值堆砌,无法直接反映 ...
2026-06-25在Excel数据汇总、财务统计、业务复盘等日常办公场景中,经常需要完成逐行相乘、整体汇总求和的计算需求,最典型的场景就是:单 ...
2026-06-25 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-06-25【核心关键词】主数据、资产、供应商、现金流、企业、精细化、集团、数字化、中国、数据质量、数据管理、经营管理、地产行业、 ...
2026-06-24在数据分析、假设检验、AB测试、学术研究等统计场景中,显著水平(α)与P值(P-value)是判断统计结果是否具有统计学意义的两个 ...
2026-06-24小李刚入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5 ...
2026-06-24在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22