京公网安备 11010802034615号
经营许可证编号:京B2-20210330
在 CDA(Certified Data Analyst)数据分析师认证体系中,描述性统计是贯穿初级到中级认证的核心模块,占比约 15%。不同于推断统计的 “概率预测”,描述性统计通过整理、概括数据的基础特征,将零散数据转化为可解读的信息,是 CDA 分析师开展后续分析(如建模、预测)的前置环节。根据 CDA 考试大纲,该模块要求掌握 “集中趋势、离散程度、分布形态” 三大类指标的计算与解读,以及 “数据可视化与业务洞察转化” 能力 —— 例如,某零售企业的 CDA 分析师通过描述性统计发现客单价的中位数显著低于均值,进而定位低收入客群的消费痛点,为促销策略提供方向。
描述性统计的核心是通过量化指标揭示数据 “是什么”,而非 “为什么”,其指标体系可分为三大维度,每类指标在 CDA 认证中均有明确考核标准:
集中趋势反映数据的平均水平,是 CDA 分析师判断数据整体特征的首要工具,核心指标包括:
均值(Mean):所有数据的算术平均,适用于对称分布且无异常值的场景。例如,某电商平台日均订单量的均值为 5000 单,可作为基础运营目标的参考。
CDA 考点提示:均值对异常值敏感,若存在极端大值(如单日促销订单 10 万单),需结合中位数修正结论。
中位数(Median):将数据排序后位于中间位置的数值,适用于偏态分布或含异常值的数据。例如,某公司员工薪资分布呈右偏(少数高管薪资极高),此时中位数(8000 元 / 月)比均值(12000 元 / 月)更能反映普通员工的薪资水平。
众数(Mode):数据中出现频率最高的数值,适用于分类数据或离散数据。例如,某快消品牌的产品规格中,“500ml” 的销量占比达 60%,众数指标直接指导生产备货。
离散程度衡量数据的分散程度,是 CDA 认证中 “风险评估”“稳定性分析” 的关键,核心指标包括:
标准差(Standard Deviation):反映数据与均值的平均偏离度,值越小说明数据越稳定。例如,某连锁超市的日销售额标准差为 2000 元(均值 5 万元),说明销售额波动可控;若标准差达 1 万元,则需排查门店运营问题。
四分位数(Quartiles)与四分位距(IQR):通过 Q1(25% 分位数)、Q2(中位数)、Q3(75% 分位数)划分数据区间,IQR=Q3-Q1,可有效识别异常值(超出 Q1-1.5IQR 或 Q3+1.5IQR 的数值)。
CDA 实践案例:某金融平台通过四分位距筛选出 “贷款金额超过 Q3+1.5IQR” 的客户,作为高风险群体重点审核。
变异系数(CV):标准差与均值的比值,用于对比不同量级数据的离散程度。例如,A 产品日均销量均值 100 件、标准差 20 件,B 产品均值 500 件、标准差 50 件,通过 CV(A=0.2,B=0.1)可知 B 产品销量更稳定。
分布形态揭示数据的概率分布规律,是 CDA 分析师选择后续分析方法的依据,核心指标包括:
偏度(Skewness):衡量数据分布的不对称性。偏度 > 0(右偏)表示数据集中在左侧,右侧有长尾(如用户消费金额,多数人小额消费,少数人高额消费);偏度 < 0(左偏)表示数据集中在右侧,左侧有长尾(如产品使用寿命,多数产品达标,少数提前损坏)。
峰度(Kurtosis):衡量数据分布的陡峭程度。峰度 > 0(尖峰分布)表示数据集中在均值附近,波动小(如成熟产品的质量检测数据);峰度 < 0(平峰分布)表示数据分散,波动大(如新产品的用户反馈评分)。
CDA 分析师开展描述性统计需遵循 “数据清洗→指标计算→解读可视化→业务落地” 四步流程,且需熟练运用 Python/R 工具实现:
描述性统计的准确性依赖数据质量,CDA 认证要求优先处理两类问题:
缺失值:若缺失率 <5%,可通过 “均值 / 中位数填充”(数值型数据)或 “众数填充”(分类数据);若缺失率 > 20%,需评估字段必要性(如某用户行为数据中 “浏览时长” 缺失率 30%,可直接删除该字段)。
import pandas as pd
import numpy as np
# 读取数据
data = pd.read_csv("sales_data.csv")
# 计算Z-score
z_scores = np.abs((data["sales"] - data["sales"].mean()) / data["sales"].std())
# 筛选正常数据(Z-score<3)
clean_data = data[z_scores < 3]
CDA 认证推荐使用 Python 的pandas库或 R 的summary()函数快速生成描述性统计指标,例如:
# 计算集中趋势
mean_sales = clean_data["sales"].mean() # 均值
median_sales = clean_data["sales"].median() # 中位数
mode_sales = clean_data["sales"].mode()[0] # 众数
# 计算离散程度
std_sales = clean_data["sales"].std() # 标准差
iqr_sales = clean_data["sales"].quantile(0.75) - clean_data["sales"].quantile(0.25) # 四分位距
# 输出结果
print(f"销量均值:{mean_sales:.2f},中位数:{median_sales:.2f}")
print(f"销量标准差:{std_sales:.2f},四分位距:{iqr_sales:.2f}")
CDA 认证强调 “让数据说话”,需通过可视化将指标转化为业务语言:
基础可视化:用折线图展示均值变化趋势,箱线图呈现离散程度(如某门店月度销量箱线图,可直观看到 Q4 存在多个异常高值,对应双 11 促销);
BI 工具应用:在 FineBI 或 Tableau 中搭建 “描述性统计看板”,联动筛选 “区域 - 时间 - 产品” 维度,例如某品牌通过看板发现 “华东区域客单价中位数高于全国 15%”,进而加大该区域的高端产品投放。
某连锁便利店的 CDA 分析师对 2024 年 Q1 消费数据开展描述性统计:
集中趋势:客单价均值 35 元,中位数 30 元(说明存在高消费客群拉高均值);
离散程度:客单价标准差 18 元,四分位距 22 元(消费金额差异较大);
分布形态:客单价偏度 = 1.2(右偏),峰度 = 0.8(平峰)。
业务落地:针对高消费客群(客单价 > Q3=48 元)推出 “会员专属套餐”,针对普通客群(客单价 15-30 元)推出 “组合优惠”,推动 Q2 整体客单价提升 8%。
某银行 CDA 分析师对申请贷款客户的收入数据进行描述性统计:
收入中位数 8000 元 / 月,均值 10500 元 / 月(存在高收入客户);
收入标准差 5000 元,异常值界定为 “收入> 8000+1.5×(12000-6000)=17000 元” 或 “收入 < 6000-1.5×6000=-3000 元”(排除负收入异常值);
高收入客户(>17000 元)占比 5%,但其贷款违约率仅 0.3%(远低于平均 2%)。
业务落地:将收入中位数作为基础授信门槛,对高收入客户简化审核流程,提升审批效率的同时降低风险。
考点聚焦:重点掌握 “异常值处理方法”“偏度 / 峰度的业务解读”“不同数据类型(数值型 / 分类型)的指标选择”—— 例如,分类数据(如用户性别)仅能用众数描述集中趋势,不能用均值。
工具深化:除pandas外,学习 Python 的scipy.stats库计算偏度、峰度,用seaborn绘制更专业的分布可视化图表(如小提琴图结合箱线图,同时展示分布形态与离散程度)。
业务关联:避免 “唯指标论”,例如某产品的销量均值下降,但中位数上升,需结合业务场景分析(可能是低端产品销量减少,高端产品销量稳定,并非整体下滑)。
描述性统计是 CDA 数据分析师的 “基本功”,其价值不在于复杂的计算,而在于从基础指标中挖掘业务痛点。通过掌握集中趋势、离散程度、分布形态的核心逻辑,结合 CDA 认证的工具与流程要求,分析师可将零散数据转化为决策依据,为企业的精细化运营奠定基础。建议备考 CDA 的读者通过 SQLPub、Kaggle 等平台练习真实数据集,在实践中提升指标解读与业务转化能力。

数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04