京公网安备 11010802034615号
经营许可证编号:京B2-20210330
很多人把统计学理解为“一堆公式和计算”,却忽略了它的本质——一门让数据“开口说话”的科学。真正的数据分析高手,不是会算平均数,而是能通过统计概念洞察业务规律。
”
小李入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5个百分点,情况严重吗?”
小李立刻调出数据,跑了一堆报表,算出留存率的均值、中位数、标准差……数据堆了满满一页,却说不出到底“严重不严重”。
旁边一位资深分析师接过话头:“我们上个月做过A/B测试,正常波动范围在±3%以内。现在下降5%超出正常波动,且连续两周趋势向下,需要立即排查新用户引导流程。”
同样是留存率下降5%,这位分析师只用了几秒钟就判断出了问题的严重性。区别在哪里?关键在于对统计基本概念的深刻理解——什么是正常波动?什么是抽样误差?统计量如何推断总体?这些正是分析师要解决的核心问题。
统计学是一门收集、处理、分析、解释数据,并从数据中得出结论的科学。这一定义涵盖了一个完整的分析闭环:
收集数据 → 处理数据 → 分析数据 → 解释数据 → 得出结论
”
研究思路正是遵循这个闭环:
调查和实验是数据收集的两种主要方法,基础的数据分析方法又分为两大类:描述性统计分析方法和推断性统计分析方法。
统计基本概念模块主要聚焦于这两大分支的底层认知。
描述性统计:涉及收集、整理、总结和呈现数据的技术。它回答的是“数据长什么样”的问题。例如:平均客单价是多少?销售额的波动有多大?——这些都不需要推断,只需要对已有数据进行汇总和描述即可。用原话来说,描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析和分布形态分析,以及一些基本的统计图形。
推断性统计:涉及利用样本数据推断总体特征的技术。它回答的是“从样本能得出什么总体结论”的问题。例如,对1000个用户进行了调查,能推断出全部100万用户的行为特征吗?——这就需要推断统计的方法。推断性分析包含参数估计、假设检验、列联分析等内容。
数据分析过程的起点是总体,分析的终点往往是推断。总体是定值,样本是变量。
两者常被混淆,但定位不同:
两者的核心区别在于:数据分析重在“解释已有现象”,数据挖掘重在“发现未知规律”。
总体:指根据研究目的确定的同质研究对象的全体。总体是“所有元素的集合”,其中每个元素称为个体。
例如:
样本:从总体中随机抽取的部分个体。例如,从100万用户中随机抽取1000人进行调查,这1000人就是样本。构成样本的元素的数目称为样本容量。
在实际工作中,我们很少能接触到完整的总体数据——用户有100万,订单有1000万条,但分析资源有限。数据分析师的工作常态是:基于样本数据,推断总体特征。
比如文章开头那个例子——留存率下降了5%,资深分析师判断“正常波动范围在±3%以内”,这个判断背后,正是基于对历史数据的统计推断,而不是凭空猜测。
参数:指研究者想要了解的总体的某种特征值。参数通常是未知的,因为不可能观测到总体中的所有个体。常见的参数有总体均值、总体标准差、总体比例等。
统计量:指根据样本数据计算出来的一个量,即样本的某个特征值。常见的统计量有样本均值、样本标准差、样本比例等。由于样本是我们已经抽出来的,所以统计量总是知道的。抽样的目的就是要根据样本统计量推断总体参数。
参数是客观存在的“事实” ,统计量是我们手中掌握的“线索”。数据分析师的任务,正是通过手中的统计量,去推断和估计未知的参数。
变量是描述个体某个特征的名称,其取值会随着个体的不同而发生变化。例如:用户的年龄是一个变量,不同用户的年龄取值不同。变量是统计研究的基本单元,也是CDA考试中的基础考点。
数据计量尺度与变量类型是统计分析的起点,也常常是考生容易混淆的地方。
数据的计量尺度和具体的统计方法息息相关,大致分为3类:名义测量、次序测量和连续变量测量。这三类测量分别对应三种变量类型:
| 计量尺度 | 变量类型 | 特征 | 典型示例 |
|---|---|---|---|
| 名义测量 | 分类变量 | 仅区分类别,无大小、顺序关系 | 性别(男/女)、地区(北京/上海/广州) |
| 次序测量 | 顺序变量 | 区分类别且有明确的顺序或等级关系 | 学历(小学/中学/大学)、满意度(满意/一般/不满意) |
| 连续变量测量 | 数值变量 | 有实际数值意义,可进行算术运算 | 年龄、身高、销售额、温度 |
连续变量测量可以进一步细分为间距测量和比例测量。
从数据级别的高低排序,依次是数值数据 > 顺序数据 > 分类数据。数值数据包含的信息最丰富,可以进行算术运算;顺序数据只能比较大小,不能做加减;分类数据只能区分类别,信息量最少。
一个常见陷阱:“成绩等级”的归类。“成绩”本身属于数值型变量,但将其划分为“A/B/C/D”等级后,由于成绩等级有优劣关系,它属于顺序变量,而不是分类变量。
正态分布是最常见、最重要的连续型概率分布,许多自然和社会现象都近似服从正态分布(如身高、考试成绩、测量误差等)。正态分布的形态呈“钟形曲线”,对称分布在均值两侧,具有“中间高、两头低”的特点。
正态分布在数据分析中的应用极为广泛,是参数估计、假设检验等推断统计方法的重要理论基础。
两点分布(也称伯努利分布)是最简单的离散型概率分布,只有两种可能的结果(成功/失败、是/否)。例如:掷一次硬币,正面朝上的概率为p,反面朝上的概率为1-p。
二项分布是n次独立的两点分布试验之和,描述的是在n次试验中成功次数k的概率分布。例如:掷10次硬币,正面朝上3次的概率是多少?这个问题就用二项分布来求解。
描述性统计是数据分析的基础方法,通过统计指标和图表来描述数据的基本特征。它是将零散数据转化为可解读信息的关键环节,也是CDA分析师开展后续分析的前置步骤。
集中趋势反映数据的平均水平,是CDA分析师判断数据整体特征的首要工具。它回答了“数据的典型值是多少”这个问题。
| 指标 | 定义 | 适用场景 | CDA考点提示 |
|---|---|---|---|
| 均值 | 所有数值之和除以个数 | 数据呈对称分布、无极端值 | 最常用,但对异常值敏感 |
| 中位数 | 排序后位于中间位置的数 | 数据有极端值或偏态分布 | 薪资分析的首选指标 |
| 众数 | 出现频率最高的数 | 分类数据、寻找“主流”趋势 | 分组数据中表现显著 |
均值最常用于对称分布且无异常值的场景。例如,某电商平台日均订单量的均值为5000单,可作为基础运营目标的参考。但均值对异常值敏感,若存在极端大值,需结合中位数修正结论。
中位数在偏态分布中更具代表性。例如,公司员工薪资分布呈右偏(少数高管薪资极高),中位数比均值更能反映普通员工的薪资水平。
例如,某快消品牌的产品规格中,“500ml”的销量占比达60%,众数指标直接指导生产备货。
在集中趋势分析中,四分位数(Q1、Q2、Q3)也是重要的描述工具,用于划分数据的区间分布。
离散程度衡量数据的分散程度,是“风险评估”“稳定性分析”的关键环节。
| 指标 | 定义 | 适用场景 | CDA考点提示 |
|---|---|---|---|
| 极差 | 最大值与最小值的差值 | 快速判断数据跨度 | 对异常值敏感 |
| 方差 | 每个数据与均值之差的平方的平均值 | 衡量数据的整体离散程度 | 单位是原单位的平方 |
| 标准差 | 方差的平方根 | 最常用的离散程度指标 | 单位与原数据相同 |
| 四分位距(IQR) | Q3与Q1的差值 | 识别异常值 | IQR=Q3-Q1 |
| 变异系数 | 标准差与均值的比值 | 比较不同量纲数据的离散程度 | 消除单位影响 |
标准差反映数据与均值的平均偏离度,值越小说明数据越稳定。例如,某连锁超市的日销售额标准差为2000元(均值5万元),说明销售额波动可控;若标准差达1万元,则需排查门店运营问题。
四分位距可有效识别异常值(超出Q1-1.5IQR或Q3+1.5IQR的数值)。实践案例:某金融平台通过四分位距筛选出“贷款金额超过Q3+1.5IQR”的客户,作为高风险群体重点审核。
常用的离散程度统计量包括极差、平方差、方差、标准差和离散系数(变异系数)。
分布形态是描述性统计分析中较为进阶的内容,它回答了“数据是如何分布的”这个问题。在统计研究中,常常假设总体数据服从正态分布,则需要利用偏度和峰度来判断样本数据是否符合这一假设。
描述性统计常用图表,包括直方图、柱状图、散点图、箱型图、折线图、饼图等。
例如,在业务描述性分析中,箱型图可以快速确认数据的分布以及数据的中位数、四分位数,是数据初探阶段非常实用的可视化工具。
在实际分析中,建议先用描述性统计数值指标(均值、标准差、偏度等)快速了解数据的基本特征,再用图表(直方图、箱型图)直观呈现分布形态,两者结合才能全面把握数据的“画像”。
评价估计量优劣的主要标准包括:
你是某互联网公司的数据分析师。公司刚刚进行了一次用户满意度调查,收集了500份有效问卷。调查内容包括:用户ID、年龄、性别、城市等级(一线/新一线/二线/其他)、满意度评分(1-5分)、是否推荐给朋友(是/否)。
老板要求你回答以下问题:
第一步:明确总体与样本
第二步:识别变量类型
| 变量 | 计量尺度 | 变量类型 | 说明 |
|---|---|---|---|
| 用户ID | 名义测量 | 分类变量 | 仅用于标识,不能计算 |
| 年龄 | 比例测量 | 数值变量 | 有绝对零点,可比较倍数 |
| 性别 | 名义测量 | 分类变量 | 仅区分类别,无顺序 |
| 城市等级 | 次序测量 | 顺序变量 | 一线>新一线>二线>其他 |
| 满意度评分 | 间距测量 | 数值变量 | 1-5分,无绝对零点 |
| 是否推荐 | 名义测量 | 分类变量 | 是/否两类结果 |
第三步:描述性统计分析
第四步:推断统计
第五步:得出结论
这就是一套完整的“识别变量类型 → 描述性统计 → 推断统计”的实战流程。掌握了统计基本概念,你就能从一堆数字中提炼出有价值的商业洞察。
”
很多数据分析师会算均值、标准差,但当被问到“总体和样本有什么区别”“参数和统计量有什么关系”“为什么用中位数而不用均值”“偏态和峰态如何判断”时,却答不上来。
知其然还要知其所以然,这正是CDA Level I认证的价值所在。
如果你想系统掌握从统计基本概念到商业洞察的完整方法论,并获得行业认可的专业能力证明,可以考虑了解CDA数据分析师认证。它覆盖了本文提到的所有知识点,并通过大量模拟题和案例分析,帮助你真正把“统计知识”变成“数据分析能力”。
下一步行动:
数字是冰冷的,但掌握统计的人能让它们说出真相。
”
图文含有广告内容

数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05