京公网安备 11010802034615号
经营许可证编号:京B2-20210330
很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量?各适合使用哪种统计分析方法”时,却常常语塞。其实,数据分类是数据分析的“第一道工序”。如果把分析比作烹饪,数据分类就是“认识食材”——分不清是蔬菜还是肉类、是生冷还是熟食,后续的刀工与火候都是无用功。
”
小林刚刚入职了一家物流科技公司的数据分析团队。第一天,主管扔给他三批数据:一批是EXCEL格式的订单明细表,结构规整、行清列楚;一批是官网客户留言的TXT文本文档,格式杂乱、长短不一;第三批则是服务器上的访问日志,密密麻麻的字符,需要专门的工具才能提取。主管说:“这三批数据需要结合分析,从订单异常中定位是否存在服务质量问题,你按数据分类规划一下处理路径。”
小林盯着这些格式差异巨大的数据,一时竟不知从何下手。这一问题,正是数据分析师从“会操作EXCEL”到“能驾驭多元化数据资产”的第一次能力跨越。
本文将从CDA认证的知识体系出发,系统拆解数据分类的多维框架、各维度的核心要点与辨析技巧,帮助你在数据源头就建立“第一性原理”般的清晰框架。
对数据分析师而言,数据分类的价值远不止“分组命名”,而是直接驱动方法选择、工具选型、分析路径规划的三个关键层面。
| 价值层面 | 具体体现 | CDA工作场景示例 |
|---|---|---|
| 决定分析工具和方法 | 不同数据类型选择不同的分析工具与统计方法 | 结构化数据→用SQL+BI工具;非结构化数据→用Python(NLTK)或Excel文本函数做词频分析 |
| 决定统计方法的选择 | 变量类型决定后续统计方法的适用性 | 分类变量→卡方检验、频数分析;数值变量→均值比较、t检验 |
| 影响数据清洗与预处理 | 不同数据类型涉及不同的清洗方法与预处理逻辑 | 数值型→异常值检测;文本型→编码统一、去空格、标点规范化 |
在数据分类的深层认知中,“数据—信息—知识”的递进链条是CDA考纲中的重要一环。数据是原始的、未经加工的事实与符号,如“35℃”;信息是通过组织和解读后赋予数据意义的内容,如“某城市今日最高气温35℃,超过历史同期平均值”;知识则是在信息的基础上提炼出的抽象规律和行动逻辑,如“每年6-8月该城市连续高温,需要提前备好防暑物资并进行冰品调货”。
这一递进逻辑为数据分析师从“原始数据”到“商业洞察”提供了理论支撑。在数据分类的过程中,只有先厘清原始数据所属的“类别属性”,后期才能顺畅地转化为高质量信息和可落地的知识。
“数据分类”从三个维度展开知识框架:按计量尺度分类(最基础、最重要的维度)、按时间状况分类(截面数据 vs 时间序列数据)和按数据结构分类(结构化数据 vs 非结构化数据)。
在数据的计量尺度层面上,统计学将数据划分为三个递进的层级。从低到高,信息量逐渐丰富,可应用的分析方法逐层增多。如果从数据级别的高低进行分类,排序应该是 数值数据 > 顺序数据 > 分类数据——数值数据位于最高级,因为它可以转换为低级数据类型来使用,但低级数据(分类数据或顺序数据)不能转换成数值数据使用。这一排序原则贯穿数据分析方法选择的始终。
| 计量层级 | 定义 | 典型示例 | 适用统计方法 | 辨析提醒 |
|---|---|---|---|---|
| 分类数据(Nominal Data) | 最低层级,仅区分类别,无大小、顺序关系 | 性别、颜色、品牌、城市 | 频数分析、百分比、卡方检验 | 不能计算均值,“男”和“女”的平均值没有意义 |
| 顺序数据(Ordinal Data) | 中间层级,既分类又分等级,但差值不等距 | 教育程度、满意度等级、成绩等级(A/B/C/D) | 中位数、百分位数、秩和检验 | 不能进行加减运算 |
| 数值数据(Numerical Data) | 最高层级,可进行算术运算 | 年龄、收入、温度、身高 | 均值、方差、t检验、回归分析 | 分为离散(整数)和连续(含小数) |
数值数据的进一步分类:在CDA考试中,数值数据可进一步细分为离散数据(Discrete Data) ——只能取整数值,如订单数量、用户年龄;以及连续数据(Continuous Data) ——可取任何值,如身高1.75米、温度24.5℃。
顺序数据的特殊辨析:在CDA考试与日常分析中,最常见的一个易错点是成绩等级。例如,“成绩”本身属于数值变量(如95分、80分),但如果将其划分为A/B/C/D等级,则属于顺序数据——因为A、B、C、D之间有明确的等级优劣关系(A > B > C > D),但A与B之间的“差值”与B与C之间的“差值”未必相等,不能做加减法运算。
CDA高频考点——变量类型的陷阱题:在CDA的官方模拟题库中,曾有一道题要求判断“加湿器型号(A、B、C、D、E)属于以下哪种数据类型”,正确答案是“分类数据”——型号是字母标签,可以相互换位,没有顺序含义,不能进行数学运算。
从数据级别的高低排序而言: “数值数据 > 顺序数据 > 分类数据” ,是必会的基本判断标准。
数据按时间状况划分,可以分为截面数据与时间序列数据两类。
截面数据(Cross-sectional Data) :在同一时间点或时间段内,采集多个个体(如用户、门店、产品等)的数据,如同一时刻的截面“快照”。典型场景包括:某日全国各城市的天气数据;某月多个门店的月度销售额统计;同一时点上多个用户的资产信息。截面数据是横截面“冻结”瞬间的水平。
时间序列数据(Time Series Data) :按时间顺序排列的数据点。截面数据注重“横向比较”不同个体之间的表现;时间序列数据则注重“纵向观察”同一指标随时间变化的规律。
这一维度的分类直接影响了CDA分析路径的选择:时间序列问题需用趋势分析、季节性分析方法;而同类截面问题则常用横向对比回归分析或聚类分析。
数据按数据结构划分,可分为结构化数据与非结构化数据。
结构化数据:遵循固定数据结构、以行列形式组织的数据,适用于传统的关系数据库(如Mysql、Oracle)进行处理,容易使用SQL查询和汇总。例如,EXCEL中“订单表”“用户表”是典型的结构化数据——每一列有固定的字段标题(订单ID、金额、日期),每一行代表一条规范记录。结构化数据的核心特征是可以无缝接入BI工具并在Power BI或Tableau中进行建模型和可视化。
非结构化数据:没有预定义结构的数据,格式多样,难以直接适配标准数据库二维表形式。例如,文本文档、产品评价文本、客服录音、社交媒体评论、图片与视频。这类数据不轻易“塞进表里”,需要专门的ETL工序提取有效信息。
分析师的核心工作,是为非结构化数据铺就一条通往结构化格式的“桥梁”——例如,从客户评价文本中抽取出“评价得分+关键词标签”,转化为可透视分析的结构化表格。非结构化数据的价值挖掘是当前数字化转型的重点领域,也是CDA业务能力的重要体现。
工作流关系:业务系统(结构化数据)→ ETL → 数仓(结构化数据)→ BI工具;平台日志/客服留言(非结构化数据)→ NLP或文本解析 → 转为结构化字段 → 进入数据分析流程。
某电商平台曾做过一次“产品满意度调研”,满意度评分设为一到三级(不满意、一般、满意)。研发部把三级满意度编码为数字(1=不满意,2=一般,3=满意),然后对所有调查者的评分求均值——得出平均满意值2.3分,并认为“满意度中等偏上”。
这种处理方式犯了将顺序数据当数值数据处理的根本错误。将“不满意”“一般”“满意”当成数值1、2、3,求得的“均值2.3分”在统计学上毫无意义——因为“1到2”与“2到3”之间的距离在心理体验上不是等距的。正确的做法是采用频数分析或中位数等描述方法,而不是计算算术平均数。
某连锁超市的CDA分析师接到两个任务:任务A——“比较各门店今年10月的销售额,找出前三名门店”;任务B——“预测明年1月全平台总销售额”。
某家电厂商的售后服务部门每年收到近500万条客户文字反馈(非结构化),同时积累了一张“工单记录表”——表格中包含工单编号、受理日期、所属区域、服务评分等结构化字段。CDA分析师需要探索“负面评价频繁爆发”的规律。
第一步:使用NLP工具对反馈文本进行情感评分(负向/中性/正向),并将评分写入一张新表中,实现结构化提取。
第二步:将情感评分表与已有结构化工单表通过“受理日期/工单编号”关联,形成分析宽表。
第三步:从宽表中透视“各区域负面评价占比”“常见负面词TOP10”等,定位售后服务短板。
这就是分析师在多元数据协同中的典型思路——先按数据结构分类,再有针对性地设计处理路径。
”
某母婴电商平台的数据团队收到了三批数据:
第1步——按数据结构分类
第2步——按计量层级标注各个字段的数据类型 订单明细表中的字段:
| 字段 | 计量层级 | 适用统计方法 |
|---|---|---|
| 订单ID | 分类数据 | 计数,不能用于计算 |
| 订单金额 | 数值数据 | 均值、总和、同比 |
| 是否新客 | 分类数据(两类互斥) | 频数分析 |
第3步——判断按时间状况归属 若分析目标是“订单量的月度趋势”,该场景属于时间序列数据分析;若分析目标是“不同类别会员的消费差异”,属于截面数据跨个体比较。
第4步——路径决策
很多数据分析师会计算平均值、会做柱状图,但当被问到“这批数据是分类数据还是数值数据”“是顺序数据还是连续数据”“数据级别的高低如何排序”时,却答不上来。
看懂数据形态是基础,通过数据分类精准判断后续分析方法,才是CDA分析师专业力的体现。
2025年新考纲在“数据模型”部分新增了“数据分类”模块并强调结构化与非结构化数据的协同处理,这一调整释放了强烈的信号:数据分析师不能只依赖固定格式的Excel,而应当建立起“面对陌生数据快速分类、规划处理路径”的能力闭环。分类数据、顺序数据、数值数据的层层递进,是连接原始数据与科学分析模型的桥梁,也是CDA数据分析师从“操作层面”走向“设计层面”的重要分水岭。
PART 12“数据模型”作为连接数据结构与商业分析逻辑的桥梁,将“数据分类”置于顶层,旨在帮助CDA数据分析师建立“数据驱动业务”的体系化思维——对每一批陌生数据都先“断准类型”,后续的分析动作才能从容不迫。
下一步行动:
数据分类是数据分析师认识数据的“坐标系”,精准定位分类,让后续分析路径从“盲目摸索”变为“精准导航”。
”
图文含有广告内容

数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04