从“杂乱信号”到“有序资产”：CDA数据分析师视角下的数据分类-CDA数据分析师官网

热线电话：13121318867

从“杂乱信号”到“有序资产”：CDA数据分析师视角下的数据分类

2026-06-04


很多数据分析师拿到数据就开始清洗、建模，但当被问到“这批数据属于什么类型——结构化还是非结构化？分类变量还是数值变量？各适合使用哪种统计分析方法”时，却常常语塞。其实，数据分类是数据分析的“第一道工序”。如果把分析比作烹饪，数据分类就是“认识食材”——分不清是蔬菜还是肉类、是生冷还是熟食，后续的刀工与火候都是无用功。
”

引言：为什么“数据分类”是数据分析的第一课？

小林刚刚入职了一家物流科技公司的数据分析团队。第一天，主管扔给他三批数据：一批是EXCEL格式的订单明细表，结构规整、行清列楚；一批是官网客户留言的TXT文本文档，格式杂乱、长短不一；第三批则是服务器上的访问日志，密密麻麻的字符，需要专门的工具才能提取。主管说：“这三批数据需要结合分析，从订单异常中定位是否存在服务质量问题，你按数据分类规划一下处理路径。”

小林盯着这些格式差异巨大的数据，一时竟不知从何下手。这一问题，正是数据分析师从“会操作EXCEL”到“能驾驭多元化数据资产”的第一次能力跨越。

本文将从CDA认证的知识体系出发，系统拆解数据分类的多维框架、各维度的核心要点与辨析技巧，帮助你在数据源头就建立“第一性原理”般的清晰框架。

一、为什么数据分类是分析师的首要能力？

1. 数据分类的核心价值

对数据分析师而言，数据分类的价值远不止“分组命名”，而是直接驱动方法选择、工具选型、分析路径规划的三个关键层面。

价值层面	具体体现	CDA工作场景示例
决定分析工具和方法	不同数据类型选择不同的分析工具与统计方法	结构化数据→用SQL+BI工具；非结构化数据→用Python(NLTK)或Excel文本函数做词频分析
决定统计方法的选择	变量类型决定后续统计方法的适用性	分类变量→卡方检验、频数分析；数值变量→均值比较、t检验
影响数据清洗与预处理	不同数据类型涉及不同的清洗方法与预处理逻辑	数值型→异常值检测；文本型→编码统一、去空格、标点规范化

2. 理解“数据—信息—知识”的递进链条

在数据分类的深层认知中，“数据—信息—知识”的递进链条是CDA考纲中的重要一环。数据是原始的、未经加工的事实与符号，如“35℃”；信息是通过组织和解读后赋予数据意义的内容，如“某城市今日最高气温35℃，超过历史同期平均值”；知识则是在信息的基础上提炼出的抽象规律和行动逻辑，如“每年6-8月该城市连续高温，需要提前备好防暑物资并进行冰品调货”。

这一递进逻辑为数据分析师从“原始数据”到“商业洞察”提供了理论支撑。在数据分类的过程中，只有先厘清原始数据所属的“类别属性”，后期才能顺畅地转化为高质量信息和可落地的知识。

二、数据分类的三大核心维度与辨析

“数据分类”从三个维度展开知识框架：按计量尺度分类（最基础、最重要的维度）、按时间状况分类（截面数据 vs 时间序列数据）和按数据结构分类（结构化数据 vs 非结构化数据）。

（一）按计量尺度分类：从定性到定量的“度量阶梯”

在数据的计量尺度层面上，统计学将数据划分为三个递进的层级。从低到高，信息量逐渐丰富，可应用的分析方法逐层增多。如果从数据级别的高低进行分类，排序应该是 数值数据 > 顺序数据 > 分类数据——数值数据位于最高级，因为它可以转换为低级数据类型来使用，但低级数据（分类数据或顺序数据）不能转换成数值数据使用。这一排序原则贯穿数据分析方法选择的始终。

计量层级	定义	典型示例	适用统计方法	辨析提醒
分类数据（Nominal Data）	最低层级，仅区分类别，无大小、顺序关系	性别、颜色、品牌、城市	频数分析、百分比、卡方检验	不能计算均值，“男”和“女”的平均值没有意义
顺序数据（Ordinal Data）	中间层级，既分类又分等级，但差值不等距	教育程度、满意度等级、成绩等级（A/B/C/D）	中位数、百分位数、秩和检验	不能进行加减运算
数值数据（Numerical Data）	最高层级，可进行算术运算	年龄、收入、温度、身高	均值、方差、t检验、回归分析	分为离散（整数）和连续（含小数）

数值数据的进一步分类：在CDA考试中，数值数据可进一步细分为离散数据（Discrete Data） ——只能取整数值，如订单数量、用户年龄；以及连续数据（Continuous Data） ——可取任何值，如身高1.75米、温度24.5℃。

顺序数据的特殊辨析：在CDA考试与日常分析中，最常见的一个易错点是成绩等级。例如，“成绩”本身属于数值变量（如95分、80分），但如果将其划分为A/B/C/D等级，则属于顺序数据——因为A、B、C、D之间有明确的等级优劣关系（A > B > C > D），但A与B之间的“差值”与B与C之间的“差值”未必相等，不能做加减法运算。

CDA高频考点——变量类型的陷阱题：在CDA的官方模拟题库中，曾有一道题要求判断“加湿器型号（A、B、C、D、E）属于以下哪种数据类型”，正确答案是“分类数据”——型号是字母标签，可以相互换位，没有顺序含义，不能进行数学运算。

从数据级别的高低排序而言： “数值数据 > 顺序数据 > 分类数据” ，是必会的基本判断标准。

（二）按时间状况分类：静态快照 vs 动态记录

数据按时间状况划分，可以分为截面数据与时间序列数据两类。

截面数据（Cross-sectional Data） ：在同一时间点或时间段内，采集多个个体（如用户、门店、产品等）的数据，如同一时刻的截面“快照”。典型场景包括：某日全国各城市的天气数据；某月多个门店的月度销售额统计；同一时点上多个用户的资产信息。截面数据是横截面“冻结”瞬间的水平。
时间序列数据（Time Series Data） ：按时间顺序排列的数据点。截面数据注重“横向比较”不同个体之间的表现；时间序列数据则注重“纵向观察”同一指标随时间变化的规律。

这一维度的分类直接影响了CDA分析路径的选择：时间序列问题需用趋势分析、季节性分析方法；而同类截面问题则常用横向对比回归分析或聚类分析。

（三）按数据结构分类：关系表格 vs 无规则信息

数据按数据结构划分，可分为结构化数据与非结构化数据。

结构化数据：遵循固定数据结构、以行列形式组织的数据，适用于传统的关系数据库（如Mysql、Oracle）进行处理，容易使用SQL查询和汇总。例如，EXCEL中“订单表”“用户表”是典型的结构化数据——每一列有固定的字段标题（订单ID、金额、日期），每一行代表一条规范记录。结构化数据的核心特征是可以无缝接入BI工具并在Power BI或Tableau中进行建模型和可视化。
非结构化数据：没有预定义结构的数据，格式多样，难以直接适配标准数据库二维表形式。例如，文本文档、产品评价文本、客服录音、社交媒体评论、图片与视频。这类数据不轻易“塞进表里”，需要专门的ETL工序提取有效信息。

分析师的核心工作，是为非结构化数据铺就一条通往结构化格式的“桥梁”——例如，从客户评价文本中抽取出“评价得分+关键词标签”，转化为可透视分析的结构化表格。非结构化数据的价值挖掘是当前数字化转型的重点领域，也是CDA业务能力的重要体现。

工作流关系：业务系统（结构化数据）→ ETL → 数仓（结构化数据）→ BI工具；平台日志/客服留言（非结构化数据）→ NLP或文本解析 → 转为结构化字段 → 进入数据分析流程。

三、CDA视角下数据分类的实战应用

场景一：分类数据与顺序数据的“误用警告”

某电商平台曾做过一次“产品满意度调研”，满意度评分设为一到三级（不满意、一般、满意）。研发部把三级满意度编码为数字（1=不满意，2=一般，3=满意），然后对所有调查者的评分求均值——得出平均满意值2.3分，并认为“满意度中等偏上”。

这种处理方式犯了将顺序数据当数值数据处理的根本错误。将“不满意”“一般”“满意”当成数值1、2、3，求得的“均值2.3分”在统计学上毫无意义——因为“1到2”与“2到3”之间的距离在心理体验上不是等距的。正确的做法是采用频数分析或中位数等描述方法，而不是计算算术平均数。

场景二：截面数据 vs 时间序列数据的工具选择

某连锁超市的CDA分析师接到两个任务：任务A——“比较各门店今年10月的销售额，找出前三名门店”；任务B——“预测明年1月全平台总销售额”。

任务A属于截面数据的比较场景——所有门店的数据采集于同一个月度区间。适合用BI工具制作横向对比的柱状图，快速定位差距。
任务B属于时间序列数据的预测场景——必须分析历史月度数据的变化趋势和季节性规律，选择Excel Forecast.ETS函数、Python ARIMA模型或PowerBI内置预测工具完成。

场景三：结构化 vs 非结构化数据的协同处理

某家电厂商的售后服务部门每年收到近500万条客户文字反馈（非结构化），同时积累了一张“工单记录表”——表格中包含工单编号、受理日期、所属区域、服务评分等结构化字段。CDA分析师需要探索“负面评价频繁爆发”的规律。

第一步：使用NLP工具对反馈文本进行情感评分（负向/中性/正向），并将评分写入一张新表中，实现结构化提取。

第二步：将情感评分表与已有结构化工单表通过“受理日期/工单编号”关联，形成分析宽表。

第三步：从宽表中透视“各区域负面评价占比”“常见负面词TOP10”等，定位售后服务短板。


这就是分析师在多元数据协同中的典型思路——先按数据结构分类，再有针对性地设计处理路径。
”

四、实战演练：从一份“混合业务数据”完成完整的数据分类

背景

某母婴电商平台的数据团队收到了三批数据：

数据源A：近6个月的“订单明细”（Excel格式，字段：订单ID、下单日期、用户ID、订单金额、是否新客）。
数据源B：人工客服热线录音文件（非结构化）。
数据源C：社交App上的“妈妈社群”聊天内容文本（非结构化）。

完整的数据分类与处理流程

第1步——按数据结构分类

A→结构化数据，可直接进入SQL或BI工具。
B和C→非结构化数据，需先进行“结构化提取”——将录音文本ASR转录为文字，并进行感情标签打分；对社群聊天内容进行词频统计、建立情感分类字段。

第2步——按计量层级标注各个字段的数据类型 订单明细表中的字段：

字段	计量层级	适用统计方法
订单ID	分类数据	计数，不能用于计算
订单金额	数值数据	均值、总和、同比
是否新客	分类数据（两类互斥）	频数分析

第3步——判断按时间状况归属 若分析目标是“订单量的月度趋势”，该场景属于时间序列数据分析；若分析目标是“不同类别会员的消费差异”，属于截面数据跨个体比较。

第4步——路径决策

对结构化来源A做数据清洗，多表关联宽表。
将非结构化源B和C通过NLP提取生成情绪分数/关键词标签后，转化为结构化辅助表，与A表关联以拓宽分析视角。
最终输出“各品类各时段负面评价集中度变化”和“建议重点售后跟进产品”等分析结论。

结尾

很多数据分析师会计算平均值、会做柱状图，但当被问到“这批数据是分类数据还是数值数据”“是顺序数据还是连续数据”“数据级别的高低如何排序”时，却答不上来。

看懂数据形态是基础，通过数据分类精准判断后续分析方法，才是CDA分析师专业力的体现。

2025年新考纲在“数据模型”部分新增了“数据分类”模块并强调结构化与非结构化数据的协同处理，这一调整释放了强烈的信号：数据分析师不能只依赖固定格式的Excel，而应当建立起“面对陌生数据快速分类、规划处理路径”的能力闭环。分类数据、顺序数据、数值数据的层层递进，是连接原始数据与科学分析模型的桥梁，也是CDA数据分析师从“操作层面”走向“设计层面”的重要分水岭。

PART 12“数据模型”作为连接数据结构与商业分析逻辑的桥梁，将“数据分类”置于顶层，旨在帮助CDA数据分析师建立“数据驱动业务”的体系化思维——对每一批陌生数据都先“断准类型”，后续的分析动作才能从容不迫。

下一步行动：