热线电话:13121318867

登录
首页大数据时代从“杂乱信号”到“有序资产”:CDA数据分析师视角下的数据分类
从“杂乱信号”到“有序资产”:CDA数据分析师视角下的数据分类
2026-06-04
收藏

很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量?各适合使用哪种统计分析方法”时,却常常语塞。其实,数据分类是数据分析的“第一道工序”。如果把分析比作烹饪,数据分类就是“认识食材”——分不清是蔬菜还是肉类、是生冷还是熟食,后续的刀工与火候都是无用功。

引言:为什么“数据分类”是数据分析的第一课?

小林刚刚入职了一家物流科技公司的数据分析团队。第一天,主管扔给他三批数据:一批是EXCEL格式的订单明细表,结构规整、行清列楚;一批是官网客户留言的TXT文本文档,格式杂乱、长短不一;第三批则是服务器上的访问日志,密密麻麻的字符,需要专门的工具才能提取。主管说:“这三批数据需要结合分析,从订单异常中定位是否存在服务质量问题,你按数据分类规划一下处理路径。”

小林盯着这些格式差异巨大的数据,一时竟不知从何下手。这一问题,正是数据分析师从“会操作EXCEL”到“能驾驭多元化数据资产”的第一次能力跨越。

本文将从CDA认证的知识体系出发,系统拆解数据分类多维框架、各维度的核心要点与辨析技巧,帮助你在数据源头就建立“第一性原理”般的清晰框架。

一、为什么数据分类是分析师的首要能力?

1. 数据分类的核心价值

对数据分析师而言,数据分类的价值远不止“分组命名”,而是直接驱动方法选择、工具选型、分析路径规划的三个关键层面。

价值层面 具体体现 CDA工作场景示例
决定分析工具和方法 不同数据类型选择不同的分析工具与统计方法 结构化数据→用SQL+BI工具;非结构化数据→用Python(NLTK)或Excel文本函数做词频分析
决定统计方法的选择 变量类型决定后续统计方法的适用性 分类变量→卡方检验、频数分析;数值变量→均值比较、t检验
影响数据清洗与预处理 不同数据类型涉及不同的清洗方法与预处理逻辑 数值型→异常值检测;文本型→编码统一、去空格、标点规范化

2. 理解“数据—信息—知识”的递进链条

数据分类的深层认知中,“数据—信息—知识”的递进链条是CDA考纲中的重要一环。数据是原始的、未经加工的事实与符号,如“35℃”;信息是通过组织和解读后赋予数据意义的内容,如“某城市今日最高气温35℃,超过历史同期平均值”;知识则是在信息的基础上提炼出的抽象规律和行动逻辑,如“每年6-8月该城市连续高温,需要提前备好防暑物资并进行冰品调货”。

这一递进逻辑为数据分析师从“原始数据”到“商业洞察”提供了理论支撑。在数据分类的过程中,只有先厘清原始数据所属的“类别属性”,后期才能顺畅地转化为高质量信息和可落地的知识。

二、数据分类的三大核心维度与辨析

数据分类”从三个维度展开知识框架:按计量尺度分类(最基础、最重要的维度)、按时间状况分类(截面数据 vs 时间序列数据)和数据结构分类(结构化数据 vs 非结构化数据)。

(一)按计量尺度分类:从定性到定量的“度量阶梯”

在数据的计量尺度层面上,统计学将数据划分为三个递进的层级。从低到高,信息量逐渐丰富,可应用的分析方法逐层增多。如果从数据级别的高低进行分类,排序应该是 数值数据 > 顺序数据 > 分类数据——数值数据位于最高级,因为它可以转换为低级数据类型来使用,但低级数据(分类数据或顺序数据)不能转换成数值数据使用。这一排序原则贯穿数据分析方法选择的始终。

计量层级 定义 典型示例 适用统计方法 辨析提醒
分类数据(Nominal Data) 最低层级,仅区分类别,无大小、顺序关系 性别、颜色、品牌、城市 频数分析、百分比、卡方检验 不能计算均值,“男”和“女”的平均值没有意义
顺序数据(Ordinal Data) 中间层级,既分类又分等级,但差值不等距 教育程度、满意度等级、成绩等级(A/B/C/D) 中位数、百分位数、秩和检验 不能进行加减运算
数值数据(Numerical Data) 最高层级,可进行算术运算 年龄、收入、温度、身高 均值、方差、t检验、回归分析 分为离散(整数)和连续(含小数)

数值数据的进一步分类:在CDA考试中,数值数据可进一步细分为离散数据(Discrete Data) ——只能取整数值,如订单数量、用户年龄;以及连续数据(Continuous Data) ——可取任何值,如身高1.75米、温度24.5℃。

顺序数据的特殊辨析:在CDA考试与日常分析中,最常见的一个易错点是成绩等级。例如,“成绩”本身属于数值变量(如95分、80分),但如果将其划分为A/B/C/D等级,则属于顺序数据——因为A、B、C、D之间有明确的等级优劣关系(A > B > C > D),但A与B之间的“差值”与B与C之间的“差值”未必相等,不能做加减法运算。

CDA高频考点——变量类型的陷阱题:在CDA的官方模拟题库中,曾有一道题要求判断“加湿器型号(A、B、C、D、E)属于以下哪种数据类型”,正确答案是“分类数据”——型号是字母标签,可以相互换位,没有顺序含义,不能进行数学运算。

从数据级别的高低排序而言: “数值数据 > 顺序数据 > 分类数据” ,是必会的基本判断标准。

(二)按时间状况分类:静态快照 vs 动态记录

数据按时间状况划分,可以分为截面数据时间序列数据两类。

  • 截面数据(Cross-sectional Data) :在同一时间点或时间段内,采集多个个体(如用户、门店、产品等)的数据,如同一时刻的截面“快照”。典型场景包括:某日全国各城市的天气数据;某月多个门店的月度销售额统计;同一时点上多个用户的资产信息。截面数据是横截面“冻结”瞬间的水平。

  • 时间序列数据(Time Series Data) :按时间顺序排列的数据点。截面数据注重“横向比较”不同个体之间的表现;时间序列数据则注重“纵向观察”同一指标随时间变化的规律。

这一维度的分类直接影响了CDA分析路径的选择:时间序列问题需用趋势分析、季节性分析方法;而同类截面问题则常用横向对比回归分析聚类分析。

(三)按数据结构分类:关系表格 vs 无规则信息

数据按数据结构划分,可分为结构化数据非结构化数据

  • 结构化数据:遵循固定数据结构、以行列形式组织的数据,适用于传统的关系数据库(如Mysql、Oracle)进行处理,容易使用SQL查询和汇总。例如,EXCEL中“订单表”“用户表”是典型的结构化数据——每一列有固定的字段标题(订单ID、金额、日期),每一行代表一条规范记录。结构化数据的核心特征可以无缝接入BI工具并在Power BI或Tableau中进行建模型和可视化

  • 非结构化数据:没有预定义结构的数据,格式多样,难以直接适配标准数据库二维表形式。例如,文本文档、产品评价文本、客服录音、社交媒体评论、图片与视频。这类数据不轻易“塞进表里”,需要专门的ETL工序提取有效信息。

分析师的核心工作,是为非结构化数据铺就一条通往结构化格式的“桥梁”——例如,从客户评价文本中抽取出“评价得分+关键词标签”,转化为可透视分析的结构化表格。非结构化数据的价值挖掘是当前数字化转型的重点领域,也是CDA业务能力的重要体现。

工作流关系:业务系统(结构化数据)→ ETL → 数仓(结构化数据)→ BI工具;平台日志/客服留言(非结构化数据)→ NLP或文本解析 → 转为结构化字段 → 进入数据分析流程

三、CDA视角下数据分类的实战应用

场景一:分类数据与顺序数据的“误用警告”

某电商平台曾做过一次“产品满意度调研”,满意度评分设为一到三级(不满意、一般、满意)。研发部把三级满意度编码为数字(1=不满意,2=一般,3=满意),然后对所有调查者的评分求均值——得出平均满意值2.3分,并认为“满意度中等偏上”。

这种处理方式犯了将顺序数据当数值数据处理的根本错误。将“不满意”“一般”“满意”当成数值1、2、3,求得的“均值2.3分”在统计学上毫无意义——因为“1到2”与“2到3”之间的距离在心理体验上不是等距的。正确的做法是采用频数分析或中位数等描述方法,而不是计算算术平均数。

场景二:截面数据 vs 时间序列数据的工具选择

某连锁超市的CDA分析师接到两个任务:任务A——“比较各门店今年10月的销售额,找出前三名门店”;任务B——“预测明年1月全平台总销售额”。

  • 任务A属于截面数据的比较场景——所有门店的数据采集于同一个月度区间。适合用BI工具制作横向对比的柱状图,快速定位差距。
  • 任务B属于时间序列数据的预测场景——必须分析历史月度数据的变化趋势和季节性规律,选择Excel Forecast.ETS函数、Python ARIMA模型或PowerBI内置预测工具完成。

场景三:结构化 vs 非结构化数据的协同处理

某家电厂商的售后服务部门每年收到近500万条客户文字反馈(非结构化),同时积累了一张“工单记录表”——表格中包含工单编号、受理日期、所属区域、服务评分等结构化字段。CDA分析师需要探索“负面评价频繁爆发”的规律。

第一步:使用NLP工具对反馈文本进行情感评分(负向/中性/正向),并将评分写入一张新表中,实现结构化提取。

第二步:将情感评分表与已有结构化工单表通过“受理日期/工单编号”关联,形成分析宽表。

第三步:从宽表中透视“各区域负面评价占比”“常见负面词TOP10”等,定位售后服务短板。

这就是分析师在多元数据协同中的典型思路——先按数据结构分类,再有针对性地设计处理路径

四、实战演练:从一份“混合业务数据”完成完整的数据分类

背景

某母婴电商平台的数据团队收到了三批数据:

  • 数据源A:近6个月的“订单明细”(Excel格式,字段:订单ID、下单日期、用户ID、订单金额、是否新客)。
  • 数据源B:人工客服热线录音文件(非结构化)。
  • 数据源C:社交App上的“妈妈社群”聊天内容文本(非结构化)。

完整的数据分类与处理流程

第1步——按数据结构分类

  • A→结构化数据,可直接进入SQL或BI工具。
  • B和C→非结构化数据,需先进行“结构化提取”——将录音文本ASR转录为文字,并进行感情标签打分;对社群聊天内容进行词频统计、建立情感分类字段

第2步——按计量层级标注各个字段数据类型 订单明细表中的字段

字段 计量层级 适用统计方法
订单ID 分类数据 计数,不能用于计算
订单金额 数值数据 均值、总和、同比
是否新客 分类数据(两类互斥) 频数分析

第3步——判断按时间状况归属 若分析目标是“订单量的月度趋势”,该场景属于时间序列数据分析;若分析目标是“不同类别会员的消费差异”,属于截面数据跨个体比较。

第4步——路径决策

  • 结构化来源A做数据清洗,多表关联宽表。
  • 非结构化源B和C通过NLP提取生成情绪分数/关键词标签后,转化为结构化辅助表,与A表关联以拓宽分析视角。
  • 最终输出“各品类各时段负面评价集中度变化”和“建议重点售后跟进产品”等分析结论。

结尾

很多数据分析师会计算平均值、会做柱状图,但当被问到“这批数据是分类数据还是数值数据”“是顺序数据还是连续数据”“数据级别的高低如何排序”时,却答不上来。

看懂数据形态是基础,通过数据分类精准判断后续分析方法,才是CDA分析师专业力的体现。

2025年新考纲在“数据模型”部分新增了“数据分类”模块并强调结构化与非结构化数据的协同处理,这一调整释放了强烈的信号:数据分析师不能只依赖固定格式的Excel,而应当建立起“面对陌生数据快速分类、规划处理路径”的能力闭环。分类数据、顺序数据、数值数据的层层递进,是连接原始数据与科学分析模型的桥梁,也是CDA数据分析师从“操作层面”走向“设计层面”的重要分水岭。

PART 12“数据模型”作为连接数据结构商业分析逻辑的桥梁,将“数据分类”置于顶层,旨在帮助CDA数据分析师建立“数据驱动业务”的体系化思维——对每一批陌生数据都先“断准类型”,后续的分析动作才能从容不迫。

下一步行动

  1. 回顾手边任意一份数据表格,标记出每一列的数据类型(分类/顺序/数值)以及可能的计量层级
  2. 练习将一批非结构化数据(如产品评价文本、社媒评论)通过简单的情感标注转化为带标签的结构化数据
  3. 判断手中的业务数据集属于截面数据还是时间序列数据,并匹配对应的分析方法

数据分类是数据分析师认识数据的“坐标系”,精准定位分类,让后续分析路径从“盲目摸索”变为“精准导航”。

图文含有广告内容

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

数据分析师资讯
更多

OK
客服在线
立即咨询
客服在线
立即咨询