京公网安备 11010802034615号
经营许可证编号:京B2-20210330
很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量?各适合使用哪种统计分析方法”时,却常常语塞。其实,数据分类是数据分析的“第一道工序”。如果把分析比作烹饪,数据分类就是“认识食材”——分不清是蔬菜还是肉类、是生冷还是熟食,后续的刀工与火候都是无用功。
”
小林刚刚入职了一家物流科技公司的数据分析团队。第一天,主管扔给他三批数据:一批是EXCEL格式的订单明细表,结构规整、行清列楚;一批是官网客户留言的TXT文本文档,格式杂乱、长短不一;第三批则是服务器上的访问日志,密密麻麻的字符,需要专门的工具才能提取。主管说:“这三批数据需要结合分析,从订单异常中定位是否存在服务质量问题,你按数据分类规划一下处理路径。”
小林盯着这些格式差异巨大的数据,一时竟不知从何下手。这一问题,正是数据分析师从“会操作EXCEL”到“能驾驭多元化数据资产”的第一次能力跨越。
本文将从CDA认证的知识体系出发,系统拆解数据分类的多维框架、各维度的核心要点与辨析技巧,帮助你在数据源头就建立“第一性原理”般的清晰框架。
对数据分析师而言,数据分类的价值远不止“分组命名”,而是直接驱动方法选择、工具选型、分析路径规划的三个关键层面。
| 价值层面 | 具体体现 | CDA工作场景示例 |
|---|---|---|
| 决定分析工具和方法 | 不同数据类型选择不同的分析工具与统计方法 | 结构化数据→用SQL+BI工具;非结构化数据→用Python(NLTK)或Excel文本函数做词频分析 |
| 决定统计方法的选择 | 变量类型决定后续统计方法的适用性 | 分类变量→卡方检验、频数分析;数值变量→均值比较、t检验 |
| 影响数据清洗与预处理 | 不同数据类型涉及不同的清洗方法与预处理逻辑 | 数值型→异常值检测;文本型→编码统一、去空格、标点规范化 |
在数据分类的深层认知中,“数据—信息—知识”的递进链条是CDA考纲中的重要一环。数据是原始的、未经加工的事实与符号,如“35℃”;信息是通过组织和解读后赋予数据意义的内容,如“某城市今日最高气温35℃,超过历史同期平均值”;知识则是在信息的基础上提炼出的抽象规律和行动逻辑,如“每年6-8月该城市连续高温,需要提前备好防暑物资并进行冰品调货”。
这一递进逻辑为数据分析师从“原始数据”到“商业洞察”提供了理论支撑。在数据分类的过程中,只有先厘清原始数据所属的“类别属性”,后期才能顺畅地转化为高质量信息和可落地的知识。
“数据分类”从三个维度展开知识框架:按计量尺度分类(最基础、最重要的维度)、按时间状况分类(截面数据 vs 时间序列数据)和按数据结构分类(结构化数据 vs 非结构化数据)。
在数据的计量尺度层面上,统计学将数据划分为三个递进的层级。从低到高,信息量逐渐丰富,可应用的分析方法逐层增多。如果从数据级别的高低进行分类,排序应该是 数值数据 > 顺序数据 > 分类数据——数值数据位于最高级,因为它可以转换为低级数据类型来使用,但低级数据(分类数据或顺序数据)不能转换成数值数据使用。这一排序原则贯穿数据分析方法选择的始终。
| 计量层级 | 定义 | 典型示例 | 适用统计方法 | 辨析提醒 |
|---|---|---|---|---|
| 分类数据(Nominal Data) | 最低层级,仅区分类别,无大小、顺序关系 | 性别、颜色、品牌、城市 | 频数分析、百分比、卡方检验 | 不能计算均值,“男”和“女”的平均值没有意义 |
| 顺序数据(Ordinal Data) | 中间层级,既分类又分等级,但差值不等距 | 教育程度、满意度等级、成绩等级(A/B/C/D) | 中位数、百分位数、秩和检验 | 不能进行加减运算 |
| 数值数据(Numerical Data) | 最高层级,可进行算术运算 | 年龄、收入、温度、身高 | 均值、方差、t检验、回归分析 | 分为离散(整数)和连续(含小数) |
数值数据的进一步分类:在CDA考试中,数值数据可进一步细分为离散数据(Discrete Data) ——只能取整数值,如订单数量、用户年龄;以及连续数据(Continuous Data) ——可取任何值,如身高1.75米、温度24.5℃。
顺序数据的特殊辨析:在CDA考试与日常分析中,最常见的一个易错点是成绩等级。例如,“成绩”本身属于数值变量(如95分、80分),但如果将其划分为A/B/C/D等级,则属于顺序数据——因为A、B、C、D之间有明确的等级优劣关系(A > B > C > D),但A与B之间的“差值”与B与C之间的“差值”未必相等,不能做加减法运算。
CDA高频考点——变量类型的陷阱题:在CDA的官方模拟题库中,曾有一道题要求判断“加湿器型号(A、B、C、D、E)属于以下哪种数据类型”,正确答案是“分类数据”——型号是字母标签,可以相互换位,没有顺序含义,不能进行数学运算。
从数据级别的高低排序而言: “数值数据 > 顺序数据 > 分类数据” ,是必会的基本判断标准。
数据按时间状况划分,可以分为截面数据与时间序列数据两类。
截面数据(Cross-sectional Data) :在同一时间点或时间段内,采集多个个体(如用户、门店、产品等)的数据,如同一时刻的截面“快照”。典型场景包括:某日全国各城市的天气数据;某月多个门店的月度销售额统计;同一时点上多个用户的资产信息。截面数据是横截面“冻结”瞬间的水平。
时间序列数据(Time Series Data) :按时间顺序排列的数据点。截面数据注重“横向比较”不同个体之间的表现;时间序列数据则注重“纵向观察”同一指标随时间变化的规律。
这一维度的分类直接影响了CDA分析路径的选择:时间序列问题需用趋势分析、季节性分析方法;而同类截面问题则常用横向对比回归分析或聚类分析。
数据按数据结构划分,可分为结构化数据与非结构化数据。
结构化数据:遵循固定数据结构、以行列形式组织的数据,适用于传统的关系数据库(如Mysql、Oracle)进行处理,容易使用SQL查询和汇总。例如,EXCEL中“订单表”“用户表”是典型的结构化数据——每一列有固定的字段标题(订单ID、金额、日期),每一行代表一条规范记录。结构化数据的核心特征是可以无缝接入BI工具并在Power BI或Tableau中进行建模型和可视化。
非结构化数据:没有预定义结构的数据,格式多样,难以直接适配标准数据库二维表形式。例如,文本文档、产品评价文本、客服录音、社交媒体评论、图片与视频。这类数据不轻易“塞进表里”,需要专门的ETL工序提取有效信息。
分析师的核心工作,是为非结构化数据铺就一条通往结构化格式的“桥梁”——例如,从客户评价文本中抽取出“评价得分+关键词标签”,转化为可透视分析的结构化表格。非结构化数据的价值挖掘是当前数字化转型的重点领域,也是CDA业务能力的重要体现。
工作流关系:业务系统(结构化数据)→ ETL → 数仓(结构化数据)→ BI工具;平台日志/客服留言(非结构化数据)→ NLP或文本解析 → 转为结构化字段 → 进入数据分析流程。
某电商平台曾做过一次“产品满意度调研”,满意度评分设为一到三级(不满意、一般、满意)。研发部把三级满意度编码为数字(1=不满意,2=一般,3=满意),然后对所有调查者的评分求均值——得出平均满意值2.3分,并认为“满意度中等偏上”。
这种处理方式犯了将顺序数据当数值数据处理的根本错误。将“不满意”“一般”“满意”当成数值1、2、3,求得的“均值2.3分”在统计学上毫无意义——因为“1到2”与“2到3”之间的距离在心理体验上不是等距的。正确的做法是采用频数分析或中位数等描述方法,而不是计算算术平均数。
某连锁超市的CDA分析师接到两个任务:任务A——“比较各门店今年10月的销售额,找出前三名门店”;任务B——“预测明年1月全平台总销售额”。
某家电厂商的售后服务部门每年收到近500万条客户文字反馈(非结构化),同时积累了一张“工单记录表”——表格中包含工单编号、受理日期、所属区域、服务评分等结构化字段。CDA分析师需要探索“负面评价频繁爆发”的规律。
第一步:使用NLP工具对反馈文本进行情感评分(负向/中性/正向),并将评分写入一张新表中,实现结构化提取。
第二步:将情感评分表与已有结构化工单表通过“受理日期/工单编号”关联,形成分析宽表。
第三步:从宽表中透视“各区域负面评价占比”“常见负面词TOP10”等,定位售后服务短板。
这就是分析师在多元数据协同中的典型思路——先按数据结构分类,再有针对性地设计处理路径。
”
某母婴电商平台的数据团队收到了三批数据:
第1步——按数据结构分类
第2步——按计量层级标注各个字段的数据类型 订单明细表中的字段:
| 字段 | 计量层级 | 适用统计方法 |
|---|---|---|
| 订单ID | 分类数据 | 计数,不能用于计算 |
| 订单金额 | 数值数据 | 均值、总和、同比 |
| 是否新客 | 分类数据(两类互斥) | 频数分析 |
第3步——判断按时间状况归属 若分析目标是“订单量的月度趋势”,该场景属于时间序列数据分析;若分析目标是“不同类别会员的消费差异”,属于截面数据跨个体比较。
第4步——路径决策
很多数据分析师会计算平均值、会做柱状图,但当被问到“这批数据是分类数据还是数值数据”“是顺序数据还是连续数据”“数据级别的高低如何排序”时,却答不上来。
看懂数据形态是基础,通过数据分类精准判断后续分析方法,才是CDA分析师专业力的体现。
2025年新考纲在“数据模型”部分新增了“数据分类”模块并强调结构化与非结构化数据的协同处理,这一调整释放了强烈的信号:数据分析师不能只依赖固定格式的Excel,而应当建立起“面对陌生数据快速分类、规划处理路径”的能力闭环。分类数据、顺序数据、数值数据的层层递进,是连接原始数据与科学分析模型的桥梁,也是CDA数据分析师从“操作层面”走向“设计层面”的重要分水岭。
PART 12“数据模型”作为连接数据结构与商业分析逻辑的桥梁,将“数据分类”置于顶层,旨在帮助CDA数据分析师建立“数据驱动业务”的体系化思维——对每一批陌生数据都先“断准类型”,后续的分析动作才能从容不迫。
下一步行动:
数据分类是数据分析师认识数据的“坐标系”,精准定位分类,让后续分析路径从“盲目摸索”变为“精准导航”。
”
图文含有广告内容

任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04 很多数据分析师拿到数据就开始清洗、建模,但当被问到“这批数据属于什么类型——结构化还是非结构化?分类变量还是数值变量 ...
2026-06-04在问卷调查与社会科学数据分析中,卡方检验是最常用、最基础的非参数检验方法,广泛应用于市场调研、用户分析、行为统计、满意度 ...
2026-06-03【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-03 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-06-03逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27