京公网安备 11010802034615号
经营许可证编号:京B2-20210330
很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系”时,却常常答不上来。在企业的真实工作场景中,数据从来不是从天而降的Excel文件,而是存储在各类数据库中的结构化信息。掌握数据库的核心概念,是数据分析师从“会处理数据”走向“会获取数据”的关键一步。
”
小林入职了一家互联网公司的数据分析团队。第一天,主管让他“提取近三个月电商业务数据库中的订单明细数据”。小林打开数据库工具,面对那一排排陌生的表名和字段名,他发现自己“会用Excel分析数据”,却“不知道怎么把数据从数据库里弄出来”。经过半小时的手忙脚乱,他终于导出了一张Excel表,打开一看:订单金额是负数,日期格式乱七八糟,还缺了关键的“商品类别”字段。主管看了一眼,皱起了眉头——这不是小林第一次在这个问题上“栽跟头”了。
这不是小林的错,而是大多数数据新人的共同困境——数据分析技能和数据库基础知识之间存在断层。在企业环境中,数据资产几乎都沉淀在数据库中,而非现成的Excel文件。数据分析师日常工作面临的两个基础挑战,都与数据库知识息息相关:数据怎么取以及数据怎么用。
数据库(Database)的本质是“按一定结构组织、存储和管理数据的系统”。数据库是整个企业数据资产的“大本营”,也是CDA分析师工作的“起点”。
概括来说,数据库,就是你的各种业务数据的“大仓库” 。在实际工作中,最常用的几类数据库包括:
数据库(Database)是存储数据的“大仓库”,而数据表(Table)则是仓库中分类存放数据的“货架”。它们是“整体与局部”的关系。
数据库通常按业务线划分,如“电商业务数据库”“金融信贷数据库”,以避免数据混乱。分析师在工作中,首先需明确分析目标对应的数据库——比如分析电商用户满意度,就需进入“电商业务数据库”。在电商数据库中,会包含“用户表”(存储用户信息)、“订单表”(存储订单数据)、“商品表”(存储商品信息)、“物流表”(存储配送数据)等多个表格,每个表都围绕一个业务对象设计。
数据表由字段和记录组成,这是分析师接触数据的“最小颗粒度”。
| 概念 | 定义解析 | CDA实操价值 |
|---|---|---|
| 字段 | 数据表的列,代表数据的属性,如订单表的“订单ID”“订单金额” | 指标计算的基础,如“客单价”需提取“订单金额”字段计算 |
| 记录 | 数据表的行,代表一条完整的业务数据,如一条订单记录 | 数据筛选的对象,如筛选“2024年1月下单的订单记录” |
| 主键 | 数据表中唯一标识一条记录的字段,如“订单ID” | 关联多表数据的“桥梁”,如通过“用户ID”关联用户表和订单表 |
理解主键的作用是至关重要的。在企业级数据模型中,主键是确保数据准确定位、多表间数据“不混淆”的依据。每当分析师需要分解“用户画像”或计算“复购率”时,都需要依赖主键将多个表进行横向关联。
企业的业务数据以“表”的形式保存,但日常分析中还有一个高频衍生物——视图(View)。它们都是数据库的核心对象,但与Excel打开的一张张Sheet不同,它们各有各的用法和特征。
数据表是数据库中用于物理存储数据的实体结构,相当于“数据档案柜”。所有原始数据或经过处理的核心数据都以表的形式持久化存储。其核心特征是占用物理存储空间、数据独立存在、可直接修改数据内容。
创建表的核心价值体现在三个方面:一是固化高频使用的中间数据,避免重复处理原始数据;二是规范数据结构,将杂乱的原始数据整理为符合分析需求的格式;三是实现数据共享,为团队提供统一的分析数据来源。
视图是基于一个或多个表的查询结果构建的虚拟表,本身不存储数据,仅保存查询逻辑,相当于“数据的动态窗口”——每次访问视图时,数据库会重新执行其关联的查询逻辑,返回最新数据。视图的三大核心价值——简化复杂查询、隐藏数据细节、确保数据一致性——都能直接为数据分析工作提供便利。
| 对比维度 | 数据表 | 视图 | CDA选择建议 |
|---|---|---|---|
| 数据存储 | 物理存储数据,占用空间 | 仅存查询逻辑,不存数据 | 高频复用且数据稳定→表;实时性要求高→视图 |
| 数据更新 | 可直接增删改查 | 依赖源表更新,仅能通过源表修改 | 需修改数据→表;仅需查询→视图 |
| 查询效率 | 直接读取数据,效率高 | 每次访问需执行查询 | 大数据量分析→表;简单查询或实时数据→视图 |
| 使用场景 | 中间数据固化、数据共享 | 复杂查询简化、数据权限控制 | 长期分析项目→表;临时查询或多场景复用→视图 |
SQL(结构化查询语言) 是操作数据库的标准语言。在CDA的考试指导中,非常明确地将SQL定位为数据分析师的工具,而非普通的IT开发工具。
1. SELECT与FROM:指定查询范围
数据分析的第一步永远是“从哪张表中选择哪些数据”。语法为SELECT 列名1, 列名2 FROM 表名。
在实际业务中,可以通过为表设置别名来简化复杂的查询。例如:SELECT o.订单金额 FROM 订单表 o。理解SQL语句的执⾏顺序(FROM → JOIN → WHERE → GROUP BY → HAVING → SELECT → ORDER BY → LIMIT)对于写出正确的复杂查询至关重要。例如,列别名是在WHERE子句执行之后才生效的,因此WHERE子句中不能直接使用列别名。
2. WHERE与DISTINCT:数据筛选与去重
WHERE子句用于从FROM列表中筛选行,严格遵循指定的条件进行过滤DISTINCT关键字是数据分析师日常应对“重复数据”的基础操作,用于过滤查询结果中重复的行3. GROUP BY与HAVING:分组汇总与分组筛选
GROUP BY与HAVING是两个非常重要的工具:
GROUP BY:配合聚合函数(聚合函数SUM、AVG、COUNT、MAX、MIN等)将数据行按某个列的值进行分组,之后可对每个组进行统计计算HAVING:在数据被GROUP BY分组聚合之后,对分组聚合的结果进行筛选。这一过程在SQL中的执行顺序为:FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY???? “WHERE”与“HAVING”的区别:WHERE子句在数据被聚合之前应用,用于筛选原始数据行;HAVING子句在数据被聚合之后应用,用于筛选分组后的结果。
4. 其他常用子句:ORDER BY与LIMIT
ORDER BY:这是输出结果前最后的“整理”动作,对查询结果按指定字段进行升序(ASC)或降序(DESC)排序,便于观察趋势或极值LIMIT:限制查询结果返回的记录数,常用于取前N条或实现分页查询重点掌握如下几种横向连接查询:
NULL填充。FULL JOIN是能“保留被连接两表的全部信息”的连接方式。除了上述横向连接,还要掌握纵向合并查询。UNION ALL和UNION负责将两个结果集上下堆叠(列数需相同)。二者的关键区别在于:UNION ALL合并时会保留所有行,包括重复行,因此无去重开销,速度快;UNION会对合并后的结果集执行去重操作。
子查询指在一个SELECT语句的内部嵌套另一个SELECT语句。当面对类似“找出那些下单金额大于本月平均订单金额的用户”这类复杂分析时,往往一下子需要“套两层”查询逻辑。
简单类比:DBMS相当于Excel软件本身,SQL则像是VBA宏代码,需要使用这套通用语言去驱动DBMS读取和修改Database中的数据。
在实践当中,无论是数据库查询还是核对分析,函数功能都是十分重要的助推器——它不仅能提升审计应对效率,也能辅助完成数据表的创建和维护,保证数据的准确性和一致性。
假设你是一家电商公司的CDA数据分析师,现需对“近2个月所有已支付订单”进行分析,看近期是否有值得关注的商品活跃度异常。电商数据库拥有三张表:
SQL逻辑如下,注意使用了主键user_id作为左右两表关联的“桥梁”:
SELECT
u.user_name,
u.city,
o.order_amt,
o.order_date
FROM 订单表 o
INNER JOIN 用户表 u ON o.user_id = u.user_id
WHERE o.order_date >= DATE_SUB(CURDATE(), INTERVAL 2 MONTH)
AND o.order_status = '已支付';
现实业务中存在大量项目,需要按某个维度(例如city)进行初次分组,再筛出统计值超过某一阈值的项目。以下是针对GMV的精准筛选:
SELECT
u.city,
SUM(o.order_amt) AS gmv
FROM 订单表 o
INNER JOIN 用户表 u ON o.user_id = u.user_id
WHERE o.order_date >= DATE_SUB(CURDATE(), INTERVAL 2 MONTH)
AND o.order_status = '已支付'
GROUP BY u.city
HAVING gmv > 100000;
此处的SUM与GROUP BY组合实现了不同城市的“订单总金额”汇总,HAVING则过滤出GMV大于10万元的城市。
考虑到上述多表连接查询在未来会频繁使用,直接创建视图是最有效的方法:
CREATE VIEW v_paid_order_gmv AS
SELECT
u.user_name,
u.city,
o.order_amt,
o.order_date
FROM 订单表 o
INNER JOIN 用户表 u ON o.user_id = u.user_id
WHERE o.order_status = '已支付';
创建成功后,后续执行SELECT * FROM v_paid_order_gmv WHERE order_date >= DATE_SUB...,无需再重复编写JOIN逻辑。
✅ 视图的优势:视图本身不存储数据,访问时自动使用源表最新数据。它尤其适用于“按订单状态已支付”这种后续各团队都经常要使用的查询逻辑。
这就是一套完整的“多表连接 → 分组汇总 → 筛选过滤 → 视图固化”的SQL实战流程。
”
很多数据分析师会写SELECT * FROM,但当被问到“表和视图有什么区别”“INNER JOIN和LEFT JOIN分别适用什么场景”“GROUP BY和HAVING的执行顺序是什么”时,却答不上来。
“会取数据”是完成工作的基础,“懂数据库”是体系化分析和可成长提升的阶梯。
在CDA Level Ⅰ的认证体系中,数据库应用部分是连接SQL操作与实际业务分析的核心桥梁。将大量规则与技能适配以后,数据分析师才能从“懂操作”升级为“懂应用”。这部分考核贯穿数据库分类的领会、SQL基本语法和多表连接等综合应用,确保每位CDA分析师都具备从企业核心数据库中高效、准确地获取数据的基本功。
下一步行动:
SELECT加聚合函数进行分组统计,熟悉GROUP BY和HAVING的执行顺序INNER JOIN和LEFT JOIN连接用户表和订单表,理解数据量增减逻辑数据库是企业数据的“心脏”,SQL是CDA分析师与心脏对话的“语言”,掌握它们,你才能真正让数据为你所用。
”
推荐学习书籍 《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18小陈是某电商平台的数据分析师。老板交给他一个任务:“我们平台的注册用户已经突破1000万了,想了解一下用户的平均月消费金额。 ...
2026-05-18【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈 ...
2026-05-14在Python数据分析中,Pandas作为核心工具库,凭借简洁高效的数据处理能力,成为数据分析从业者的必备技能。其中,基于两列(或多 ...
2026-05-14 很多人把统计学理解为“一堆公式和计算”,却忽略了它的本质——一门让数据“开口说话”的科学。真正的数据分析高手,不是会 ...
2026-05-14在零售行业存量竞争日趋激烈的当下,客户流失已成为侵蚀企业利润的“隐形杀手”——据行业数据显示,零售企业平均客户流失率高达 ...
2026-05-13