京公网安备 11010802034615号
经营许可证编号:京B2-20210330
很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系”时,却常常答不上来。在企业的真实工作场景中,数据从来不是从天而降的Excel文件,而是存储在各类数据库中的结构化信息。掌握数据库的核心概念,是数据分析师从“会处理数据”走向“会获取数据”的关键一步。
”
小林入职了一家互联网公司的数据分析团队。第一天,主管让他“提取近三个月电商业务数据库中的订单明细数据”。小林打开数据库工具,面对那一排排陌生的表名和字段名,他发现自己“会用Excel分析数据”,却“不知道怎么把数据从数据库里弄出来”。经过半小时的手忙脚乱,他终于导出了一张Excel表,打开一看:订单金额是负数,日期格式乱七八糟,还缺了关键的“商品类别”字段。主管看了一眼,皱起了眉头——这不是小林第一次在这个问题上“栽跟头”了。
这不是小林的错,而是大多数数据新人的共同困境——数据分析技能和数据库基础知识之间存在断层。在企业环境中,数据资产几乎都沉淀在数据库中,而非现成的Excel文件。数据分析师日常工作面临的两个基础挑战,都与数据库知识息息相关:数据怎么取以及数据怎么用。
数据库(Database)的本质是“按一定结构组织、存储和管理数据的系统”。数据库是整个企业数据资产的“大本营”,也是CDA分析师工作的“起点”。
概括来说,数据库,就是你的各种业务数据的“大仓库” 。在实际工作中,最常用的几类数据库包括:
数据库(Database)是存储数据的“大仓库”,而数据表(Table)则是仓库中分类存放数据的“货架”。它们是“整体与局部”的关系。
数据库通常按业务线划分,如“电商业务数据库”“金融信贷数据库”,以避免数据混乱。分析师在工作中,首先需明确分析目标对应的数据库——比如分析电商用户满意度,就需进入“电商业务数据库”。在电商数据库中,会包含“用户表”(存储用户信息)、“订单表”(存储订单数据)、“商品表”(存储商品信息)、“物流表”(存储配送数据)等多个表格,每个表都围绕一个业务对象设计。
数据表由字段和记录组成,这是分析师接触数据的“最小颗粒度”。
| 概念 | 定义解析 | CDA实操价值 |
|---|---|---|
| 字段 | 数据表的列,代表数据的属性,如订单表的“订单ID”“订单金额” | 指标计算的基础,如“客单价”需提取“订单金额”字段计算 |
| 记录 | 数据表的行,代表一条完整的业务数据,如一条订单记录 | 数据筛选的对象,如筛选“2024年1月下单的订单记录” |
| 主键 | 数据表中唯一标识一条记录的字段,如“订单ID” | 关联多表数据的“桥梁”,如通过“用户ID”关联用户表和订单表 |
理解主键的作用是至关重要的。在企业级数据模型中,主键是确保数据准确定位、多表间数据“不混淆”的依据。每当分析师需要分解“用户画像”或计算“复购率”时,都需要依赖主键将多个表进行横向关联。
企业的业务数据以“表”的形式保存,但日常分析中还有一个高频衍生物——视图(View)。它们都是数据库的核心对象,但与Excel打开的一张张Sheet不同,它们各有各的用法和特征。
数据表是数据库中用于物理存储数据的实体结构,相当于“数据档案柜”。所有原始数据或经过处理的核心数据都以表的形式持久化存储。其核心特征是占用物理存储空间、数据独立存在、可直接修改数据内容。
创建表的核心价值体现在三个方面:一是固化高频使用的中间数据,避免重复处理原始数据;二是规范数据结构,将杂乱的原始数据整理为符合分析需求的格式;三是实现数据共享,为团队提供统一的分析数据来源。
视图是基于一个或多个表的查询结果构建的虚拟表,本身不存储数据,仅保存查询逻辑,相当于“数据的动态窗口”——每次访问视图时,数据库会重新执行其关联的查询逻辑,返回最新数据。视图的三大核心价值——简化复杂查询、隐藏数据细节、确保数据一致性——都能直接为数据分析工作提供便利。
| 对比维度 | 数据表 | 视图 | CDA选择建议 |
|---|---|---|---|
| 数据存储 | 物理存储数据,占用空间 | 仅存查询逻辑,不存数据 | 高频复用且数据稳定→表;实时性要求高→视图 |
| 数据更新 | 可直接增删改查 | 依赖源表更新,仅能通过源表修改 | 需修改数据→表;仅需查询→视图 |
| 查询效率 | 直接读取数据,效率高 | 每次访问需执行查询 | 大数据量分析→表;简单查询或实时数据→视图 |
| 使用场景 | 中间数据固化、数据共享 | 复杂查询简化、数据权限控制 | 长期分析项目→表;临时查询或多场景复用→视图 |
SQL(结构化查询语言) 是操作数据库的标准语言。在CDA的考试指导中,非常明确地将SQL定位为数据分析师的工具,而非普通的IT开发工具。
1. SELECT与FROM:指定查询范围
数据分析的第一步永远是“从哪张表中选择哪些数据”。语法为SELECT 列名1, 列名2 FROM 表名。
在实际业务中,可以通过为表设置别名来简化复杂的查询。例如:SELECT o.订单金额 FROM 订单表 o。理解SQL语句的执⾏顺序(FROM → JOIN → WHERE → GROUP BY → HAVING → SELECT → ORDER BY → LIMIT)对于写出正确的复杂查询至关重要。例如,列别名是在WHERE子句执行之后才生效的,因此WHERE子句中不能直接使用列别名。
2. WHERE与DISTINCT:数据筛选与去重
WHERE子句用于从FROM列表中筛选行,严格遵循指定的条件进行过滤DISTINCT关键字是数据分析师日常应对“重复数据”的基础操作,用于过滤查询结果中重复的行3. GROUP BY与HAVING:分组汇总与分组筛选
GROUP BY与HAVING是两个非常重要的工具:
GROUP BY:配合聚合函数(聚合函数SUM、AVG、COUNT、MAX、MIN等)将数据行按某个列的值进行分组,之后可对每个组进行统计计算HAVING:在数据被GROUP BY分组聚合之后,对分组聚合的结果进行筛选。这一过程在SQL中的执行顺序为:FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY???? “WHERE”与“HAVING”的区别:WHERE子句在数据被聚合之前应用,用于筛选原始数据行;HAVING子句在数据被聚合之后应用,用于筛选分组后的结果。
4. 其他常用子句:ORDER BY与LIMIT
ORDER BY:这是输出结果前最后的“整理”动作,对查询结果按指定字段进行升序(ASC)或降序(DESC)排序,便于观察趋势或极值LIMIT:限制查询结果返回的记录数,常用于取前N条或实现分页查询重点掌握如下几种横向连接查询:
NULL填充。FULL JOIN是能“保留被连接两表的全部信息”的连接方式。除了上述横向连接,还要掌握纵向合并查询。UNION ALL和UNION负责将两个结果集上下堆叠(列数需相同)。二者的关键区别在于:UNION ALL合并时会保留所有行,包括重复行,因此无去重开销,速度快;UNION会对合并后的结果集执行去重操作。
子查询指在一个SELECT语句的内部嵌套另一个SELECT语句。当面对类似“找出那些下单金额大于本月平均订单金额的用户”这类复杂分析时,往往一下子需要“套两层”查询逻辑。
简单类比:DBMS相当于Excel软件本身,SQL则像是VBA宏代码,需要使用这套通用语言去驱动DBMS读取和修改Database中的数据。
在实践当中,无论是数据库查询还是核对分析,函数功能都是十分重要的助推器——它不仅能提升审计应对效率,也能辅助完成数据表的创建和维护,保证数据的准确性和一致性。
假设你是一家电商公司的CDA数据分析师,现需对“近2个月所有已支付订单”进行分析,看近期是否有值得关注的商品活跃度异常。电商数据库拥有三张表:
SQL逻辑如下,注意使用了主键user_id作为左右两表关联的“桥梁”:
SELECT
u.user_name,
u.city,
o.order_amt,
o.order_date
FROM 订单表 o
INNER JOIN 用户表 u ON o.user_id = u.user_id
WHERE o.order_date >= DATE_SUB(CURDATE(), INTERVAL 2 MONTH)
AND o.order_status = '已支付';
现实业务中存在大量项目,需要按某个维度(例如city)进行初次分组,再筛出统计值超过某一阈值的项目。以下是针对GMV的精准筛选:
SELECT
u.city,
SUM(o.order_amt) AS gmv
FROM 订单表 o
INNER JOIN 用户表 u ON o.user_id = u.user_id
WHERE o.order_date >= DATE_SUB(CURDATE(), INTERVAL 2 MONTH)
AND o.order_status = '已支付'
GROUP BY u.city
HAVING gmv > 100000;
此处的SUM与GROUP BY组合实现了不同城市的“订单总金额”汇总,HAVING则过滤出GMV大于10万元的城市。
考虑到上述多表连接查询在未来会频繁使用,直接创建视图是最有效的方法:
CREATE VIEW v_paid_order_gmv AS
SELECT
u.user_name,
u.city,
o.order_amt,
o.order_date
FROM 订单表 o
INNER JOIN 用户表 u ON o.user_id = u.user_id
WHERE o.order_status = '已支付';
创建成功后,后续执行SELECT * FROM v_paid_order_gmv WHERE order_date >= DATE_SUB...,无需再重复编写JOIN逻辑。
✅ 视图的优势:视图本身不存储数据,访问时自动使用源表最新数据。它尤其适用于“按订单状态已支付”这种后续各团队都经常要使用的查询逻辑。
这就是一套完整的“多表连接 → 分组汇总 → 筛选过滤 → 视图固化”的SQL实战流程。
”
很多数据分析师会写SELECT * FROM,但当被问到“表和视图有什么区别”“INNER JOIN和LEFT JOIN分别适用什么场景”“GROUP BY和HAVING的执行顺序是什么”时,却答不上来。
“会取数据”是完成工作的基础,“懂数据库”是体系化分析和可成长提升的阶梯。
在CDA Level Ⅰ的认证体系中,数据库应用部分是连接SQL操作与实际业务分析的核心桥梁。将大量规则与技能适配以后,数据分析师才能从“懂操作”升级为“懂应用”。这部分考核贯穿数据库分类的领会、SQL基本语法和多表连接等综合应用,确保每位CDA分析师都具备从企业核心数据库中高效、准确地获取数据的基本功。
下一步行动:
SELECT加聚合函数进行分组统计,熟悉GROUP BY和HAVING的执行顺序INNER JOIN和LEFT JOIN连接用户表和订单表,理解数据量增减逻辑数据库是企业数据的“心脏”,SQL是CDA分析师与心脏对话的“语言”,掌握它们,你才能真正让数据为你所用。
”
推荐学习书籍 《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0
箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21在数据分析领域,当研究涉及多个自变量与多个因变量之间的复杂关联时,多变量一般线性分析(Multivariate General Linear Analys ...
2026-04-21很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度”“这 ...
2026-04-21在数据处理与分析的全流程中,日期数据是贯穿业务场景的核心维度之一——无论是业务报表统计、用户行为追踪,还是风控规则落地、 ...
2026-04-20在机器学习建模全流程中,特征工程是连接原始数据与模型效果的关键环节,而特征重要性分析则是特征工程的“灵魂”——它不仅能帮 ...
2026-04-20很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问题, ...
2026-04-20在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17