为什么要对数据仓库进行分层设计？-CDA数据分析师官网

热线电话：13121318867

登录

首页精彩阅读为什么要对数据仓库进行分层设计？

为什么要对数据仓库进行分层设计？

2024-01-03

收藏

(以下文章来源于大飞谈技术，作者常大飞)

为了清晰数据结构，方便数据血缘跟踪，减少重复开发，简化复杂问题，屏蔽原始数据的异常与业务的影响，在设计数据仓库体系时通常需要对其逻辑分层。

1. 清晰数据结构一般我们将数据仓库分为ODS层（原始数据层）、DWD层（明细数据层）、DWS层（数据汇总层）和ADS层（数据应用层）。每一个分层都有它自己的作用域，并且我们在设计数据仓库时会为每个分层的表设置各自的命名规范，这样我们在使用表的时候能更方便的定位和理解数据。另外，数据仓库的数据是来源于不同的业务系统，比如客户信息同时存在于CRM系统、订单系统、营销系统等，取数时该如何决策呢？数据仓库会对相同主题的数据进行统一建模，把复杂的数据关系梳理成条理清晰的数据模型。

2. 数据血缘跟踪通过数据仓库中的逻辑分层，确定每一层的数据来源，如果有一张来源表出问题了，我们能够快速准确地定位问题，并清楚的知道它的影响范围。同时我们会制定每一层的调用规范：

禁止反向调用
ODS层数据只能被DWD层调用
DWD层数据可以被DWS和ADS层调用
DWS层数据只能被ADS调用
数据应用可以调用DWD、DWS和ADS层，但建议优先考虑使用汇总度高的数据
常规数据流向：ODS-DWD-DWS-ADS

3. 数据复用数据的逐层加工，下层包含了上层数据加工所需要的全量数据，这样的加工方式避免了每个数据开发人员都重新从源系统中抽取数据进行加工。通过汇总层的引入，面向不同主题的数据集市可以共用汇总层数据，实现了计算结果的复用，节省了数据开发人员的时间和精力。

4. 复杂问题简单化将一个复杂的任务分解成多个步骤完成，每一层只处理单一的步骤，比较简单且容易理解，便于维护数据的准确性。当数据出现问题之后，可以不用修复所有的数据，只需要从有问题的步骤开始修复。

5. 屏蔽原始数据异常对业务的影响数据仓库对接的源系统众多，且每个源系统的表命名、字段命名、字段含义等各有不同，通过数据仓库的分层设计，从底层来规范和屏蔽所有这些复杂性，保证下游数据用户使用数据的便捷和规范。如果源系统发生变更，只需要再相应的数据仓库层来处理，对下游用户透明，无感。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

数据仓库数据血缘数据结构字段数据集市

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇Pandas结构化json数据

下一篇什么是业务场景

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

更多

Copyright © 2015-2021, www.cda.cn All Rights Reserved. CDA数据分析师(北京国富如荷网络科技有限公司) 版权所有京ICP备11001960号-9

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

OK

客服在线

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册