这些基本的维度表技术,你都了解吗？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代这些基本的维度表技术,你都了解吗？

这些基本的维度表技术,你都了解吗？

2020-08-10

上一篇文章给大家分享了一些关于维度表和事实表的内容，今天给大家带来的是关于维度表技术的一些内容，希望对大家有所帮助。

一、维度表结构

1.每个维度表都包含单一的主键列。

2.维度表的主键可以作为与之关联的任何事实表的外键。

3.维度表通常比较宽，是扁平型非规范表，包含大量的低粒度的文本属性。

二、常见维度表技术

1.维度代理键

DW/BI需要申明对所有的维度的主键的空置，无法采用自然键或者附加日期的自然键。最好是建立无语意的整型主键。

2.自然键、持久键、超自然键

自然键，例如员工编号

持久键，有时也被叫做超自然持久键。数据仓库为员工编号创建一个单一键，这个单一键保持永久性不会发生变化。

最后的持久键应该独立于原始的业务过程。

3.下钻

商业分析的基本方法：

上卷(roll-up)：上卷是沿着维的层次向上聚集汇总数据。例如，对产品销售数据，沿着时间维上卷，可以求出所有产品在所有地区每月 (或季度或年或全部)的销售额。

下探(drill-down)：下探是上卷的逆操作，它是沿着维的层次向下，查看更详细的数据。

3.空值属性

推荐采用标识性标识空值，例如unknown。因为不同数据库对空值处理不同。

4.日历日期维度

用YYYYMMdd更容易划分。

5.维度子集

一些需求是不需要最细节的数据的，那么此时事实数据需要关联特定的维度，这些特定维度包含在从细节维度选择的行中，因此就叫做维度子集。

细节维度和维度子集具有相同的属性或内容，具有一致性。

(1)建立包含属性子集的子维度

例如需要上钻到子维度。

(2)建立包含行子集的子维度

在两个维度处于同一细节粒度的情况下，如果其中一个仅仅是行的子集，那么就会产生另外一种一致性维度构造子集。

在某些版本的Hive中，对ORC表使用overwrite会出错，为了保持兼用性，通常会使用truncate 。

(3)使用视图实现维度子集

这种方式存在着两个主要问题：一是新创建的子维度是物理表，因此需要额外的存储空间;二是存在数据不一致的潜在风险。

通常的解决方法是在基本维度上建立视图生成子维度。

优点：

a.可以简单实现，不需要修改原来脚本的逻辑;

b.因为视图不真正存储数据，因此不会占用存储空间;

c.将数据不一致的可能消除掉。

缺点：

a.如果基本维度和子维度表数据量相差悬殊的话，性能比物理表差很多;

b.如果定义视图查询，并且视图很多，可能对元数据存储系统造成压力，严重影响查询性能。

6.层次维度

通常我们使用grouping__id 二进制序列，rollup,collect_set,concat_ws等函数。

层次关系方法：固定深度层次进行分组和钻取查询，递归层次结构数据装载、展开与平面化，多路径层次和参差不齐处理

7.退化维度

除了业务主键外没有其他内容的维度表。

8.杂项维度

包含数据具有很少可能值的维度。有时与其为每个标志或属性定义不同的维度，不如建立单独的讲不同维度合并到一起的杂项维度。

9.维度合并

如果几个相关维度的基数都很小，或者具有多个公共属性时，可以考虑合并。

10.分段维度

包含连续的分段度量值，通常用作客户维度的行为标记时间序列，分析客户行为。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

维度表事实表表结构 Hive 数据仓库商业分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇数据仓库里的实事实表，维度表，怎么区分？

下一篇在tensorFlow中使用模型剪枝将机器学习模型变得更小

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

这些基本的维度表技术,你都了解吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据分析核心技能体系：从工具落地到业 ...

【CDA干货】企业价值市场法价值比率与线性回归分析 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载