京公网安备 11010802034615号
经营许可证编号:京B2-20210330
上一篇文章给大家分享了一些关于维度表和事实表的内容,今天给大家带来的是关于维度表技术的一些内容,希望对大家有所帮助。
一、维度表结构
1.每个维度表都包含单一的主键列。
3.维度表通常比较宽,是扁平型非规范表,包含大量的低粒度的文本属性。
二、常见维度表技术
1.维度代理键
DW/BI需要申明对所有的维度的主键的空置,无法采用自然键或者附加日期的自然键。最好是建立无语意的整型主键。
2.自然键、持久键、超自然键
自然键,例如员工编号
持久键,有时也被叫做超自然持久键。数据仓库为员工编号创建一个单一键,这个单一键保持永久性不会发生变化。
最后的持久键应该独立于原始的业务过程。
3.下钻
商业分析的基本方法:
上卷(roll-up):上卷是沿着维的层次向上聚集汇总数据。 例如,对产品销售数据,沿着时间维上卷,可以求出所有产品在所有地区每月 (或季度或年或全部)的销售额。
下探(drill-down):下探是上卷的逆操作,它是沿着维的层次向下,查看更详细的数据。
3.空值属性
推荐采用标识性标识空值,例如unknown。因为不同数据库对空值处理不同。
4.日历日期维度
用YYYYMMdd更容易划分。
5.维度子集
一些需求是不需要最细节的数据的,那么此时事实数据需要关联特定的维度,这些特定维度包含在从细节维度选择的行中,因此就叫做维度子集。
细节维度和维度子集具有相同的属性或内容,具有一致性。
(1)建立包含属性子集的子维度
例如需要上钻到子维度。
(2)建立包含行子集的子维度
在两个维度处于同一细节粒度的情况下,如果其中一个仅仅是行的子集,那么就会产生另外一种一致性维度构造子集。
在某些版本的Hive中,对ORC表使用overwrite会出错,为了保持兼用性,通常会使用truncate 。
(3)使用视图实现维度子集
这种方式存在着两个主要问题:一是新创建的子维度是物理表,因此需要额外的存储空间;二是存在数据不一致的潜在风险。
通常的解决方法是在基本维度上建立视图生成子维度。
优点:
a.可以简单实现,不需要修改原来脚本的逻辑;
b.因为视图不真正存储数据,因此不会占用存储空间;
c.将数据不一致的可能消除掉。
缺点:
a.如果基本维度和子维度表数据量相差悬殊的话,性能比物理表差很多;
b.如果定义视图查询,并且视图很多,可能对元数据存储系统造成压力,严重影响查询性能。
6.层次维度
通常我们使用grouping__id 二进制序列,rollup,collect_set,concat_ws等函数。
层次关系方法:固定深度层次进行分组和钻取查询,递归层次结构数据装载、展开与平面化,多路径层次和参差不齐处理
7.退化维度
除了业务主键外没有其他内容的维度表。
8.杂项维度
包含数据具有很少可能值的维度。有时与其为每个标志或属性定义不同的维度,不如建立单独的讲不同维度合并到一起的杂项维度。
9.维度合并
如果几个相关维度的基数都很小,或者具有多个公共属性时,可以考虑合并。
10.分段维度
包含连续的分段度量值,通常用作客户维度的行为标记时间序列,分析客户行为。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23