京公网安备 11010802034615号
经营许可证编号:京B2-20210330
上一篇文章给大家分享了一些关于维度表和事实表的内容,今天给大家带来的是关于维度表技术的一些内容,希望对大家有所帮助。
一、维度表结构
1.每个维度表都包含单一的主键列。
3.维度表通常比较宽,是扁平型非规范表,包含大量的低粒度的文本属性。
二、常见维度表技术
1.维度代理键
DW/BI需要申明对所有的维度的主键的空置,无法采用自然键或者附加日期的自然键。最好是建立无语意的整型主键。
2.自然键、持久键、超自然键
自然键,例如员工编号
持久键,有时也被叫做超自然持久键。数据仓库为员工编号创建一个单一键,这个单一键保持永久性不会发生变化。
最后的持久键应该独立于原始的业务过程。
3.下钻
商业分析的基本方法:
上卷(roll-up):上卷是沿着维的层次向上聚集汇总数据。 例如,对产品销售数据,沿着时间维上卷,可以求出所有产品在所有地区每月 (或季度或年或全部)的销售额。
下探(drill-down):下探是上卷的逆操作,它是沿着维的层次向下,查看更详细的数据。
3.空值属性
推荐采用标识性标识空值,例如unknown。因为不同数据库对空值处理不同。
4.日历日期维度
用YYYYMMdd更容易划分。
5.维度子集
一些需求是不需要最细节的数据的,那么此时事实数据需要关联特定的维度,这些特定维度包含在从细节维度选择的行中,因此就叫做维度子集。
细节维度和维度子集具有相同的属性或内容,具有一致性。
(1)建立包含属性子集的子维度
例如需要上钻到子维度。
(2)建立包含行子集的子维度
在两个维度处于同一细节粒度的情况下,如果其中一个仅仅是行的子集,那么就会产生另外一种一致性维度构造子集。
在某些版本的Hive中,对ORC表使用overwrite会出错,为了保持兼用性,通常会使用truncate 。
(3)使用视图实现维度子集
这种方式存在着两个主要问题:一是新创建的子维度是物理表,因此需要额外的存储空间;二是存在数据不一致的潜在风险。
通常的解决方法是在基本维度上建立视图生成子维度。
优点:
a.可以简单实现,不需要修改原来脚本的逻辑;
b.因为视图不真正存储数据,因此不会占用存储空间;
c.将数据不一致的可能消除掉。
缺点:
a.如果基本维度和子维度表数据量相差悬殊的话,性能比物理表差很多;
b.如果定义视图查询,并且视图很多,可能对元数据存储系统造成压力,严重影响查询性能。
6.层次维度
通常我们使用grouping__id 二进制序列,rollup,collect_set,concat_ws等函数。
层次关系方法:固定深度层次进行分组和钻取查询,递归层次结构数据装载、展开与平面化,多路径层次和参差不齐处理
7.退化维度
除了业务主键外没有其他内容的维度表。
8.杂项维度
包含数据具有很少可能值的维度。有时与其为每个标志或属性定义不同的维度,不如建立单独的讲不同维度合并到一起的杂项维度。
9.维度合并
如果几个相关维度的基数都很小,或者具有多个公共属性时,可以考虑合并。
10.分段维度
包含连续的分段度量值,通常用作客户维度的行为标记时间序列,分析客户行为。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈、 ...
2026-05-14在Python数据分析中,Pandas作为核心工具库,凭借简洁高效的数据处理能力,成为数据分析从业者的必备技能。其中,基于两列(或多 ...
2026-05-14 很多人把统计学理解为“一堆公式和计算”,却忽略了它的本质——一门让数据“开口说话”的科学。真正的数据分析高手,不是会 ...
2026-05-14在零售行业存量竞争日趋激烈的当下,客户流失已成为侵蚀企业利润的“隐形杀手”——据行业数据显示,零售企业平均客户流失率高达 ...
2026-05-13当流量红利消退、用户需求日趋多元,“凭经验决策、广撒网投放”的传统营销模式早已难以为继。大数据的崛起,为企业营销提供了全 ...
2026-05-13 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-05-13在手游行业存量竞争日趋激烈、流量成本持续高企的当下,“拉新”早已不是行业核心痛点,“留存”尤其是“付费留存”,成为决定手 ...
2026-05-12 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-05-12用户调研是企业洞察客户需求、优化产品服务、制定运营策略的核心前提,而调研数据的可靠性,直接决定了决策的科学性与有效性。在 ...
2026-05-11在市场竞争日趋激烈、流量成本持续攀升的今天,企业的核心竞争力已从“获取流量”转向“挖掘客户价值”。客户作为企业最宝贵的资 ...
2026-05-11 很多数据分析师精通Excel单元格操作,熟练应用多种公式,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质 ...
2026-05-11在互联网运营、产品优化、用户增长等领域,次日留存率是衡量产品价值、用户粘性与运营效果的核心指标,更是判断新用户是否认可产 ...
2026-05-09相关性分析是数据分析领域中用于探究两个或多个变量之间关联强度与方向的核心方法,广泛应用于科研探索、商业决策、医疗研究、社 ...
2026-05-09 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-05-09在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08