
大数据环境下的多维分析技术
正是由于多维分析技术在业务分析系统的核心功能中的不可替代性,随着商业智能系统的深入应用,分析系统的数据量呈指数级增长,原有依赖硬盘IO处理性能(包括传统数据库、多维立方体文件)的多维分析技术遭遇到性能瓶颈。与此同时,随着服务器内存价格的下降,一种新的基于内存的OLAP技术架构出现了。这种新架构既能够保证类似于MOLAP方式的高性能,也能基于更大的数据量进行分析,还不用定期将数据库里的数据刷新到OLAP服务器来防止数据过期。这种新的体系架构当之无愧地成为大数据环境下搭建多维分析功能的流行选择,而IBM Cognos的Dynamic Cubes就是它的代表作。
动态立方体(Dynamic Cubes)作为一种新的技术架构最先应用在Cognos的10.2.0版本。下面我们以Cognos的11.0版本来看看怎样对动态立方体进行性能调优。
影响因素
动态立方体是以原有ROLAP技术为基础,使用服务器内存作缓存的一种新型技术架构。它的响应性能的影响因素包括。
数据仓库(数据集市):由于DynamicCubes的事实表数据都存储在数据仓库中,因此,有时数据仓库的性能好坏会影响前端多维分析查询的响应速度。在数据仓库的多维数据模型中,需要注意:
维表中的连接事实表的代理键的数据类型应该采用integer类型
维表中的各个层级的层级键的数据类型应该采用integer类型
2.数据库:提高数据库的查询性能,有助于提高最终多维分析展现的响应速度。
有时候多维分析的性能严重依赖于数据库运行大数据量多任务查询任务的性能
数据库基于的硬件资源(内存、CPU及IO)应该考虑到大数据量并行查询的性能,因此基于物理机的数据库性能当然比基于虚拟机的更优
尽量少用或者不用视图,因为视图的数据不是物理存在的
最好采用分析型的MPP数据库,因为多维分析都是针对大数据量的汇总查询
采用列存储技术的数据库对于大量并发并联查询性能更优
要确保查询性能最优化,可以通过数据库的性能分析监控、执行计划分析等工具
索引的设计,对于非MPP数据库,索引的设计对于查询性能影响很大
动态立方体性能调优
1.由于动态立方体使用机器内存和CPU进行性能增强,所以在对应用服务器的硬件进行评估时应该为将来的性能扩展留一定的预留空间。硬件评估可以通过Cognos提供的建模工具Cube Designer里的“评估硬件需求”功能初步估算。如下图所示。
2.在多维立方体模型设计时,使用模型验证功能,可以知道影响性能的问题所在。可能的问题有:连接字段类型、星形模型与雪花模型、过滤器的使用、视图的使用等等。如下图所示。
3.评估模型的复杂度。如果多维模型的维度和度量很多,数据量也很大,可以通过设计聚合表或者聚合内存来提升查询性能。动态立方体会通过聚合感知技术找到最合适的聚合数据集进行查询以提高查询性能。如下图所示。
4.JVM设置。动态立方体使用Java虚拟机作为内存管理的容器载体,所以Cognos也提供了一些JVM堆设置来优化数据查询性能。你可以在Cognos Administration界面上找到Query Service服务进行参数调整。如下图所示。
5.您还可以通过Cognos的Dynamic Query Analyzer (DQA)工具来对动态立方体的查询性能进行评估并得到优化建议。在进行评估之前,记得将Dynamic Cubes的工作日志打开,如下图所示。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01CDA 数据分析师:企业数字化转型的核心引擎 —— 从能力落地到价值跃迁 当数字化转型从 “选择题” 变为企业生存的 “必答题”, ...
2025-09-01数据清洗工具全景指南:从入门到进阶的实操路径 在数据驱动决策的链条中,“数据清洗” 是决定后续分析与建模有效性的 “第一道 ...
2025-08-29机器学习中的参数优化:以预测结果为核心的闭环调优路径 在机器学习模型落地中,“参数” 是连接 “数据” 与 “预测结果” 的关 ...
2025-08-29