
数据仓库成熟度模型
我们中的许多人都曾经多年从事数据仓库管理工作。有些人做出了战略性的系统,让用户和企业高管十分满意。有些人则在为维持企业持续投入支持数据仓库项目挣扎,同时他的用户却在拼命要求更好更准确的信息。
怎样才能有个成功的解决方案?你的数据仓库方案跟同行业中的公司相比如何?怎样才能将你的解决方案提升一个层次?
今天又很多数据仓库项目经理都在问以上的问题。不幸的是,没有一个容易的解答。TDWI开发了一个数据仓库成熟度模型,以供参照。这个模型提供了一个便捷的方式来衡量你的数据仓库解决方案,现在在哪,下一步该怎么做。
数据仓库成熟度模型
图1:商业价值随着各个阶段上升。大多数的组织如今处于儿童和少年阶段。
六个阶段
该模型由六个阶段组成:孕育期,婴儿期,儿童期,少年期,成人期,长者期。商业价值随着模型中的各个阶段而增长(图1)。
这些阶段的划分是依据一系列的特性,包括系统范畴,分析结构,管理层观念,分析类型,领导力,投入,技术平台,变革管理,日常维护。本文将围绕其中一些特性展开。组织在成长过程中会同时呈现出不同阶段的特性,并不是清晰的从一个阶段迈向下一个阶段。
在数据仓库/商业智能的发展过程中,有两个关键点,在本模型中称为“海湾”和“鸿沟”。许多企业的项目就卡在这两个点上。他们一脚踩在过去,一脚踏入未来,无法完成飞跃。正因如此,这些企业从未完全进入下一个阶段并从中受益。
要克服这些障碍,最重要的是要改变管理层的观念。要跨越“海湾”,管理层必须认识到 DW/BI 不仅仅是报表系统,并且企业的效率正在被那些他们原来赖以生存的表格和桌面数据所拖累。更为困难的是跨越“鸿沟”,这要求管理层必须意识到 DW/BI 是一个对于整个企业都至关重要的资源,而不仅仅是IT部门。
接下来简要的介绍每个阶段和其特性。
1. 孕育期
管理层报表工具
大多数的组织都有报表系统,制作,打印一堆标准报表,并定期分发给员工,常常是每周、每月、每季度。这些报表的数据来自散乱的数据源(或者是事务性的数据源),IT部门无法快速响应特殊的报表需求。这样,IT部门常常落得骂名,而着急要数据信息的用户常常感到无助。这样的问题在专门为高管分析数据的人员和高级用户身上显得尤为无法忍受。他们只好绕过IT而自己动手,把数据放入Excel中或桌面数据库中,来解决自己的问题。这样就到了下一个阶段。
2. 婴儿期
Spreadmarts
Spreadmarts 是指用Excel表格或桌面数据库来完成 data marts 的功能。每个Spreadmarts包含一系列单独的数据,标准,规则。Spreadmarts之间相互不统一,和报表、分析系统之间也不统一。但是,由于Spreadmarts方便,简单,它无处不在,几乎所有的组织都有大量的Spreadmarts。
Spreadmarts 让组织(或者CEO)无法得到一个清晰、统一的数据全貌。但是,要完全消除Spreadmarts也十分困难,因为它确实很方便,有效。这样,企业面临着一个难以跨越的“海湾”。事实上,Spreadmarts的用户在企业达到最后的两个阶段之前,在数据分析上会牺牲掉很大的自由度,直到新的开发流程和分析服务把本地和企业数据整合在一起。(见图2)。
数据仓库成熟度模型
图2. Spreadmarts 很难消除,因为使用方便,自由。只有在企业到达了最后两个阶段时,本地控制和整个组织的数据才能有效的整合在一起。
3. 儿童期
Data Marts
在儿童期,各部门意识到必须让所有的人员得到及时有效的信息,而不仅仅是高管和分析人员。
Data mart 是指一个共享的分析结构,支持一个单独的应用程序,业务流程或者部门。各部门的人员搜集本部门的需求并以此对data mart进行裁剪,用来满足本部门的需求。接下来,本部门的人员可以使用交互的报表工具(比如,OLAP,交互查询工具,参数化报表等)。这些工具让一般员工更加深入的了解他们的工作流程和相关信息。
但是data marts也有和spreadmarts相似的问题。每个data mart只负责支持本部门的数据,它能很好的满足本部门的需求,但是如果有跨部门的分析需求时,它就显得力不从心了。这里需要的是一种既能够把data marts整合在一起,同时又不会降低本地自由度的机制。这就到了下一个阶段。
4. 少年期
在创建了几个data marts之后,大多数的部门会意识到,他们需要把一些数据定义、规则、维度标准化,以防止将来的数据整合噩梦。在data marts标准化方面,大体上有两种可供选择的方向:中心化或者非中心化,并有8种策略可供选择。其中最常见的策略是创建一个中心数据仓库和一些相互依赖的运行在和数据仓库同一个数据库之上的data marts。这种类型被称为星型结构数据仓库。
交互式的报表和分析。有别于单一目的的data marts,数据仓库支持更深层次的分析。这是因为用户可以运行跨部门的查询,比如财务和运营部门,并从中得到更为有用的信息。
为了更好的监控企业中跨部门的流程和企业的价值链,企业部署了仪表盘程序。仪表盘程序支持的功能包括:报警,向下钻取到更为细节的报表,从非数据仓库的系统中提取数据进行查询,更为及时的数据获取。这样的仪表盘程序的价值在于,它让企业中更多的人从商务智能中受益,而不仅仅是少数的高级用户。这样,在决策层的眼里,DW/BI可以提高企业的效率,让更多的用户获得信息,并在这些信息基础上做出决定,而不是拍脑袋做决定。
5. 成人期
企业级数据仓库(EDW)
尽管数据仓库带来许多好处,但是仍无法完全解决数据一致性的问题。或者是因为内部开发,或者是因为企业并购,当今许多企业有不止一个数据仓库。就像Spreadmarts和独立的data marts一样,这些数据仓库中的数据可能有重合甚至冲突。这给企业内部信息和流程管理带来麻烦。
整合数据。在成人期,企业强调唯一的可靠的数据来源,用以反映事实。决策层把数据看得和员工、设备、现金一样重要,都是企业的宝贵财富。企业选择一个数据仓库或者从头创建一个新的企业级数据仓库。然后数据被从不同的数据源整合进入这个企业级数据仓库中。但是,如果有一个足够灵活的商务智能层,那么这个“把数据整合进企业级数据仓库”的过程可以省略,而是让商务智能工具直接从企业级数据仓库和外部数据中提取数据。这样的好处是,有些外部数据是无法放入数据仓库的(比如实时数据或者Web数据)。对于一些把收购作为企业发展策略之一的企业来说,企业级数据仓库和商务智能工具被作为整合被收购企业数据的主要手段。
管理者和记分员。在成人期,企业级数据仓库作为企业内战略性的资源,用于整合数据来支持一些驱动业务的关键应用程序。为了管理这个重要资源,决策层要建立完善的管理机制,分配业务人员负责重要的数据,并在企业内的各个层次分配人员监督指导数据仓库的开发和扩展。在数据分析方面,企业安排“记分员”监控业务流程,确保这些流程和整个企业战略是吻合的。为了达到企业的战略目标,“记分员”需要常常调整仪表盘程序、现有的标准和优先级、预算等。
投资回报率。在成人期,数据仓库带来的价值开始超过对其的投资了,尤其是在规模经济和快速开发上(见图3)。而且,这时候用户开始发现数据仓库的新的用途,这些用途甚至当时的开发人员都没有预料到,这又进一步提高了投资回报率。
数据仓库成熟度模型
图3. 在第4、5个阶段,数据仓库的回报开始超过对其的投资
6. 长者期
商务智能服务
一旦数据仓库变成战略性的企业资源并且和关键应用程序一起驱动整个业务,你的工作就基本做完了。当然,在此基础上,还可以向外和向下扩展来提高数据仓库的战略价值。
交互式外联网。当今有许多公司已经向其客户和供应商开放了自己的数据仓库—把价值链扩张到企业外部并寻求新的商机。下一代的外联网应用程序不仅仅提供静态的账户报表,而是会给它们的客户和供应商提供简单易用而又功能强大的交互报表工具,以便做出一些业绩横向、纵向比较。有些公司,比如Owens & Minor,已经设立了新的部门,专门出售数据仓库和信息分析服务,这改变了这个产业。
Web服务。同时,企业级数据仓库开发团队正在把分析数据和商务智能功能包装成web服务,这样内部和外部的开发人员在获得授权的前提下可以使用这些web服务。BI服务的出现,让数据仓库和其相应的应用程序可以被嵌入任何应用程序,这样用户再也不用为了分析数据和去切换当前应用程序。用户需要的数据,信息将被嵌入他们日常使用的应用程序中。
决策引擎。BI服务同时也让企业充分利用在统计分析和建模上的投资。企业将统计模型转化为“决策引擎”并嵌入应用程序。用户可将信息输入引擎然后得到引擎的建议,完全不需要统计学背景。当今,决策引擎已经是一些功能强大应用程序的基础,包括欺诈检测,网页个性化,自动贷款批准程序等。
一旦你的数据仓库进入了长者期,它的价值将指数级增长,而用户将渐渐感觉不到它的存在。作为BI服务,数据仓库和分析服务器退居幕后,变为基础设施的一部分。如果它不出问题,你甚至察觉不到它的存在。在社会发展过程中,我们接受了无数的服务,例如电力,污水处理,交通,等等。BI服务也将成为下一个这样的服务。
结论
不论你是否已经达到了“长者期”的特性,或者你还在努力从婴儿期向少年期跨越,这个成熟度模型都能给你一些参考。它让你了解你现在处于哪个阶段,下一个阶段在哪,并且在嘈杂的环境中保持冷静理智。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02CDA 数据分析师:助力企业破解数据需求与数据分析需求难题 在数字化浪潮席卷全球的当下,数据已成为企业核心战略资产。无论是市 ...
2025-09-02Power BI 度量值实战:基于每月收入与税金占比计算累计税金分摊金额 在企业财务分析中,税金分摊是成本核算与利润统计的核心环节 ...
2025-09-01巧用 ALTER TABLE rent ADD INDEX:租房系统数据库性能优化实践 在租房管理系统中,rent表是核心业务表之一,通常存储租赁订单信 ...
2025-09-01