京公网安备 11010802034615号
经营许可证编号:京B2-20210330
前言,这个数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆,文章引用了历史项目&平台规划架构,在这里不做更深入描述。
我是从2000年开始接触数据仓库,大约08年开始进入互联网行业,那时在互联网接触到数据平台与传统第三代数据架构还是有很大的类似之处,随着互联网的突飞猛进,每一次的技术变革都带来一场从技术、架构、业务的渐进式变革,到今天互联网、非互联网的数据平台架构已经差异非常大。
回顾早期的企业环境,企业的生产与服务是一个很长周期,导致业务数据呈现一种粗粒度模式。随着互联网的快速渗透从早期的PC终端到“裆下“的 移动终端,对用户的需求与服务周期将逐渐的缩短,业务量级、数据类型多样化与存储的暴增,对应着技术、架构、业务呈现出迅猛发展,相应的数据沉淀与积累也成指数暴涨。
从”数据仓库“ 词开始到现在的“大数据”,中间经历了太多的知识、架构模式的演进与变革,比如说“数据仓库、海量数据、大数据”等。(备注:数据仓库一般指的是:在相当长的时间内堆积数据,仅仅需要处理大量数据请求中的少部分的系统。数据仓库不等同于“海量数据” 。恰恰相反,而是其子集。海量数据也包含:通过大量的连接提供每秒百万次服务请求的系统。大数据是海量数据+复杂类型数据基础上的大分析、高宽带、大内容)。
数据仓库在国外的发展史多年,大约在98-99年左右进入中国,到现在历了大约十多年发展。到了今天尤其是在非互联网、互联网企业两个领域数据平台有显著的区别。本文将以非互联网时代、互联网时代数据平台发展角度来讲述。
很多从传统企业数据平台转到互联网同学是否有感觉,非互联网企业、互联网企业的数据平台所面向用户群体是不同的?这两类的数据平台的建设、使用用户又有变化?数据模型设计又有什么不同呢?
我们先来看用户群体的区别,下边整理了2个图来讲述用户群体相关区别。
一、用户群体
非互联网数据平台用户:

企业的boss、运营的需求主要是依赖于报表、商业智能团队的数据分析师去各种分析与挖掘探索;
支撑这些人是ETL开发工程师、数据模型建模、数据架构师、报表设计人员,同时这些角色又是数据平台数据建设与使用方。
数据平台的技术框架与工具实现主要有技术架构师、JAVA开发等。
用户面对是结构化生产系统数据源。
互联网数据平台用户:

1.互联网企业中员工年龄比非互联网企业的要年轻、受教育程度、对计算机的焦虑程度明显比传统企业要低、还偶遇其它各方面的缘故,导致了数据平台所面对用户群体与非互联网数据平台有所差异化;
2.互联网数据平台的使用与建设方是来自各方面的人,数据平台又是技术、数据产品推进建设的。
3.分析师参与数据平台直接建设比重增加。
4.原有的数据仓库开发与模型架构师的职能也从建设平台转为服务与咨询.
5.用户面对是数据源多样化,比如日志、生产数据库的数据、视频、音频等非结构化数据 。
从这用户群体角度来说这非互联网、互联网的数据平台用户差异性是非常明显,互联网数据平台中很多理论与名词都是从传统数据平台传递过来的,本文将会分别阐述非互联网、互联网数据平台区别。

非互联网时代
自从数据仓库发展起来到现在,基本上可以分为五个时代、四种架构(大家可以详细翻一下数据仓库的发展历史,在这里仅作科普性介绍)
1.约在1991年前的全企业集成
2.1991年后的企业数据集成EDW时代
3.1994年-1996年的数据集市
4.1996-1997年左右的两个架构吵架
5.1998年-2001年左右的合并年代
五个时代划分是以重要事件或代表人物为标志,比如说在企业数据集成EDW时代其重要代表人物是Bill Inmon 代表作数据仓库一书,更重要是他提出了如何建设数据仓库的指导性意见与原则。他遵循的是自上而下的建设原则,这个导致后来数据仓库在千禧年传到中国后的几年内,几个大实施厂商都是遵守该原则的实施方法,后来的数据仓库之路等各种专业论坛上针对数据仓库ODS-EDW的结构讨论(备注:坛子里有个叫吴君,他发表了不少这方面的文章)。
在国内项目实施中IBM、Terdata、埃森哲、菲奈特(被东南收购,东南后来某些原因而倒闭)等很多专业厂商在实施中对ODS层、EDW层都赋予了各种不同的功能与含义。
在数据集市年代其代表人物是Ralph kilmball,他的代表作是”The Data Warehouse Toolkit“,在数据仓库的建设上Ralph kilmball 提出的是自下而上的建设方法,刚好与Bill Innmon的建设方法相反,这两种架构方式各有千秋,所以就进入了争吵时代。
我整理了一个表格是这两位大师的优缺点:

随着数据仓库的不断实践与迭代发展,从争吵期进入到了合并的时代,其实争吵的结果要麽一方妥协,要麽新的结论出现,果然Bill inmon与 Ralph kilmball的争吵没有结论,干脆提出一种新的架构包含对方,也就是后来Bill Inmon 提出的CIF(corporation information factory) 架构模式、这也算是数据仓库的第三代架构,其架构特点是把整个架构划分为不同层次,把每一层次的定义与功能都详细的描述下来,从04年后国内的很多数据仓库架构、甚至互联网刚开始搞数据平台数据仓库架构模式也是这一种。

数据仓库第一代架构
(开发时间2001-2002年)
海尔集团的一个BI项目,架构的ETL 使用的是微软的数据抽取加工工具 DTS,老人使用过微软的DTS 知道有哪些弊端,后便给出了几个DTS的截图。
功能:进销存分析、闭环控制分析、工贸分析等
硬件环境:
业务系统数据库:DB2 for Windows,SQL SERVER2000,ORACLE8I
中央数据库服务器:4*EXON,2G,4*80GSCSI
OLAP 服务器:2*PIV1GHZ,2G,2*40GSCSI




数据仓库第二代架构

这是上海通用汽车的一个数据平台,别看复杂,严格意义上来讲这是一套EDW的架构、在EDS数据仓库中采用的是准三范式的建模方式去构建的、大约涉及到十几种数据源,建模中按照某一条主线把数据都集成起来
这个数据仓库平台计划三年的时间构建完毕,第一阶段计划构建统统一生性周期视图、客户统一视图的数据,完成对数据质量的摸底与部分实施为业务分析与信息共享提供基础平台。第二阶段是完成主要业务数据集成与视图统一,初步实现企业绩效管理。第三阶段全面完善企业级数据仓库,实现核心业务的数据统一。
在第一阶段数据仓库中的数据再次通过阶梯型高度聚合进入到数据集市DM(非挖掘集市)中,完成对业务的支撑。
数据的ETL 采用datastage 工具开发(备注 大约06年我写了国内最早的版本datastage 指南 大约190页叫“datastage 学习版文档”。后来没再坚持下来)。
数据集市架构


这个是国内某银行的一套数据集市,这是一个典型数据集市的架构模式、面向客户经理部门的考虑分析。
数据仓库混合性架构(Cif)


这是太平洋保险的数据平台,目前为止我认识的很多人都在该项目中呆过,当然是保险类的项目。
回过头来看该平台架构显然是一个混合型的数据仓库架构。它有混合数据仓库的经典结构,每一个层次功能定义的非常明确。
ODS层支撑单一的客户视图,是一个偏操作行的做唯一客户识别的,同时提供高可用户性客户主信息查询。
EDW层基于IIW(IBM的通用模型去整理与实施)最细粒度、原子、含历史的数据,也支持查询。
各业务数据集市(DM) 面向详细业务,采用雪花/星型模型去做设计的支撑OLAP、Report、仪表盘等数据展现方式。
新一代架构OPDM 操作型数据集市(仓库)
OPDM大约是在2011年提出来的,严格上来说,OPDM 操作型数据集市(仓库)是实时数据仓库的一种,他更多的是面向操作型数据而非历史数据查询与分析。
在这里很多人会问到什么是操作型数据?首先来看操作型数据支持的企业日常运作的比如财务系统、Crm系统、营销系统生产系统,通过某一种机制实时的把这些数据在各孤岛数据按照业务的某个层次有机的自动化整合在一起,提供业务监控与指导。在2016年的今天看来OPDM在互联网很多企业已经实现了,但是在当时的技术上还是稍微困难点的。
文 | 松子(李博源) songzi2016
来源 | 微信公众号python2004
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-15在数字化时代,企业的每一次业务优化、每一项技术迭代,都需要回答一个核心问题:这个动作到底能带来多少价值?是提升了用户转化 ...
2026-05-15在数据仓库建设中,事实表与维度表是两大核心组件,二者相互关联、缺一不可,共同构成数据仓库的基础架构。事实表聚焦“发生了什 ...
2026-05-15 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-05-15【核心关键词】互联网、机会、运营、关键词、账户、数字化、后台、客户、成本、网络、数据分析、底层逻辑、市场推广、数据反馈 ...
2026-05-14在Python数据分析中,Pandas作为核心工具库,凭借简洁高效的数据处理能力,成为数据分析从业者的必备技能。其中,基于两列(或多 ...
2026-05-14 很多人把统计学理解为“一堆公式和计算”,却忽略了它的本质——一门让数据“开口说话”的科学。真正的数据分析高手,不是会 ...
2026-05-14在零售行业存量竞争日趋激烈的当下,客户流失已成为侵蚀企业利润的“隐形杀手”——据行业数据显示,零售企业平均客户流失率高达 ...
2026-05-13当流量红利消退、用户需求日趋多元,“凭经验决策、广撒网投放”的传统营销模式早已难以为继。大数据的崛起,为企业营销提供了全 ...
2026-05-13 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-05-13在手游行业存量竞争日趋激烈、流量成本持续高企的当下,“拉新”早已不是行业核心痛点,“留存”尤其是“付费留存”,成为决定手 ...
2026-05-12 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-05-12用户调研是企业洞察客户需求、优化产品服务、制定运营策略的核心前提,而调研数据的可靠性,直接决定了决策的科学性与有效性。在 ...
2026-05-11在市场竞争日趋激烈、流量成本持续攀升的今天,企业的核心竞争力已从“获取流量”转向“挖掘客户价值”。客户作为企业最宝贵的资 ...
2026-05-11 很多数据分析师精通Excel单元格操作,熟练应用多种公式,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质 ...
2026-05-11在互联网运营、产品优化、用户增长等领域,次日留存率是衡量产品价值、用户粘性与运营效果的核心指标,更是判断新用户是否认可产 ...
2026-05-09相关性分析是数据分析领域中用于探究两个或多个变量之间关联强度与方向的核心方法,广泛应用于科研探索、商业决策、医疗研究、社 ...
2026-05-09 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-05-09在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08