京公网安备 11010802034615号
经营许可证编号:京B2-20210330
云计算与大数据环境下的数据集成能力建设的关键条件
随着企业业务的增长,伴随企业各类应用系统逐步启用,结果导致数据量几何级数的增长,传统的整合数据的方式正在受到挑战,于此同时,云计算及网上应用在企业内部产生各类结构化、非结构化数据,这些数据所蕴含的信息(尤其是非结构化数据)是传统分析工具无法捕捉的。本文主要阐述在企业信息化过程中,数据整合的能力建设所需要考虑的一些关键问题。
从根本来说,企业信息化的目的是为了降低沟通成本、提高工作效率、增强科学决策能力,从手段上是将分散、无序、无时效的数据变成有序、可分享、有时效、可追溯的数据,前者数据过渡到后者数据,就是无信息(或不可信信息)变成可信信息的过程。数据蕴含的信息有两类:1、交易信息,即某一条/或几条数据本身所包含的信息;2、统计信息,即数据集合所蕴含的规律性信息。下图表现了交易数据与统计数据的关系和传统架构方法,即ETL模型。
图1:典型传统数据仓库架构
传统整合基本上是基于ETL模式,即从企业内部的信息系统中抽取(Extract),然后根据预先定义的方式转换(Transform),最后载入到企业的数据仓库(Load),大部分企业的ETL程序定义在每天晚上运行,这类的方法有以下问题:
1、数据仓库的数据不是实时的信息
2、如果内部信息系统数据量很大,ETL处理时间不可能按时完成。
3、数据仓库的信息无法快速反馈数据到基层处理商务的人员,图示1中红色打叉的部分。
4、ERP本身在多年数据积累后,事务处理与订单查询都会变慢。
5、无法处理大数据,ETL的整个数据处理过程都是建立在已知/预定义的模型之上的,也就是ETL无法发掘到数据集蕴含的未知规律。
a)结构化大数据,除上述第2点外,针对大数据的深度挖据分析能力(非简单根据预先设计的模型做数据转换),传统的系统架构中是无法完成的。
b)非结构化、半结构化大数据。非架构化数据从本质上来讲,是企业无法预先定义规则的数据类型,据IDC的一项调查报告中指出:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。传统的方式是无法计算统计非结构化大数据包含的新类型统计信息。
根据上述问题,企业信息系统的数据整合的目标需要满足以下条件:
1、提高数据的质量
低质量的数据带来的问题:
1.1统计数据会有误导,误导的数据直接结果很可能是企业战略决策错误。
1.2基层人员工作效率低下。由于基层人员不信任数据,就会产生额外的工作去核对并验证。由于数据不准确也会产生更多的操作性错误,如:发货地址错误,货款核对产生歧义等。这些都会带来大量的额外工作,根据2/8原理,80%的额外工作都缘于20%的错误。
1.3无法根据信息系统记录做更多的分析统计,如6 Sigma类似的项目将无数据基础,项目无法推进。
2、数据安全:由于各类中间件的应用、云计算集成环境的广泛普及,数据源需要提供更广泛的数据输出的能力,与此同时,数据保护能力需要更加完善,传统在应用软件层面的保护方式是无法满足此类需求的。保护数据需要考虑:传输加密和身份认证。
3、与“云计算”的集成能力:在云计算环境里,无论是基础数据还是交易数据,将不仅限于某一种应用系统中使用,甚至数据很可能需要跨越公司的防火墙,与外部的云计算环境集成。
4、大数据能力:举个典型的例子,企业使用web日志、社交媒体(social media,如微博)数据分析大量客户的偏好,同时使用企业与客户已经成交的交易记录,建立更好的预测模型,更直接有效的市场推广或更好的客户体验。而上述的web日志和社交媒体的数据都是非结构化的大数据。
5、高性能/满足实时的要求:举个典型的贸易公司为例,该公司需要根据客户以往的信用记录决定是否订货或发货,如果没有实时统计能力,此类的商业模型在执行起来会困难重重。越来越多的企业希望将部分的决策过程下放到执行层面的基层,基层的决策需要实时的统计结果、可追溯的决策结果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
逻辑回归是数据分析、机器学习、统计建模中应用最广泛的二分类预测模型,常用于风险判断、行为预测、归因分析等场景。在SPSS、Py ...
2026-06-02数字经济时代,市场竞争日趋同质化,用户消费需求愈发个性化、多元化,传统依托经验、粗放式、广撒网的营销模式弊端日益凸显。长 ...
2026-06-02 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-06-02在市场竞争日趋饱和、用户需求不断细分的当下,企业创业创新、产品迭代与市场拓展不再依赖经验决策,而是需要系统化、工具化的商 ...
2026-06-01【核心关键词】调度、岗位、数据库、企业、报表、培训、程序、数据分析、数据加工、业务部门、企业数据、调度工具、业务指标、 ...
2026-06-01 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-06-01在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25