京公网安备 11010802034615号
经营许可证编号:京B2-20210330
企业数据质量管理核心要素和技术原则
在这个环境和趋势中,数据是得以实现整个规划布局的前提。
在将数据作为资产的前提下,企业的运营需要准确的、完整的、及时的、高价值、高质量的数据。
一、数据质量管理的三个要素
数据是企业数字化转型的核心要素,企业的决策者根据数据背后所反映出来的现象或趋势。分析并洞察出其背后有价值的信息,进而在决策和行动中,赢得先机,做出正确的判断。
企业产品生产过程中数字化能力已经逐步取代传统的产品制作模式,以生产男式西装为主红领集团为例,用户在手机APP上下单之后,测量师会到你家里做定式测量,然后在版型库里做自动设计,自动排产之后就能生产使用了。整个过程都是基于高质量的数据驱动的,数据质量成为业务的生命线。
在企业数字化转型的进程中,数据的质量成为了一个制约因素。
数据能发挥价值的大小依赖于其数据的质量的高低,高质量的数据是企业业务能力的基础。
但劣质的数据还不如没有数据依据经验的进行决策,通过错误的数据分析出的结果会带来灾难。
数据质量问题产生的原因有很多方面,比如在技术、管理、流程方面都会碰到。企业要在把这些方面的数据质量问题都管控到,监控好,才能从整体上提高质量水平。
今天我们先谈一下在技术领域中该注意哪些。
在技术问题域中要提高数据质量水平,数据的梳理、数据规范以及数据生命周期是三个关键的要素。
我们先来看数据梳理,数据梳理有两个目的:
摸清楚企业当前有哪些数据,分别在什么地方,表现形态是什么样子的,是哪些业务部门使用,哪些技术部门支撑,它能为数据质量提升提供一个全面的数据现状参考。
理清楚企业当下数据的分类以及分类之间的关系,进而知道哪些数据是基础数据,哪些是由基础数据组装成的衍生数据,明确了这些也就找到了提升数据质量水平的突破点。
在项目实践中,对数据梳理核心的一环是对企业内的元数据梳理,对元数据的梳理能解决理清企业数据现状和明晰核心基础数据,是数据梳理的核心工作内容,被一些企业形象的比喻成摸家底工程。
如上图所示,我们对企业交易数据进行剖析发现,交易数据的组成其核心是由主数据、参考数据和元数据组成。如果每一类数据的元数据在名称和格式上存在差异的话,那么数据的质量必然不高。
例如:在交易数据里面有产品名称和描述这两个元数据,而在主数据中表述这两个对象的名称是产品名称和产品描述,若两边的字段类型长度也存在不一致,那数据有质量问题那是必然的。
下面我们介绍数据规范,这里的规范主要指数据标准和数据模型,我们分开介绍。
数据模型是获取和定义企业信息需求和数据需求的一种方法,它表述了全企业范围内的数据整合的主蓝图,是系统开发项目的关键输入,也是项目数据需求分析和数据建模工作的基线。
如电力行业的CIM模型,电信行业的ETOM模型,指导这电力和电信信息系统的建设,以确保数据质量从开始就能得到保证,还可以为现有应用软件的数据质量水平提供衡量标准。
数据标准是对企业数据模型的一种补充,是对企业数据模型中重要数据制定的规范性文件,是数据质量管理和监控的手段。
它促进企业数据模型落地,也担负着对企业存量系统中关键数据进行标准化的任务。
企业数据模型在落地的过程中,各部门看待问题的角度不一样,加之有些外购产品的限制,不能很好的按企业数据模型的规范进行落实,导致数据在集成,互联互通的时候碰到数据不一致的问题,数据质量问题随处可见。
如果系统(项目)模型设计的时候,有一套能遵循的规范,那么就能解决这一问题。数据标准就扮演了这么一个角色,它从企业数据模型中剥离出重要的业务实体,在系统(项目)模型设计的时候,实现了对模型设计是否符合企业数据模型规范的监控和评审,并从管理和认责的角度切入进去,很好的解决了上述问题。
数据和货币一样,流通起来的价值远远大于它静态的价值。因此我们要对数据生命周期的每个环节进行监控把关,知道在每个环节数据发生了什么变化,才能采取相应的手段来处理质量问题。
比如在规划阶段,我们要参考企业数据模型进行系统模型的设计,并且要遵循数据标准的规范要求。在获取阶段要重点关注数据的及时性问题,数据传输的问题;
在存储和共享过程中要重点关注数据的整合问题,数据一致性,完整性问题。
数据生命周期我们在实践中总结了几个技术原则,在第二部分的分享中给大家做介绍。
这里,我们针对数据生命周期再介绍一种分析数据质量问题的应用场景,它对我们实施数据质量项目,是一个不错的参考。
上图是客户信息产生,维护和使用的一个样例场景。
在图中每个节点是企业中的一个部门,客户信息从左至右流动,在这个场景中我们发现销售部、市场部、客户信息管理部都有维护客户信息的权利,且所使用的系统不统一。
在系统建设时,元数据,数据格式,信息校验方式都不一致,这导致商务职能部,市场策划部通过数据进行分析是产生了很大的困惑,他们必须经过大量的调查明晰数据的含义,进过清洗,转换,标准化数据的格式后才能使用。
利用数据生命周期的分析思路,若能在管理和流程上明确数据维护的责任主体,在源头处切入质量监控节点,对关键元数据进行统一,将能有效的解决这些问题,数据质量也能大幅度的提升。
二、 数据质量管理的技术关键点
在技术实践上,如何利用技术能力,帮助企业更容易的实现数据质量的提升,我们在项目中提炼了四项技术原则。
原则1::从需求开始控制数据质量
数据质量一直是企业的痛点,数据质量不高,分析和挖掘无从谈起,但是企业容易出现的问题是只对已经产生的数据做检查,然后再将错误数据剔除,这种方法治标不治本,不能从根本上解决问题。
要想真正解决数据质量问题,应该从需求开始,将数据质量的服务集成到需求分析人员、模型设计人员与开发人员的工作环境中,让大家在日常的工作环境中自动控制数据质量,在数据的全生命周期中控制数据质量。
原则2:在集成点检查数据质量
在企业大数据治理过程中,对于大数据生产线中的每个集成点,都需要做数据质量的检查,严格控制输入数据的质量。比如在数据采集过程,集成过程,分析过程等等都需要做检查。
但在大数据环境中,每个集成点都会有海量数据量流过,把数据逐条检查这种传统方式是行不通的,应该采用抽样的方式,对一批数据做数据质量的检查,来确定这批数据是否满足一定的质量区间,再决定是否需要对这批数据做详细的检查。
原则3:持续积累检核规则
目前企业内的数据主要分为外部数据和内部数据,大数据时代到来让各企业广泛采购第三方数据,第三方数据的质量逐渐成为决定企业数据质量的关键因素。
对于企业的内部数据,可以通过业务梳理直接获得质量检核规则。但是对于外部第三方数据,需要先对这些数据进行采样,并应用关联算法自动发现其中的质量检核规则,并将这些检核规则持续积累,形成外部数据的检核规则库。
原则4:自动化质量评分
企业的数据管理需要对整个企业大数据的质量有评判机制,需要能够自动化的对企业数据评分,促进整改。通过控制防止问题数据进入大数据平台。特别对于第三方数据,第三方数据的质量需要建立一定的评估模型,对于第三方数据的质量做一定的控制,从而能够保护企业的投资,使企业购买的数据真正有价值和意义。
三、数据质量管理实战
上面介绍了数据质量管理的核心三要素,以及基于三要素在实战中抽取出来的四项技术原则。下面我们看一个完整案例。
这是一个新建系统从需求到投产的场景案例,数据质量管控和切入共包含五个步骤。
基于系统建设的业务需求,分析数据标准规范,建立需求和标准的映射。从企业角度通过映射标准了解到需求是解决那个数据主题域的业务问题。数据标准的映射也统一了业务术语,实现了源头出控制质量的目的。
参考企业数据模型,依据本次业务需求设计出系统(项目)模型,系统模型的核心数据模型来源于企业数据模型。企业数据模型的参考从模型层面避免了,字段类型,字段长度,字段命名不统一,不一致的问题。
上述两步骤完成了数据生命周期的规划阶段,也按数据管理要素二思路落实企业数据模型。步骤三实现了本次系统建设的元数据管理,附加实现了核查系统元数据是否符合企业数据模型规范,是否符合数据标准规范的工作。
对涉及数据集成整合的场景,要对数据生命周期中数据传输的几个环节进行数据质量监控和检核,也就是在集成点处进行监控。在此阶段设计到数据质量规则制定的工作内容。实现传输过程中数据质量的把关。
若本次系统建设导致其他系统发生变更时,需要协同变更,是否发生变更时基于数据梳理实现元数据自动化管理所带来的直接保证。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05数据治理是数字化时代企业实现数据价值最大化的核心前提,而CDA(Certified Data Analyst)数据分析师作为数据全生命周期的核心 ...
2026-03-05在实验检测、质量控制、科研验证等场景中,“方法验证”是确保检测/分析结果可靠、可复用的核心环节——无论是新开发的检测方法 ...
2026-03-04在数据分析、科研实验、办公统计等场景中,我们常常需要对比两组数据的整体差异——比如两种营销策略的销售额差异、两种实验方案 ...
2026-03-04