京公网安备 11010802034615号
经营许可证编号:京B2-20210330
企业数据质量管理核心要素和技术原则
在这个环境和趋势中,数据是得以实现整个规划布局的前提。
在将数据作为资产的前提下,企业的运营需要准确的、完整的、及时的、高价值、高质量的数据。
一、数据质量管理的三个要素
数据是企业数字化转型的核心要素,企业的决策者根据数据背后所反映出来的现象或趋势。分析并洞察出其背后有价值的信息,进而在决策和行动中,赢得先机,做出正确的判断。
企业产品生产过程中数字化能力已经逐步取代传统的产品制作模式,以生产男式西装为主红领集团为例,用户在手机APP上下单之后,测量师会到你家里做定式测量,然后在版型库里做自动设计,自动排产之后就能生产使用了。整个过程都是基于高质量的数据驱动的,数据质量成为业务的生命线。
在企业数字化转型的进程中,数据的质量成为了一个制约因素。
数据能发挥价值的大小依赖于其数据的质量的高低,高质量的数据是企业业务能力的基础。
但劣质的数据还不如没有数据依据经验的进行决策,通过错误的数据分析出的结果会带来灾难。
数据质量问题产生的原因有很多方面,比如在技术、管理、流程方面都会碰到。企业要在把这些方面的数据质量问题都管控到,监控好,才能从整体上提高质量水平。
今天我们先谈一下在技术领域中该注意哪些。
在技术问题域中要提高数据质量水平,数据的梳理、数据规范以及数据生命周期是三个关键的要素。
我们先来看数据梳理,数据梳理有两个目的:
摸清楚企业当前有哪些数据,分别在什么地方,表现形态是什么样子的,是哪些业务部门使用,哪些技术部门支撑,它能为数据质量提升提供一个全面的数据现状参考。
理清楚企业当下数据的分类以及分类之间的关系,进而知道哪些数据是基础数据,哪些是由基础数据组装成的衍生数据,明确了这些也就找到了提升数据质量水平的突破点。
在项目实践中,对数据梳理核心的一环是对企业内的元数据梳理,对元数据的梳理能解决理清企业数据现状和明晰核心基础数据,是数据梳理的核心工作内容,被一些企业形象的比喻成摸家底工程。
如上图所示,我们对企业交易数据进行剖析发现,交易数据的组成其核心是由主数据、参考数据和元数据组成。如果每一类数据的元数据在名称和格式上存在差异的话,那么数据的质量必然不高。
例如:在交易数据里面有产品名称和描述这两个元数据,而在主数据中表述这两个对象的名称是产品名称和产品描述,若两边的字段类型长度也存在不一致,那数据有质量问题那是必然的。
下面我们介绍数据规范,这里的规范主要指数据标准和数据模型,我们分开介绍。
数据模型是获取和定义企业信息需求和数据需求的一种方法,它表述了全企业范围内的数据整合的主蓝图,是系统开发项目的关键输入,也是项目数据需求分析和数据建模工作的基线。
如电力行业的CIM模型,电信行业的ETOM模型,指导这电力和电信信息系统的建设,以确保数据质量从开始就能得到保证,还可以为现有应用软件的数据质量水平提供衡量标准。
数据标准是对企业数据模型的一种补充,是对企业数据模型中重要数据制定的规范性文件,是数据质量管理和监控的手段。
它促进企业数据模型落地,也担负着对企业存量系统中关键数据进行标准化的任务。
企业数据模型在落地的过程中,各部门看待问题的角度不一样,加之有些外购产品的限制,不能很好的按企业数据模型的规范进行落实,导致数据在集成,互联互通的时候碰到数据不一致的问题,数据质量问题随处可见。
如果系统(项目)模型设计的时候,有一套能遵循的规范,那么就能解决这一问题。数据标准就扮演了这么一个角色,它从企业数据模型中剥离出重要的业务实体,在系统(项目)模型设计的时候,实现了对模型设计是否符合企业数据模型规范的监控和评审,并从管理和认责的角度切入进去,很好的解决了上述问题。
数据和货币一样,流通起来的价值远远大于它静态的价值。因此我们要对数据生命周期的每个环节进行监控把关,知道在每个环节数据发生了什么变化,才能采取相应的手段来处理质量问题。
比如在规划阶段,我们要参考企业数据模型进行系统模型的设计,并且要遵循数据标准的规范要求。在获取阶段要重点关注数据的及时性问题,数据传输的问题;
在存储和共享过程中要重点关注数据的整合问题,数据一致性,完整性问题。
数据生命周期我们在实践中总结了几个技术原则,在第二部分的分享中给大家做介绍。
这里,我们针对数据生命周期再介绍一种分析数据质量问题的应用场景,它对我们实施数据质量项目,是一个不错的参考。
上图是客户信息产生,维护和使用的一个样例场景。
在图中每个节点是企业中的一个部门,客户信息从左至右流动,在这个场景中我们发现销售部、市场部、客户信息管理部都有维护客户信息的权利,且所使用的系统不统一。
在系统建设时,元数据,数据格式,信息校验方式都不一致,这导致商务职能部,市场策划部通过数据进行分析是产生了很大的困惑,他们必须经过大量的调查明晰数据的含义,进过清洗,转换,标准化数据的格式后才能使用。
利用数据生命周期的分析思路,若能在管理和流程上明确数据维护的责任主体,在源头处切入质量监控节点,对关键元数据进行统一,将能有效的解决这些问题,数据质量也能大幅度的提升。
二、 数据质量管理的技术关键点
在技术实践上,如何利用技术能力,帮助企业更容易的实现数据质量的提升,我们在项目中提炼了四项技术原则。
原则1::从需求开始控制数据质量
数据质量一直是企业的痛点,数据质量不高,分析和挖掘无从谈起,但是企业容易出现的问题是只对已经产生的数据做检查,然后再将错误数据剔除,这种方法治标不治本,不能从根本上解决问题。
要想真正解决数据质量问题,应该从需求开始,将数据质量的服务集成到需求分析人员、模型设计人员与开发人员的工作环境中,让大家在日常的工作环境中自动控制数据质量,在数据的全生命周期中控制数据质量。
原则2:在集成点检查数据质量
在企业大数据治理过程中,对于大数据生产线中的每个集成点,都需要做数据质量的检查,严格控制输入数据的质量。比如在数据采集过程,集成过程,分析过程等等都需要做检查。
但在大数据环境中,每个集成点都会有海量数据量流过,把数据逐条检查这种传统方式是行不通的,应该采用抽样的方式,对一批数据做数据质量的检查,来确定这批数据是否满足一定的质量区间,再决定是否需要对这批数据做详细的检查。
原则3:持续积累检核规则
目前企业内的数据主要分为外部数据和内部数据,大数据时代到来让各企业广泛采购第三方数据,第三方数据的质量逐渐成为决定企业数据质量的关键因素。
对于企业的内部数据,可以通过业务梳理直接获得质量检核规则。但是对于外部第三方数据,需要先对这些数据进行采样,并应用关联算法自动发现其中的质量检核规则,并将这些检核规则持续积累,形成外部数据的检核规则库。
原则4:自动化质量评分
企业的数据管理需要对整个企业大数据的质量有评判机制,需要能够自动化的对企业数据评分,促进整改。通过控制防止问题数据进入大数据平台。特别对于第三方数据,第三方数据的质量需要建立一定的评估模型,对于第三方数据的质量做一定的控制,从而能够保护企业的投资,使企业购买的数据真正有价值和意义。
三、数据质量管理实战
上面介绍了数据质量管理的核心三要素,以及基于三要素在实战中抽取出来的四项技术原则。下面我们看一个完整案例。
这是一个新建系统从需求到投产的场景案例,数据质量管控和切入共包含五个步骤。
基于系统建设的业务需求,分析数据标准规范,建立需求和标准的映射。从企业角度通过映射标准了解到需求是解决那个数据主题域的业务问题。数据标准的映射也统一了业务术语,实现了源头出控制质量的目的。
参考企业数据模型,依据本次业务需求设计出系统(项目)模型,系统模型的核心数据模型来源于企业数据模型。企业数据模型的参考从模型层面避免了,字段类型,字段长度,字段命名不统一,不一致的问题。
上述两步骤完成了数据生命周期的规划阶段,也按数据管理要素二思路落实企业数据模型。步骤三实现了本次系统建设的元数据管理,附加实现了核查系统元数据是否符合企业数据模型规范,是否符合数据标准规范的工作。
对涉及数据集成整合的场景,要对数据生命周期中数据传输的几个环节进行数据质量监控和检核,也就是在集成点处进行监控。在此阶段设计到数据质量规则制定的工作内容。实现传输过程中数据质量的把关。
若本次系统建设导致其他系统发生变更时,需要协同变更,是否发生变更时基于数据梳理实现元数据自动化管理所带来的直接保证。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16