京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据质量构建10误区
关于高质量信息的价值,已有无数研究报告做了阐述,企业质量改进计划也迅速蹿红,成为业界关注的焦点。 数据质量改进曾经是乏味无趣的工作,充斥着企业的后台管理系统,但如今它是享有最高优先级的工作。
不过,值得注意的是,数据质量改进不仅仅是姓名与通讯地址的更正,这个问题的复杂性与企业的信息使用量成正比。
有10个误区是热衷于构建数据质量计划的企业应加以防范的。
1. 使用灾难性事件作为改进数据质量的驱动力
奇闻轶事很容易获得上级管理层的认可,因为这些事件为他们提供了一个表现的机会―即更正其中的数据,从而成为“英雄”。 由此带来的问题是,对于数据质量改进的关注度只能维持到发生下一次危机的时刻。 满足一时之需,只能解决表面问题,无助于根除潜在隐患。
下面的列表将帮助你拟定一个可靠的价值主张,说明数据质量改进如何帮助企业高效地实现业务目标:
·找出糟糕的数据质量影响了哪些关键业务。
·将具体的成本与数据缺陷关联起来,并使用数据缺陷发生频率的函数计算总成本。
·使用相关业务术语量化上述影响。
·评估根除这些数据缺陷源头所需要的成本。
·确定用来对数据质量实施持续监测与报告的关键度量指标。
评估改进后数据质量的投资回报率时需要格外注意,不要把那些只包含运营预算或收益百分比等不确切“行业数据”的商业案例摆到企业高管层的面前,他们是不会关注这样的商业案例的。 拟定数据质量商业案例需要进行认真的调查研究,与业务领域专家进行讨论,并且要稳健务实。
2. 把信息质量与管理数据的人关联
在谈论数据时,人们出于习惯会直接说好或糟糕。因此我们可能会在不经意间把“好”或“糟糕”的评价与管理数据的人联系起来。
当你说某个数据库的记录比较糟糕时,数据库的管理员可能会觉得你是冲着他来的。 因此,数据质量措施常常遭到抵制―因为数据所有者认为提供质量糟糕的数据会让人觉得他们的个人绩效很差。结果信息被保护起来。
为了避免此问题,必须消除信息质量的人格化特征。 在可用于评估业务规则符合度的声明中,你要简明扼要地说明业务期望,从而消除数据中的价值判断。 反过来,这个方法提供了对信息有效性进行量化的方法,即运用意在鼓励信息开放的相关业务指标对信息有效性进行量化。
3. 未能打造主动的工作氛围
如果数据危机发生在被动的工作氛围中,引发错误的数据先是被找出来、纠正,崩溃的流程又重新启动,然后每个人都叹了口气,从恐慌中放松下来,直到下一次危机的爆发。但是,这不是一个合理的流程。原因在于未能将形成一个成熟的、主动应对问题的工作氛围。在主动的工作氛围里,相关人员会在信息流的最初阶段就度量数据质量目标的符合度,从而在信息缺陷恶化为严重问题前发现这些缺陷。
以下原则可以帮助企业将被动的工作氛围变得主动:第一,确定关键的业务数据质量预期;第二,清晰确定上述预期作为业务规则存在的身份;第三, 度量数据与所定义业务规则的符合度,从而提供关键数据质量指标。
4. 先采购软件
虽然数据质量软件工具是数据质量计划中的关键组成部分,但在采购之前还是应该问一下以下问题:采购的动机是什么?目前的流程是什么?在提高数据质量计划有效性方面有什么改进潜力?
成功的企业在获得数据质量工具之前都会采取两项重要措施。 首先,进行业务需求评估,了解企业内普遍存在的数据质量问题。团队成员在企业内部收集各种需求和愿望,并根据所需对这些需求和愿望排定优先级,从而反映出业务采购需求。其次,为了在采购完成后尽快部署资源,成功的企业制定了所需技术的使用策略和使用流程。
5. 忽视数据
如今,企业通常都会管理千兆、兆兆规模的数据系统,并且数据的规模仍不断增长。但是,由于缺少全面的数据分析,这些组织很难发现潜在的数据质量问题。 如果无法了解存在何种问题,改进数据质量又从何说起呢?
为了了解存在的问题,你需要将有效的分析、评估流程与数据剖析、数据标准化、数据匹配等工具结合使用。数据剖析工具可以帮助分析师发现妨碍业务目标达成的信息缺陷。
全面的数据分析有助于提高数据质量问题识别的效率,以及制定消除这些问题的规则。
6. 不了解员工行为
如果不能正确认识体系内员工的行为,世界上任何技术都无法消除数据质量问题。 你可能会遇到以下一些常见问题:
第一,如果没有上游系统所有人的合作,数据仓库管理员在控制输入数据质量方面往往束手无策。 为了满足数据仓库级别严格的数据质量需求,需要从上游管理员处获得额外的资源分配。 不幸的是,上游管理员会认为这种强加的需求不合理,因为他们所管理的应用并不会从期望的质量改进中直接获益。
第二,在一组操作流程中寻找数据质量缺陷无异于揭发流程相关人员的工作低效。大家对于数据质量评估的自然反应就是,掩盖与个人绩效有关的任何潜在问题,而不是向别人暴露这些问题(以及任何可能的后果)。
第三,由接入呼叫中心员工收集的数据可以应用于多个应用程序。企业可以将其劳动报酬与工作量以及所收集数据的准确性挂钩。
了解员工的行为对于构建数据质量计划具有重要意义。 在潜在问题全面爆发之前,企业就应当采取积极主动的态度来应对这些问题。
7. 未能管理好主参考数据
如果企业未能准确定义业务术语,数据质量将会受到影响。在标准化常见业务术语的管理及其相应数据元素的表示方法中,如果不能保持精确就会引发问题。
为了避免发生问题,可以运用某个流程来鼓励专业领域专家与信息架构师进行结构化合作。 企业可以从该方法中获得两方面的收益。首先,该方法帮助建立了常用术语库,澄清了业务定义。其次,在它的指导下,建立了在元数据框架内集中管理这些定义的框架。
因此,你可以在业务规则符合度方面阐明数据质量预期。此外,你还可以获得关于数据质量的认定断言,作为企业知识在企业元数据框架内进行管理。
8. 将数据质量工作孤立在IT部门
说到底,数据质量主要还是与业务相关,如果让IT员工负责数据质量计划就大错特错了。 其结果就是支持数据质量措施的业务案例经常充满大量技术内容,并且强调要购买工具,而不是推动与业务相关的可度量的质量改进。
即便是计划得到批准,过分关注技术也会导致业务影响方面的评估被忽略掉。 更重要的是,人们会认为数据质量改进是一个成本中心而非利润中心。
所以,企业要调整与数据质量所有权相关的思想过程。如果数据缺陷反映的是与业务预期不符而产生的业务影响,那确认这些预期的规则应该是业务客户制定的。之后IT部门才可以参与部署工具,以确定哪些方面不符合预期。这样就制造了IT与业务合作的机会。
9. 没有储备适合的专业人才
制定数据质量计划是一项战略性工作―其成功同时依赖于业务和技术专业人才。由于数据质量管理很大程度上,尤其是在企业级别,其性质是建议性的,因此数据质量计划的作用就更为复杂。
不难想见,大家都期望一旦数据质量计划启动,数据质量就一定会有明显的改善。流程工具间的紧密结合使问题更趋复杂。如果你认为数据质量管理员应当为一些行动负责,但是他却不一定拥有实施这些行动所需的知识或权限,这就导致了潜在的两难境地。这让人不知该从何入手来解决问题。
构建数据质量计划时,应该实施以下措施:
首先,在计划开始时,招募一些在数据质量计划管理方面有经验的专业人士。这些人能抓住战术上取得成功的机会,从而使计划获得战略上的成功。
其次,邀请外部专家帮助启动改进流程。 这样做可以让你的团队明白,你们的问题不是特例,同时可以学习他人的最佳实践。
然后,利用顾问的角色及内部流程,将数据质量改进的责任分摊到现有的信息管理部门。
最后,不要忘记实施有关策略和流程的培训―尤其是要培训如何使用所采购的工具。
10. 未能建立企业数据质量卓越中心
再开明的企业都曾犯过的错误是,不能抓住最佳实践并将其移植到企业的各个层级。对于数据质量来说,与工具相关联的数据如果没有整合到卓越中心,其负面影响可能翻倍。
卓越中心是一个负责部署企业数据质量战略的组织级工作小组。其职能包括制定指导原则,协助评估业务需求,推荐可采购的工具,创建充分利用这些工具的流程,并提供分享数据质量改进经验的方法。建立卓越中心将带来以下回报:
第一,标准化解决特定问题所需的方法和工具;第二,在软硬件采购上实现规模经济;第三,为数据质量改进提供业务模型;第四,将质量改进计划所需投资分摊到不同部门;第五,记录企业不同部门的最佳实践,使每个人从共同的经验中受益;第六,建立开发数据标准的论坛;第七,在工具和方法的使用方面组织专业培训;第八,减少总的项目管理成本。
数据质量改进是结合了业务敏感性、高科技工具和良好定义流程的一个过程。 你也许认为自己遇到的问题与众不同,实际上这些问题与很多其他企业所遇到的问题很相似。
数据质量主要还是与业务相关,如果让IT员工负责数据质量计划就大错特错了了,这不会推动与业务相关的可度量的质量改进。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27