京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据质量构建10误区
关于高质量信息的价值,已有无数研究报告做了阐述,企业质量改进计划也迅速蹿红,成为业界关注的焦点。 数据质量改进曾经是乏味无趣的工作,充斥着企业的后台管理系统,但如今它是享有最高优先级的工作。
不过,值得注意的是,数据质量改进不仅仅是姓名与通讯地址的更正,这个问题的复杂性与企业的信息使用量成正比。
有10个误区是热衷于构建数据质量计划的企业应加以防范的。
1. 使用灾难性事件作为改进数据质量的驱动力
奇闻轶事很容易获得上级管理层的认可,因为这些事件为他们提供了一个表现的机会―即更正其中的数据,从而成为“英雄”。 由此带来的问题是,对于数据质量改进的关注度只能维持到发生下一次危机的时刻。 满足一时之需,只能解决表面问题,无助于根除潜在隐患。
下面的列表将帮助你拟定一个可靠的价值主张,说明数据质量改进如何帮助企业高效地实现业务目标:
·找出糟糕的数据质量影响了哪些关键业务。
·将具体的成本与数据缺陷关联起来,并使用数据缺陷发生频率的函数计算总成本。
·使用相关业务术语量化上述影响。
·评估根除这些数据缺陷源头所需要的成本。
·确定用来对数据质量实施持续监测与报告的关键度量指标。
评估改进后数据质量的投资回报率时需要格外注意,不要把那些只包含运营预算或收益百分比等不确切“行业数据”的商业案例摆到企业高管层的面前,他们是不会关注这样的商业案例的。 拟定数据质量商业案例需要进行认真的调查研究,与业务领域专家进行讨论,并且要稳健务实。
2. 把信息质量与管理数据的人关联
在谈论数据时,人们出于习惯会直接说好或糟糕。因此我们可能会在不经意间把“好”或“糟糕”的评价与管理数据的人联系起来。
当你说某个数据库的记录比较糟糕时,数据库的管理员可能会觉得你是冲着他来的。 因此,数据质量措施常常遭到抵制―因为数据所有者认为提供质量糟糕的数据会让人觉得他们的个人绩效很差。结果信息被保护起来。
为了避免此问题,必须消除信息质量的人格化特征。 在可用于评估业务规则符合度的声明中,你要简明扼要地说明业务期望,从而消除数据中的价值判断。 反过来,这个方法提供了对信息有效性进行量化的方法,即运用意在鼓励信息开放的相关业务指标对信息有效性进行量化。
3. 未能打造主动的工作氛围
如果数据危机发生在被动的工作氛围中,引发错误的数据先是被找出来、纠正,崩溃的流程又重新启动,然后每个人都叹了口气,从恐慌中放松下来,直到下一次危机的爆发。但是,这不是一个合理的流程。原因在于未能将形成一个成熟的、主动应对问题的工作氛围。在主动的工作氛围里,相关人员会在信息流的最初阶段就度量数据质量目标的符合度,从而在信息缺陷恶化为严重问题前发现这些缺陷。
以下原则可以帮助企业将被动的工作氛围变得主动:第一,确定关键的业务数据质量预期;第二,清晰确定上述预期作为业务规则存在的身份;第三, 度量数据与所定义业务规则的符合度,从而提供关键数据质量指标。
4. 先采购软件
虽然数据质量软件工具是数据质量计划中的关键组成部分,但在采购之前还是应该问一下以下问题:采购的动机是什么?目前的流程是什么?在提高数据质量计划有效性方面有什么改进潜力?
成功的企业在获得数据质量工具之前都会采取两项重要措施。 首先,进行业务需求评估,了解企业内普遍存在的数据质量问题。团队成员在企业内部收集各种需求和愿望,并根据所需对这些需求和愿望排定优先级,从而反映出业务采购需求。其次,为了在采购完成后尽快部署资源,成功的企业制定了所需技术的使用策略和使用流程。
5. 忽视数据
如今,企业通常都会管理千兆、兆兆规模的数据系统,并且数据的规模仍不断增长。但是,由于缺少全面的数据分析,这些组织很难发现潜在的数据质量问题。 如果无法了解存在何种问题,改进数据质量又从何说起呢?
为了了解存在的问题,你需要将有效的分析、评估流程与数据剖析、数据标准化、数据匹配等工具结合使用。数据剖析工具可以帮助分析师发现妨碍业务目标达成的信息缺陷。
全面的数据分析有助于提高数据质量问题识别的效率,以及制定消除这些问题的规则。
6. 不了解员工行为
如果不能正确认识体系内员工的行为,世界上任何技术都无法消除数据质量问题。 你可能会遇到以下一些常见问题:
第一,如果没有上游系统所有人的合作,数据仓库管理员在控制输入数据质量方面往往束手无策。 为了满足数据仓库级别严格的数据质量需求,需要从上游管理员处获得额外的资源分配。 不幸的是,上游管理员会认为这种强加的需求不合理,因为他们所管理的应用并不会从期望的质量改进中直接获益。
第二,在一组操作流程中寻找数据质量缺陷无异于揭发流程相关人员的工作低效。大家对于数据质量评估的自然反应就是,掩盖与个人绩效有关的任何潜在问题,而不是向别人暴露这些问题(以及任何可能的后果)。
第三,由接入呼叫中心员工收集的数据可以应用于多个应用程序。企业可以将其劳动报酬与工作量以及所收集数据的准确性挂钩。
了解员工的行为对于构建数据质量计划具有重要意义。 在潜在问题全面爆发之前,企业就应当采取积极主动的态度来应对这些问题。
7. 未能管理好主参考数据
如果企业未能准确定义业务术语,数据质量将会受到影响。在标准化常见业务术语的管理及其相应数据元素的表示方法中,如果不能保持精确就会引发问题。
为了避免发生问题,可以运用某个流程来鼓励专业领域专家与信息架构师进行结构化合作。 企业可以从该方法中获得两方面的收益。首先,该方法帮助建立了常用术语库,澄清了业务定义。其次,在它的指导下,建立了在元数据框架内集中管理这些定义的框架。
因此,你可以在业务规则符合度方面阐明数据质量预期。此外,你还可以获得关于数据质量的认定断言,作为企业知识在企业元数据框架内进行管理。
8. 将数据质量工作孤立在IT部门
说到底,数据质量主要还是与业务相关,如果让IT员工负责数据质量计划就大错特错了。 其结果就是支持数据质量措施的业务案例经常充满大量技术内容,并且强调要购买工具,而不是推动与业务相关的可度量的质量改进。
即便是计划得到批准,过分关注技术也会导致业务影响方面的评估被忽略掉。 更重要的是,人们会认为数据质量改进是一个成本中心而非利润中心。
所以,企业要调整与数据质量所有权相关的思想过程。如果数据缺陷反映的是与业务预期不符而产生的业务影响,那确认这些预期的规则应该是业务客户制定的。之后IT部门才可以参与部署工具,以确定哪些方面不符合预期。这样就制造了IT与业务合作的机会。
9. 没有储备适合的专业人才
制定数据质量计划是一项战略性工作―其成功同时依赖于业务和技术专业人才。由于数据质量管理很大程度上,尤其是在企业级别,其性质是建议性的,因此数据质量计划的作用就更为复杂。
不难想见,大家都期望一旦数据质量计划启动,数据质量就一定会有明显的改善。流程工具间的紧密结合使问题更趋复杂。如果你认为数据质量管理员应当为一些行动负责,但是他却不一定拥有实施这些行动所需的知识或权限,这就导致了潜在的两难境地。这让人不知该从何入手来解决问题。
构建数据质量计划时,应该实施以下措施:
首先,在计划开始时,招募一些在数据质量计划管理方面有经验的专业人士。这些人能抓住战术上取得成功的机会,从而使计划获得战略上的成功。
其次,邀请外部专家帮助启动改进流程。 这样做可以让你的团队明白,你们的问题不是特例,同时可以学习他人的最佳实践。
然后,利用顾问的角色及内部流程,将数据质量改进的责任分摊到现有的信息管理部门。
最后,不要忘记实施有关策略和流程的培训―尤其是要培训如何使用所采购的工具。
10. 未能建立企业数据质量卓越中心
再开明的企业都曾犯过的错误是,不能抓住最佳实践并将其移植到企业的各个层级。对于数据质量来说,与工具相关联的数据如果没有整合到卓越中心,其负面影响可能翻倍。
卓越中心是一个负责部署企业数据质量战略的组织级工作小组。其职能包括制定指导原则,协助评估业务需求,推荐可采购的工具,创建充分利用这些工具的流程,并提供分享数据质量改进经验的方法。建立卓越中心将带来以下回报:
第一,标准化解决特定问题所需的方法和工具;第二,在软硬件采购上实现规模经济;第三,为数据质量改进提供业务模型;第四,将质量改进计划所需投资分摊到不同部门;第五,记录企业不同部门的最佳实践,使每个人从共同的经验中受益;第六,建立开发数据标准的论坛;第七,在工具和方法的使用方面组织专业培训;第八,减少总的项目管理成本。
数据质量改进是结合了业务敏感性、高科技工具和良好定义流程的一个过程。 你也许认为自己遇到的问题与众不同,实际上这些问题与很多其他企业所遇到的问题很相似。
数据质量主要还是与业务相关,如果让IT员工负责数据质量计划就大错特错了了,这不会推动与业务相关的可度量的质量改进。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15