
做数据分析,首先解决这两类数据质量问题
为了能够系统化地、高效地解决出现的任何问题,我们必须学会将这些问题分而治之。毕竟,知己知彼方是解决问题的首重至要。由此,我们才会发现解决之道就在其中。而对于提高数据质量同样适用:每一个解决问题的方法都有不同的阶段与角度。
当一个数据质量改进程序在启动时,仅知道数据库中有多少错误计算或重复录入是远远不够的。不止于此,我们还需要知道不同类型的错误在收集的资源中是如何分配的。
据 Jim barker 一篇很有意思的博客所述,数据质量被分解成两种不同类型。而在本文中,我会带领大家仔细区分这些“类型”有何不同,并且如何利用这些“类型”在开发预算中确保我们的优势资源放在何处。
数据类型
被誉为“数据博士”的Jim barker,借用了一个简单的医学概念来定义数据质量问题。 在他的博客中介绍了如何将这两种“类型”组合在一起,并且成功激发了那些一直纠结于找到在数据库中拉低数据质量的幺蛾子的数据分析师们的兴趣。
I型数据质量问题我们可以使用自动化工具检测到。II型数据质量问题就非常隐秘了。大家都知道它是存在的,但它看不见摸不着,更处理不了,因为它需要放在特殊情境才能被检测到。
它们之间的区别简而言之可归纳为如下几点:
型数据质量问题首先需要“知其然”才能来检测数据的完整性、一致性、唯一性和有效性。这些属性靠数据质量软件甚至手动很好地找到。你不需要有很多的背景知识,或者数据分析经验。只要按照4个属性验证它的存在,就可以判定它错误的。例如,如果我们在性别领域插入一个3,我们就可以判定它到底是不是一个有效值。
型数据质量问题需要“知其所以然”来检测时效性、一致性和准确性属性。需要研究能力、洞察力和经验,而不是简简单单就可以找得出来的。这些数据集经常从表面上看起来没有问题。但幺蛾子往往存在于细节中,需要时间去发现。Jim举的例子就是一份退休人员的雇佣记录。如果我们不知道他们早已退休的话,是看不出来这个数据是错的。
所以,解决这些数据质量问题的关键就是需要一个复杂的、战略化的方法,而非孤立的、片面的来看问题。一旦数据质量不好,我们就需要寻求自动化与人工的方式才能解决这个问题了,真可谓是“屋漏偏逢连夜雨”啊。
成本调整
所以,我们如何解决I型和II型数据质量问题呢?处理它们所花费的费用是可比的,还是完全不同的?
要记住重要的一点是,I型数据的验证问题可以在逻辑上定义,这意味着我们可以靠编写软件来查找并显示它。软件自动修复的速度快、成本低,甚至配合手动审查就可以完成。考虑到I型数据质量问题实际上是作为表格内字段型的验证,一旦解决了表格字段的问题,I型数据质量问题实际上也就解决了。
根据我们以往的经验:I型数据基本涵盖了80%的数据质量问题,但消耗了我们20%的经费成本。
第二类数据问题往往需要多方的输入,以便发现、标记和根除。虽然我们客户关系管理系统中的每个人都有购买日期,但购买日期可能不正确,或者与发票或发货清单不符。只有专家才能通过仔细核查其内容来解决问题并手动改进客户关系管理系统。
通常情况下,企业很难做到资源的合理分配,原因有二,特别是企业处于快速增长阶段;或者处于人才流失的时候。你别看这些II类问题较少,可能仅占数据问题剩余的20%,但它们很有可能需要消耗超过80%的成本预算。所以,如果当企业处于人才大量流失,却又对此无能为力的时候。你会发现第二类数据问题更难处理,因为人工解决的途径已不复存在了。
提高精确程度
为了提高数据的准确性,我们必须将I型和II型数据问题作为单独的,但同时存在的问题进行研究。I类型数据质量的挑战可以呈现快速获胜,但第II类问题提出了一个挑战,必须依靠人类的专业知识才可以解决。
随着时间的推移,数据库会超过使用期限。为保其时效性,这需要持续不断的努力。数据可以在数据库中进行清洗,或在使用阶段进行清理,但由于如导入/导出、损坏、手动编辑、人为导致错误等多种原因,仍然要注意I型错误的发生。第II类数据问题在这阶段自然而然地发生,因为就算数据经过验证和审查之后看起来正确,但对于现在来说仍有可能是不正确的,因为此时已非彼时,数据的使用环境改变了。
确保数据的完整
数据的完整会有助于我们观察整个事物的全貌并推动其对事物的决策。正如我们前面所说,发现I型数据质量问题是比较简单、廉价和快速的。但如果企业的工作业务还没有采用某种数据质量软件来解决I型数据质量问题的话,那现在也应该着手考虑了,因为这样才可能避免将来出现的资源浪费、损害品牌效应和来自大众的误解。
而对于第II类数据问题,关键是要理解它为什么会发生,并采取措施以防止它的发生。从日常工作中,处事的变通以及员工疏忽常导致数据的质量不佳。随着时间的推移,资源分配失当也会增加II型数据问题的增加。而改善它的费用也会成倍增加,因为你需要具备专家的眼光方能在茫茫的数据中找到它的存在。
其实,发现并解决这两类问题在当下已不是不可能的事了。会变得越来越容易。很多数据质量供应商们也在不断寻找新的方法,相信在不远的将来,得到高质量的数据会变得越来轻松,越来越简单。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Pandas 多列条件筛选:从基础语法到实战应用 在数据分析工作中,基于多列条件筛选数据是高频需求。无论是提取满足特定业务规则的 ...
2025-08-12游戏流水衰退率:计算方法与实践意义 在游戏行业中,流水(即游戏收入)是衡量一款游戏商业表现的核心指标之一。而游戏流水衰退 ...
2025-08-12CDA 一级:数据分析入门的基石 在当今数据驱动的时代,数据分析能力已成为职场中的一项重要技能。CDA(Certified Data Anal ...
2025-08-12破解游戏用户流失困局:从数据洞察到留存策略 在游戏行业竞争白热化的当下,用户流失率已成为衡量产品健康度的核心指标。一款游 ...
2025-08-11PyTorch 中 Shuffle 机制:数据打乱的艺术与实践 在深度学习模型训练过程中,数据的呈现顺序往往对模型性能有着微妙却关键的影响 ...
2025-08-11数据时代的黄金入场券:CDA 认证解锁职业新蓝海 一、万亿级市场需求下的数据分析人才缺口 在数字化转型浪潮中,数据已成为企业核 ...
2025-08-11DBeaver 实战:实现两个库表结构同步的高效路径 在数据库管理与开发工作中,保持不同环境(如开发库与生产库、主库与从库)的表 ...
2025-08-08t 检验与卡方检验:数据分析中的两大统计利器 在数据分析领域,统计检验是验证假设、挖掘数据规律的重要手段。其中,t 检验和卡 ...
2025-08-08CDA 数据分析师:解锁数据价值的专业力量 在当今这个数据爆炸的时代,数据已成为像石油一样珍贵的战略资源。而 CDA 数据分析师, ...
2025-08-08人工智能对CDA数据分析领域的影响 人工智能对 CDA(Certified Data Analyst,注册数据分析师)数据分析领域的影响是全方位、多层 ...
2025-08-07SPSS 语法使用详解 在当今数据驱动的时代,SPSS( Statistical Package for the Social Sciences)作为一款功能强大的统计分析软 ...
2025-08-07SASEM 决策树:理论与实践应用 在复杂的决策场景中,如何从海量数据中提取有效信息并制定科学决策,是各界关注的焦点。SASEM 决 ...
2025-08-07CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-07大数据时代对定性分析的影响 在大数据时代,海量、多样、高速且低价值密度的数据充斥着我们的生活与工作。而定性分析作为一 ...
2025-08-07K-S 曲线、回归与分类:数据分析中的重要工具 在数据分析与机器学习领域,K-S 曲线、回归和分类是三个核心概念与工具,它们各 ...
2025-08-07CDA 数据分析师考试全解析 在当今数字化时代,数据已成为企业发展的核心驱动力,数据分析师这一职业也愈发受到重视。CDA 数据分 ...
2025-08-07大数据时代的隐患:繁荣背后的隐忧 当我们在电商平台浏览商品时,系统总能 “精准” 推送心仪的物品;当我们刷短视频时,算法 ...
2025-08-07解析 F 边界检验:协整分析中的实用工具 在计量经济学的时间序列分析中,判断变量之间是否存在长期稳定的均衡关系(即协整关系) ...
2025-08-07CDA 数据分析师报考条件详解:迈向专业认证的指南 在数据分析行业蓬勃发展的当下,CDA 数据分析师认证成为众多从业者提升专业 ...
2025-08-07通过 COX 回归模型诊断异常值 一、COX 回归模型概述 COX 回归模型,又称比例风险回归模型,是一种用于生存分析的统计方法。它能 ...
2025-08-07