
做数据分析,首先解决这两类数据质量问题
为了能够系统化地、高效地解决出现的任何问题,我们必须学会将这些问题分而治之。毕竟,知己知彼方是解决问题的首重至要。由此,我们才会发现解决之道就在其中。而对于提高数据质量同样适用:每一个解决问题的方法都有不同的阶段与角度。
当一个数据质量改进程序在启动时,仅知道数据库中有多少错误计算或重复录入是远远不够的。不止于此,我们还需要知道不同类型的错误在收集的资源中是如何分配的。
据 Jim barker 一篇很有意思的博客所述,数据质量被分解成两种不同类型。而在本文中,我会带领大家仔细区分这些“类型”有何不同,并且如何利用这些“类型”在开发预算中确保我们的优势资源放在何处。
数据类型
被誉为“数据博士”的Jim barker,借用了一个简单的医学概念来定义数据质量问题。 在他的博客中介绍了如何将这两种“类型”组合在一起,并且成功激发了那些一直纠结于找到在数据库中拉低数据质量的幺蛾子的数据分析师们的兴趣。
I型数据质量问题我们可以使用自动化工具检测到。II型数据质量问题就非常隐秘了。大家都知道它是存在的,但它看不见摸不着,更处理不了,因为它需要放在特殊情境才能被检测到。
它们之间的区别简而言之可归纳为如下几点:
型数据质量问题首先需要“知其然”才能来检测数据的完整性、一致性、唯一性和有效性。这些属性靠数据质量软件甚至手动很好地找到。你不需要有很多的背景知识,或者数据分析经验。只要按照4个属性验证它的存在,就可以判定它错误的。例如,如果我们在性别领域插入一个3,我们就可以判定它到底是不是一个有效值。
型数据质量问题需要“知其所以然”来检测时效性、一致性和准确性属性。需要研究能力、洞察力和经验,而不是简简单单就可以找得出来的。这些数据集经常从表面上看起来没有问题。但幺蛾子往往存在于细节中,需要时间去发现。Jim举的例子就是一份退休人员的雇佣记录。如果我们不知道他们早已退休的话,是看不出来这个数据是错的。
所以,解决这些数据质量问题的关键就是需要一个复杂的、战略化的方法,而非孤立的、片面的来看问题。一旦数据质量不好,我们就需要寻求自动化与人工的方式才能解决这个问题了,真可谓是“屋漏偏逢连夜雨”啊。
成本调整
所以,我们如何解决I型和II型数据质量问题呢?处理它们所花费的费用是可比的,还是完全不同的?
要记住重要的一点是,I型数据的验证问题可以在逻辑上定义,这意味着我们可以靠编写软件来查找并显示它。软件自动修复的速度快、成本低,甚至配合手动审查就可以完成。考虑到I型数据质量问题实际上是作为表格内字段型的验证,一旦解决了表格字段的问题,I型数据质量问题实际上也就解决了。
根据我们以往的经验:I型数据基本涵盖了80%的数据质量问题,但消耗了我们20%的经费成本。
第二类数据问题往往需要多方的输入,以便发现、标记和根除。虽然我们客户关系管理系统中的每个人都有购买日期,但购买日期可能不正确,或者与发票或发货清单不符。只有专家才能通过仔细核查其内容来解决问题并手动改进客户关系管理系统。
通常情况下,企业很难做到资源的合理分配,原因有二,特别是企业处于快速增长阶段;或者处于人才流失的时候。你别看这些II类问题较少,可能仅占数据问题剩余的20%,但它们很有可能需要消耗超过80%的成本预算。所以,如果当企业处于人才大量流失,却又对此无能为力的时候。你会发现第二类数据问题更难处理,因为人工解决的途径已不复存在了。
提高精确程度
为了提高数据的准确性,我们必须将I型和II型数据问题作为单独的,但同时存在的问题进行研究。I类型数据质量的挑战可以呈现快速获胜,但第II类问题提出了一个挑战,必须依靠人类的专业知识才可以解决。
随着时间的推移,数据库会超过使用期限。为保其时效性,这需要持续不断的努力。数据可以在数据库中进行清洗,或在使用阶段进行清理,但由于如导入/导出、损坏、手动编辑、人为导致错误等多种原因,仍然要注意I型错误的发生。第II类数据问题在这阶段自然而然地发生,因为就算数据经过验证和审查之后看起来正确,但对于现在来说仍有可能是不正确的,因为此时已非彼时,数据的使用环境改变了。
确保数据的完整
数据的完整会有助于我们观察整个事物的全貌并推动其对事物的决策。正如我们前面所说,发现I型数据质量问题是比较简单、廉价和快速的。但如果企业的工作业务还没有采用某种数据质量软件来解决I型数据质量问题的话,那现在也应该着手考虑了,因为这样才可能避免将来出现的资源浪费、损害品牌效应和来自大众的误解。
而对于第II类数据问题,关键是要理解它为什么会发生,并采取措施以防止它的发生。从日常工作中,处事的变通以及员工疏忽常导致数据的质量不佳。随着时间的推移,资源分配失当也会增加II型数据问题的增加。而改善它的费用也会成倍增加,因为你需要具备专家的眼光方能在茫茫的数据中找到它的存在。
其实,发现并解决这两类问题在当下已不是不可能的事了。会变得越来越容易。很多数据质量供应商们也在不断寻找新的方法,相信在不远的将来,得到高质量的数据会变得越来轻松,越来越简单。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
LSTM 为何会产生误差?深入剖析其背后的原因 在深度学习领域,LSTM(Long Short-Term Memory)网络凭借其独特的记忆单元设 ...
2025-06-27LLM进入拖拽时代!只靠Prompt几秒定制大模型,效率飙升12000倍 【新智元导读】最近,来自NUS、UT Austin等机构的研究人员创新 ...
2025-06-27CDA 数据分析师:就业前景广阔的新兴职业 在当今数字化时代,数据已成为企业和组织决策的重要依据。数据分析师作为负责收集 ...
2025-06-27探秘 z-score:数据分析中的标准化利器 在数据的海洋中,面对形态各异、尺度不同的数据,如何找到一个通用的标准来衡量数据 ...
2025-06-26Excel 中为不同柱形设置独立背景(按数据分区)的方法详解 在数据分析与可视化呈现过程中,Excel 柱形图是展示数据的常用工 ...
2025-06-26CDA 数据分析师会被 AI 取代吗? 在当今数字化时代,数据的重要性日益凸显,数据分析师成为了众多企业不可或缺的角色 ...
2025-06-26CDA 数据分析师证书考取全攻略 在数字化浪潮汹涌的当下,数据已成为企业乃至整个社会发展的核心驱动力。数据分析师作 ...
2025-06-25人工智能在数据分析的应用场景 在数字化浪潮席卷全球的当下,数据以前所未有的速度增长,传统的数据分析方法逐渐难以满足海 ...
2025-06-25评估模型预测为正时的准确性 在机器学习与数据科学领域,模型预测的准确性是衡量其性能优劣的核心指标。尤其是当模型预测结 ...
2025-06-25CDA认证:数据时代的职业通行证 当海通证券的交易大厅里闪烁的屏幕实时跳动着市场数据,当苏州银行的数字金融部连夜部署新的风控 ...
2025-06-24金融行业的大数据变革:五大应用案例深度解析 在数字化浪潮中,金融行业正经历着深刻的变革,大数据技术的广泛应用 ...
2025-06-24Power Query 中实现移动加权平均的详细指南 在数据分析和处理中,移动加权平均是一种非常有用的计算方法,它能够根据不同数据 ...
2025-06-24数据驱动营销革命:解析数据分析在网络营销中的核心作用 在数字经济蓬勃发展的当下,网络营销已成为企业触达消费者 ...
2025-06-23随机森林模型与 OPLS-DA 的优缺点深度剖析 在数据分析与机器学习领域,随机森林模型与 OPLS-DA(正交偏最小二乘法判 ...
2025-06-23CDA 一级:开启数据分析师职业大门的钥匙 在数字化浪潮席卷全球的今天,数据已成为企业发展和决策的核心驱动力,数据分析师 ...
2025-06-23透视表内计算两个字段乘积的实用指南 在数据处理与分析的过程中,透视表凭借其强大的数据汇总和整理能力,成为了众多数据工 ...
2025-06-20CDA 一级考试备考时长全解析,助你高效备考 CDA(Certified Data Analyst)一级认证考试,作为数据分析师领域的重要资格认证, ...
2025-06-20统计学模型:解锁数据背后的规律与奥秘 在数据驱动决策的时代,统计学模型作为挖掘数据价值的核心工具,发挥着至关重要的作 ...
2025-06-20Logic 模型特征与选择应用:构建项目规划与评估的逻辑框架 在项目管理、政策制定以及社会服务等领域,Logic 模型(逻辑模型 ...
2025-06-19SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的利器 在数据分析的众多方法中,Mann-Kendall(MK)检验凭借其对数据分 ...
2025-06-19