京公网安备 11010802034615号
经营许可证编号:京B2-20210330
做数据分析,首先解决这两类数据质量问题
为了能够系统化地、高效地解决出现的任何问题,我们必须学会将这些问题分而治之。毕竟,知己知彼方是解决问题的首重至要。由此,我们才会发现解决之道就在其中。而对于提高数据质量同样适用:每一个解决问题的方法都有不同的阶段与角度。
当一个数据质量改进程序在启动时,仅知道数据库中有多少错误计算或重复录入是远远不够的。不止于此,我们还需要知道不同类型的错误在收集的资源中是如何分配的。
据 Jim barker 一篇很有意思的博客所述,数据质量被分解成两种不同类型。而在本文中,我会带领大家仔细区分这些“类型”有何不同,并且如何利用这些“类型”在开发预算中确保我们的优势资源放在何处。
数据类型
被誉为“数据博士”的Jim barker,借用了一个简单的医学概念来定义数据质量问题。 在他的博客中介绍了如何将这两种“类型”组合在一起,并且成功激发了那些一直纠结于找到在数据库中拉低数据质量的幺蛾子的数据分析师们的兴趣。
I型数据质量问题我们可以使用自动化工具检测到。II型数据质量问题就非常隐秘了。大家都知道它是存在的,但它看不见摸不着,更处理不了,因为它需要放在特殊情境才能被检测到。
它们之间的区别简而言之可归纳为如下几点:
型数据质量问题首先需要“知其然”才能来检测数据的完整性、一致性、唯一性和有效性。这些属性靠数据质量软件甚至手动很好地找到。你不需要有很多的背景知识,或者数据分析经验。只要按照4个属性验证它的存在,就可以判定它错误的。例如,如果我们在性别领域插入一个3,我们就可以判定它到底是不是一个有效值。
型数据质量问题需要“知其所以然”来检测时效性、一致性和准确性属性。需要研究能力、洞察力和经验,而不是简简单单就可以找得出来的。这些数据集经常从表面上看起来没有问题。但幺蛾子往往存在于细节中,需要时间去发现。Jim举的例子就是一份退休人员的雇佣记录。如果我们不知道他们早已退休的话,是看不出来这个数据是错的。
所以,解决这些数据质量问题的关键就是需要一个复杂的、战略化的方法,而非孤立的、片面的来看问题。一旦数据质量不好,我们就需要寻求自动化与人工的方式才能解决这个问题了,真可谓是“屋漏偏逢连夜雨”啊。
成本调整
所以,我们如何解决I型和II型数据质量问题呢?处理它们所花费的费用是可比的,还是完全不同的?
要记住重要的一点是,I型数据的验证问题可以在逻辑上定义,这意味着我们可以靠编写软件来查找并显示它。软件自动修复的速度快、成本低,甚至配合手动审查就可以完成。考虑到I型数据质量问题实际上是作为表格内字段型的验证,一旦解决了表格字段的问题,I型数据质量问题实际上也就解决了。
根据我们以往的经验:I型数据基本涵盖了80%的数据质量问题,但消耗了我们20%的经费成本。
第二类数据问题往往需要多方的输入,以便发现、标记和根除。虽然我们客户关系管理系统中的每个人都有购买日期,但购买日期可能不正确,或者与发票或发货清单不符。只有专家才能通过仔细核查其内容来解决问题并手动改进客户关系管理系统。
通常情况下,企业很难做到资源的合理分配,原因有二,特别是企业处于快速增长阶段;或者处于人才流失的时候。你别看这些II类问题较少,可能仅占数据问题剩余的20%,但它们很有可能需要消耗超过80%的成本预算。所以,如果当企业处于人才大量流失,却又对此无能为力的时候。你会发现第二类数据问题更难处理,因为人工解决的途径已不复存在了。
提高精确程度
为了提高数据的准确性,我们必须将I型和II型数据问题作为单独的,但同时存在的问题进行研究。I类型数据质量的挑战可以呈现快速获胜,但第II类问题提出了一个挑战,必须依靠人类的专业知识才可以解决。
随着时间的推移,数据库会超过使用期限。为保其时效性,这需要持续不断的努力。数据可以在数据库中进行清洗,或在使用阶段进行清理,但由于如导入/导出、损坏、手动编辑、人为导致错误等多种原因,仍然要注意I型错误的发生。第II类数据问题在这阶段自然而然地发生,因为就算数据经过验证和审查之后看起来正确,但对于现在来说仍有可能是不正确的,因为此时已非彼时,数据的使用环境改变了。
确保数据的完整
数据的完整会有助于我们观察整个事物的全貌并推动其对事物的决策。正如我们前面所说,发现I型数据质量问题是比较简单、廉价和快速的。但如果企业的工作业务还没有采用某种数据质量软件来解决I型数据质量问题的话,那现在也应该着手考虑了,因为这样才可能避免将来出现的资源浪费、损害品牌效应和来自大众的误解。
而对于第II类数据问题,关键是要理解它为什么会发生,并采取措施以防止它的发生。从日常工作中,处事的变通以及员工疏忽常导致数据的质量不佳。随着时间的推移,资源分配失当也会增加II型数据问题的增加。而改善它的费用也会成倍增加,因为你需要具备专家的眼光方能在茫茫的数据中找到它的存在。
其实,发现并解决这两类问题在当下已不是不可能的事了。会变得越来越容易。很多数据质量供应商们也在不断寻找新的方法,相信在不远的将来,得到高质量的数据会变得越来轻松,越来越简单。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在使用Excel透视表进行数据汇总分析时,我们常遇到“需通过两个字段相乘得到关键指标”的场景——比如“单价×数量=金额”“销量 ...
2025-11-14在测试环境搭建、数据验证等场景中,经常需要将UAT(用户验收测试)环境的表数据同步到SIT(系统集成测试)环境,且两者表结构完 ...
2025-11-14在数据驱动的企业中,常有这样的困境:分析师提交的“万字数据报告”被束之高阁,而一张简洁的“复购率趋势图+核心策略标注”却 ...
2025-11-14在实证研究中,层次回归分析是探究“不同变量组对因变量的增量解释力”的核心方法——通过分步骤引入自变量(如先引入人口统计学 ...
2025-11-13在实时数据分析、实时业务监控等场景中,“数据新鲜度”直接决定业务价值——当电商平台需要实时统计秒杀订单量、金融系统需要实 ...
2025-11-13在数据量爆炸式增长的今天,企业对数据分析的需求已从“有没有”升级为“好不好”——不少团队陷入“数据堆砌却无洞察”“分析结 ...
2025-11-13在主成分分析(PCA)、因子分析等降维方法中,“成分得分系数矩阵” 与 “载荷矩阵” 是两个高频出现但极易混淆的核心矩阵 —— ...
2025-11-12大数据早已不是单纯的技术概念,而是渗透各行业的核心生产力。但同样是拥抱大数据,零售企业的推荐系统、制造企业的设备维护、金 ...
2025-11-12在数据驱动的时代,“数据分析” 已成为企业决策的核心支撑,但很多人对其认知仍停留在 “用 Excel 做报表”“写 SQL 查数据” ...
2025-11-12金融统计不是单纯的 “数据计算”,而是贯穿金融业务全流程的 “风险量化工具”—— 从信贷审批中的客户风险评估,到投资组合的 ...
2025-11-11这个问题很有实战价值,mtcars 数据集是多元线性回归的经典案例,通过它能清晰展现 “多变量影响分析” 的核心逻辑。核心结论是 ...
2025-11-11在数据驱动成为企业核心竞争力的今天,“不知道要什么数据”“分析结果用不上” 是企业的普遍困境 —— 业务部门说 “要提升销量 ...
2025-11-11在大模型(如 Transformer、CNN、多层感知机)的结构设计中,“每层神经元个数” 是决定模型性能与效率的关键参数 —— 个数过少 ...
2025-11-10形成购买决策的四个核心推动力的是:内在需求驱动、产品价值感知、社会环境影响、场景便捷性—— 它们从 “为什么买”“值得买吗 ...
2025-11-10在数字经济时代,“数字化转型” 已从企业的 “可选动作” 变为 “生存必需”。然而,多数企业的转型仍停留在 “上线系统、收集 ...
2025-11-10在数据分析与建模中,“显性特征”(如用户年龄、订单金额、商品类别)是直接可获取的基础数据,但真正驱动业务突破的往往是 “ ...
2025-11-07在大模型(LLM)商业化落地过程中,“结果稳定性” 是比 “单次输出质量” 更关键的指标 —— 对客服对话而言,相同问题需给出一 ...
2025-11-07在数据驱动与合规监管双重压力下,企业数据安全已从 “技术防护” 升级为 “战略刚需”—— 既要应对《个人信息保护法》《数据安 ...
2025-11-07在机器学习领域,“分类模型” 是解决 “类别预测” 问题的核心工具 —— 从 “垃圾邮件识别(是 / 否)” 到 “疾病诊断(良性 ...
2025-11-06在数据分析中,面对 “性别与购物偏好”“年龄段与消费频次”“职业与 APP 使用习惯” 这类成对的分类变量,我们常常需要回答: ...
2025-11-06