京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代 “脏数据”无处不在且危害大
数据时代已经到来。大数据的应用层出不穷,正改变着公共决策、企业管理、市场营销以及生活的方方面面。我们知道,大数据要发挥作用,有一个前提就是数据是好的数据。所有数据都是好的么?当然不!因此大数据时代还需警惕“脏数据”。什么是“脏数据”呢?简单来说,就是那些虚假的数据,那些未能反映真实情况、扭曲了真实情况的数据。
那么,“脏数据”是怎样形成的呢?
KPI、利益诱惑
导致主动弄脏数据
淘宝卖家信用等级制度是一个很好的创新,推动了诚信网络购物环境的构建。信用的等级主要依据是交易成功后买家的评分。由于信用等级在买家购物时有着巨大的指导作用,所以卖家都颇为重视自己的等级。这也导致该制度从诞生的第一天起就伴随着“脏数据”。部分卖家挖空心思、弄虚作假争取高的等级:有的采用虚假交易的方式,自己卖给自己,然后给予这次交易较高的评分;“刷信用”、“刷钻”俨然成了一门生意,有不少专门做这个生意的网站;职业差评师也应运而生,很多恶意买家专门以给网店差评为手段向网店店主索要钱财。
微博粉丝数体现了一个人的影响力,同时也具有商业价值。这里也有“脏数据”——僵尸粉,即虚假粉丝、永远沉默的粉丝。自己可以注册多个微博来关注自己;花钱也可以买到“关注”,这些粉丝通常是由系统自动产生的恶意注册用户。
终端销售的代理商为了套取运营商的佣金,用一个虚拟的串号录入系统,自己卖给自己;电信业务销售代理商为了完成运营商下达的任务量,将手机号卡从系统里开出来囤着,放在抽屉里慢慢卖。这些,都能产生巨大的“脏数据”。
能力不足
不可避免地弄脏数据
人为的非故意的差错也会导致数据失真。比如要人为地去统计某个营业厅一天的人流量,若这流量成千上万,即使再细心的工作人员,在数的过程中也难免出现差错;如果这个人本身的算术能力有问题,对100以上的数字计算不过来,那么这数据就更难准确;更有甚者,在数了半天后觉得这工作实在枯燥无聊,于是开了小差,最后虚报了一个估计的数字。
无论是主观故意,还是客观能力,是人都会出错。那计算机就不会出错么?计算机同样会出错,且计算机出错的新闻比比皆是。比如在银行ATM机上取1千元,然后吐钞1万元。一方面,这取决于计算机编程人员对计算规则的理解;另一方面,这还依赖于计算机程序编写人员的能力与细心,若出现编程人员的理解偏差或者编程时未想象到的情形,计算就可能出错。
“脏数据”无处不在且危害大
当数据使用者将“脏数据”当作好数据,加以分析利用,作出决策,并辅以强有力的执行时,“脏数据”带来的后果是极其严重的。通过“脏数据”,会得出错误的结论,错误的结论会导致错误的决策,错误的决策加上强有力的执行,比没有数据、没有结论、没有决策更糟糕,不但不会对事物发展起到积极作用,甚至还可能产生消极作用。
举两个简单的例子,如果购买了上述刷来的黄钻卖家的产品,你可能会觉得名不副实;如果付费找拥有大批僵尸粉的大V来传播商业信息,你的钱可能就会打水漂;如果运营商无视套取酬金及囤卡行为而对销售数字津津乐道并为此乐观的话,不仅让酬金白费,还会得出市场发展良好的错误结论并采取下一步措施。
“脏数据”无处不在且危害之大,因此必须要警惕“脏数据”。当然,这不是一概否定大数据,不是说大数据毫无价值,而是想提醒大家一方面要尽可能提高数据质量,另一方面也不能完全依赖大数据。
无论是淘宝、新浪,还是电信运营商,都对数据造假者深恶痛绝,都想出了很多办法来消除“脏数据”。显然,这是道与魔的关系,是一个不断纠缠、不断提升的过程。没有任何一种制度或者技术能百分百消除“脏数据”,但只要态度明确并不断采取措施,就能将“脏数据”控制在一定程度,确保所用数据偏离不会太多且具有使用价值。
大数据不是万能的,伴随着“脏数据”的大数据更不应该被迷信。大数据的使用还需要与经验、实证相结合。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22 很多数据分析师每天盯着GMV、转化率、DAU等数字看,但当被问到“什么是指标”“指标和维度有什么区别”“如何搭建一套完整的 ...
2026-04-22在数据分析与业务决策中,数据并非静止不变的数值,而是始终处于动态波动之中——股市收盘价的每日涨跌、企业月度销售额的起伏、 ...
2026-04-21