
大数据时代 “脏数据”无处不在且危害大
数据时代已经到来。大数据的应用层出不穷,正改变着公共决策、企业管理、市场营销以及生活的方方面面。我们知道,大数据要发挥作用,有一个前提就是数据是好的数据。所有数据都是好的么?当然不!因此大数据时代还需警惕“脏数据”。什么是“脏数据”呢?简单来说,就是那些虚假的数据,那些未能反映真实情况、扭曲了真实情况的数据。
那么,“脏数据”是怎样形成的呢?
KPI、利益诱惑
导致主动弄脏数据
淘宝卖家信用等级制度是一个很好的创新,推动了诚信网络购物环境的构建。信用的等级主要依据是交易成功后买家的评分。由于信用等级在买家购物时有着巨大的指导作用,所以卖家都颇为重视自己的等级。这也导致该制度从诞生的第一天起就伴随着“脏数据”。部分卖家挖空心思、弄虚作假争取高的等级:有的采用虚假交易的方式,自己卖给自己,然后给予这次交易较高的评分;“刷信用”、“刷钻”俨然成了一门生意,有不少专门做这个生意的网站;职业差评师也应运而生,很多恶意买家专门以给网店差评为手段向网店店主索要钱财。
微博粉丝数体现了一个人的影响力,同时也具有商业价值。这里也有“脏数据”——僵尸粉,即虚假粉丝、永远沉默的粉丝。自己可以注册多个微博来关注自己;花钱也可以买到“关注”,这些粉丝通常是由系统自动产生的恶意注册用户。
终端销售的代理商为了套取运营商的佣金,用一个虚拟的串号录入系统,自己卖给自己;电信业务销售代理商为了完成运营商下达的任务量,将手机号卡从系统里开出来囤着,放在抽屉里慢慢卖。这些,都能产生巨大的“脏数据”。
能力不足
不可避免地弄脏数据
人为的非故意的差错也会导致数据失真。比如要人为地去统计某个营业厅一天的人流量,若这流量成千上万,即使再细心的工作人员,在数的过程中也难免出现差错;如果这个人本身的算术能力有问题,对100以上的数字计算不过来,那么这数据就更难准确;更有甚者,在数了半天后觉得这工作实在枯燥无聊,于是开了小差,最后虚报了一个估计的数字。
无论是主观故意,还是客观能力,是人都会出错。那计算机就不会出错么?计算机同样会出错,且计算机出错的新闻比比皆是。比如在银行ATM机上取1千元,然后吐钞1万元。一方面,这取决于计算机编程人员对计算规则的理解;另一方面,这还依赖于计算机程序编写人员的能力与细心,若出现编程人员的理解偏差或者编程时未想象到的情形,计算就可能出错。
“脏数据”无处不在且危害大
当数据使用者将“脏数据”当作好数据,加以分析利用,作出决策,并辅以强有力的执行时,“脏数据”带来的后果是极其严重的。通过“脏数据”,会得出错误的结论,错误的结论会导致错误的决策,错误的决策加上强有力的执行,比没有数据、没有结论、没有决策更糟糕,不但不会对事物发展起到积极作用,甚至还可能产生消极作用。
举两个简单的例子,如果购买了上述刷来的黄钻卖家的产品,你可能会觉得名不副实;如果付费找拥有大批僵尸粉的大V来传播商业信息,你的钱可能就会打水漂;如果运营商无视套取酬金及囤卡行为而对销售数字津津乐道并为此乐观的话,不仅让酬金白费,还会得出市场发展良好的错误结论并采取下一步措施。
“脏数据”无处不在且危害之大,因此必须要警惕“脏数据”。当然,这不是一概否定大数据,不是说大数据毫无价值,而是想提醒大家一方面要尽可能提高数据质量,另一方面也不能完全依赖大数据。
无论是淘宝、新浪,还是电信运营商,都对数据造假者深恶痛绝,都想出了很多办法来消除“脏数据”。显然,这是道与魔的关系,是一个不断纠缠、不断提升的过程。没有任何一种制度或者技术能百分百消除“脏数据”,但只要态度明确并不断采取措施,就能将“脏数据”控制在一定程度,确保所用数据偏离不会太多且具有使用价值。
大数据不是万能的,伴随着“脏数据”的大数据更不应该被迷信。大数据的使用还需要与经验、实证相结合。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
PyTorch 核心机制:损失函数与反向传播如何驱动模型进化 在深度学习的世界里,模型从 “一无所知” 到 “精准预测” 的蜕变,离 ...
2025-07-252025 年 CDA 数据分析师考纲焕新,引领行业人才新标准 在数字化浪潮奔涌向前的当下,数据已成为驱动各行业发展的核心要素。作为 ...
2025-07-25从数据到决策:CDA 数据分析师如何重塑职场竞争力与行业价值 在数字经济席卷全球的今天,数据已从 “辅助工具” 升级为 “核心资 ...
2025-07-25用 Power BI 制作地图热力图:基于经纬度数据的实践指南 在数据可视化领域,地图热力图凭借直观呈现地理数据分布密度的优势,成 ...
2025-07-24解析 insert into select 是否会锁表:原理、场景与应对策略 在数据库操作中,insert into select 是一种常用的批量数据插入语句 ...
2025-07-24CDA 数据分析师的工作范围解析 在数字化时代的浪潮下,数据已成为企业发展的核心资产之一。CDA(Certified Data Analyst)数据分 ...
2025-07-24从 CDA LEVEL II 考试题型看 Python 数据分析要点 在数据科学领域蓬勃发展的当下,CDA(Certified Data Analyst)认证成为众多从 ...
2025-07-23用 Python 开启数据分析之旅:从基础到实践的完整指南 在数据驱动决策的时代,数据分析已成为各行业不可或缺的核心能力。而 Pyt ...
2025-07-23鸢尾花判别分析:机器学习中的经典实践案例 在机器学习的世界里,有一个经典的数据集如同引路明灯,为无数初学者打开了模式识别 ...
2025-07-23解析 response.text 与 response.content 的核心区别 在网络数据请求与处理的场景中,开发者经常需要从服务器返回的响应中提取数 ...
2025-07-22解析神经网络中 Softmax 函数的核心作用 在神经网络的发展历程中,激活函数扮演着至关重要的角色,它们为网络赋予了非线性能力, ...
2025-07-22CDA数据分析师证书考取全攻略 一、了解 CDA 数据分析师认证 CDA 数据分析师认证是一套科学化、专业化、国际化的人才考核标准, ...
2025-07-22左偏态分布转正态分布:方法、原理与实践 左偏态分布转正态分布:方法、原理与实践 在统计分析、数据建模和科学研究中,正态分 ...
2025-07-22你是不是也经常刷到别人涨粉百万、带货千万,心里痒痒的,想着“我也试试”,结果三个月过去,粉丝不到1000,播放量惨不忍睹? ...
2025-07-21我是陈辉,一个创业十多年的企业主,前半段人生和“文字”紧紧绑在一起。从广告公司文案到品牌策划,再到自己开策划机构,我靠 ...
2025-07-21CDA 数据分析师的职业生涯规划:从入门到卓越的成长之路 在数字经济蓬勃发展的当下,数据已成为企业核心竞争力的重要来源,而 CD ...
2025-07-21MySQL执行计划中rows的计算逻辑:从原理到实践 MySQL 执行计划中 rows 的计算逻辑:从原理到实践 在 MySQL 数据库的查询优化中 ...
2025-07-21在AI渗透率超85%的2025年,企业生存之战就是数据之战,CDA认证已成为决定企业存续的生死线!据麦肯锡全球研究院数据显示,AI驱 ...
2025-07-2035岁焦虑像一把高悬的利刃,裁员潮、晋升无望、技能过时……当职场中年危机与数字化浪潮正面交锋,你是否发现: 简历投了10 ...
2025-07-20CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-18