京公网安备 11010802034615号
经营许可证编号:京B2-20210330
决策者们别被舆情大数据忽悠了
近两年大数据真的很热,但一个过热的现象就一定会有很多误区,很多人看了是网上海量数据“淘”出来的分析就认定了是“真理”,深信不疑,其实这里头很可能埋伏了误区,使用不慎会误导决策。
那大数据能做什么?不能做什么?
大数据当然很有用,最明显的就是茫茫网海中找一个人或一小群人,“人肉”的威力我不再赘述了。
其次,我想找一个商机,如果在大数据中挖出一百万人表达对某一“产品”的关注,这绝对会有足够的消费者,让产品赚钱,所以大数据的商业应用前景十分光明。

再来,如果只是描述性统计和相关性分析,不作任何推论,往往也十分靠谱。但是往往这样的分析只作归纳不作演译,在很多时候是不敷应用的,尤其是决策者对宏观世界知识的需求,使得大数据分析者会急于对大数据挖掘出来的结果作推论。
比如,我们如果说网上交易数据发现某某地区网上消费者对某一产品需求近三个月成长五成,就很有用,如上面所述,它马上反应了一个商机。但是我们如果说某一地区一成的网民,占4%居民数,其中八成是低学历男性,一成在谈及某一政策时用了“赞”,大概这样的描述,虽靠谱,却对政策决定者没什么用。所以不经过推论,很多大数据挖掘出来的东西会没什么用。
如果数据本身就是母体而不是样本,其统计分析是可以作出诠释的,这是推论的第一步。比如,我参予过微博转发研究,用一段时间内所有微博资料来分析,它本身就是微博转发的所有资料,而不是抽样,所以用数据挖掘出来的发现作诠释,尤其是和理论相稳合的诠释,可信度还是不错的。但注意,诠释可以作出理论的假设,需要进一步资料的验证,诠释本身却不能当作“真理”、“法则”和“事实”。
不作推论大数据有时没用,但一推论就可能掉入很多误区,决策者基于错误的知识作决策,会带来十分严重的后果。那么有那些推论的误区呢?以我们常看到的一些“舆情分析”或“偏好分析”为例,往往大数据挖掘出“某某地方(或某某群人)对某一事物有多高的百分比表示喜欢(或支持)”,这一分析结果就有五大误区可能使这样的“结论”偏误极大。
一、抽样偏误。这是最显而易见,而且是很多人都注意到的,上网的人不等同某一地区或某一群体的所有的人,他们在年龄、教育、社会阶层、婚姻状态等等的社会属性上都和平均数有一定的差距。退一步说,说这是网民的“舆情”或“偏好”,也不准确,因为对一个事件表达态度的人又只是很小一部分的网民,这也只是大数据中找出来的“样本”,不足以推论所有网民。
二、情绪字词衡量偏误。要判断一个网民针对某一事件中表达的一段话是“支持还是反对”某一立场或“喜欢还是不喜欢”某一人或事,我们会抽取出其中的一些字词,或一小段字词,判断这些字词的属性,符合那一类情绪基模。我曾和美国心理学家合作过一百零七个汉字字辞在中国社会中的情绪定位,方法上是让一定数量,数十上百位,心理学受测者,每个人在电脑问卷上就出现在眼前的字辞表达情感的三个维度,EPA,评价(Evaluation)、情绪强度(Potency)以及引发行动程度(Activity),再由这三个维度平均值判断出这一字词在中国人中来自于什么样的情绪。任何衡量字词相应情绪的方法不免还是会有偏误,但是在我看到一些国内使用的衡量中,三五个人主观地判断就为很多字词作好情绪归类,这显得十分粗糙,衡量偏误又大的多了。
三、转化偏误。一段网民的话中可能会有一个到数个可以抽取出来的字词,每个字词表达了中国人情绪的EPA三维度,每一维度都是从+3到-3间无限多的刻度来表达,但最终我们却要从这一句话中判断出一个“支持不支持”的立场或“喜欢不喜欢”的态度。所以从这么多复杂衡量的字辞到简单两分的结果,需要一个转化的模型,甚至不同类别事物的情绪表达需要不同的转化模型。但如今国内的很多大数据挖掘,其转化模型只是粗糙的处理,缺乏理论基础,这又会加大偏误。
四、情绪感染偏误。网上发言情境中常常会有一群相同立场的人抱团,在一定的舆论阵地中党同伐异,这会影响有些后续发言者隐藏自己的立场,采用趋同言论,以免犯了众怒。这又会使网上表达有时不能真实反应一个人的偏好,在一个人冷静独处时会有不同的表达,因而产生因情绪感染而有的偏误。
五、最后一类的偏误我称之为资料被截的偏误(truncated databias),就是很多行为,越是重要的,特别值得研究的,牵涉到信任感强的行为,其实网上表达的只是冰山水面上的部分,大量行为是在网下的,因此资料是被截的(truncated)。比如我在从大数据中算一个人人脉网时,网上资料较易看出弱连带,但是算强连带却会有很大的误差,因为强连带中大多数亲密行为是发生在网下的,这一部分网上不一定能察觉到。同样的,一些较敏感的立场,大多数人较不愿表达的偏好,以及较机密的信息,都不会上网,除非像毕姥爷一样被偷拍上网了,否则大数据是挖掘不到的。如何从已有的网上资料去推论网下被截的部分,是一个重大而困难的研究,但可以减少truncated data造成的偏误。
基于这五类推论时产生的偏误,使我们想直接从大数据挖掘结果推论出我们想知道的知识时,常常是以偏概全的,据以作出决策,不免大错特错,不得不慎。但大数据有一个优势,就是很容易收到惯时性资料,虽然是“偏”的,但长时间“偏”的资料的趋势有时可以看出未来的端倪,过了“引爆点”, 趋势就能形成,形势就不可逆转,大数据的分析会事先提供极为重要的警讯。比如,台湾“太阳花运动”就是从“反服贸懒人包”开始,虽然其中包括了很多错误而扭曲的信息,你可以骂大量台湾年轻人知识贫乏没有国际观,但它就是能让很多人相信,一旦变成“普遍知识”时,马英九政府想辟谣也来不及了。
有时“引爆点”只要百分五的人口,网民也就是百分之十,便足以引爆趋势,从网上漫延到网下,势不可挡。当然这种研究还有很长的路要走,急急忙忙就宣称自己找到了“大趋势”的,怕又是忽悠的成份居多。
大数据很有用,但也是双刃剑,滥用误用会产生重大决策的错误,现在大数据相关经费多,出了一堆又一堆的专家,决策者使用这些专家的挖掘结果时不能不慎。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15