社交媒体的大数据并不可靠_数据分析师-CDA数据分析师官网

热线电话：13121318867

社交媒体的大数据并不可靠_数据分析师

2015-01-31

社交媒体的大数据并不可靠_数据分析师

如今，科学家们正越来越多的把目光转向社交媒体，以研究线上及线下的人类行为，例如预测夏季股票市场的大波动。一些数据处理专家指出，使用该种方法处理数据时，研究者们须警惕超大量社交媒体数据背后可能存在的严重缺陷。

错误的结果可能产生严重的影响：每年，都有上千的研究报告是基于社交媒体上收集而来的数据。麦吉尔大学计算科学学院助理教授Derek Ruths称“这些文章中有好些被用来通报和决断公众，行业及政府的投资决策”。

卡内基梅隆大学软件科学院的合作作者Jürgen Pfeffer则说，“并不是所有打上“大数据”标签的东西就都很好”，他指出许多研究者都有或是希望有如此的前提——即只要数据足够多，他们就能修正任何可能产生的偏差。“然而，行为学研究中的一句老话说的好：了解你的数据”。不过，社交媒体作为数据源之一吸引力实在惊人。“人们想要了解世界上正发生着什么，这无疑是快速的跟进办法。”以2013年的波士顿马拉松爆炸案为例，Pfeffer在两周内收集了两千五百万的相关tweets（推特）。“你能了解百万计人的行为——还都是免费的。”

数据过滤与SPAM

一篇发表在《科学》杂志上的评论中，Ruths和Pfeffer强调了可能导致社交媒体数据失真的若干因素，及它们的解决办法。

包括：

不同社交媒体平台吸引不同的受众——比如，Instagram对18~29岁间的成年人吸引力最大，包括非裔美国人，拉丁人，女性和城市居民，而在Pinterest上，占主导地位的则是那些家庭年收入超过0,000，25~34岁的女性用户。Ruths和Pfeffer指出，研究人员很少能够知晓，更谈不上正确对待这些内含的采样偏差。

社交媒体研究所使用的公开数据并不总能准确反映平台的总体状况——研究者们关于网站建立者如何过滤他们的数据源常常一头雾水。

社交媒体的设计通常会影响用户的行为，从而改变所测量的数据。比如，Facebook没有“不喜欢”的按钮，这就使得负面内容相比于正面的“喜欢”更难被侦查到。

大量SPAM（垃圾邮件发送者和机器人）通常在社交媒体上伪装成普通用户，也被错误地纳入了很多人类行为测算和预测。

研究者们还经常只报告来自于易于分类的用户，主题和事件所得出的结论，这就使得新的方法看起来更加准备。例如，在推知Twitter用户的政治取向时，只取得了65%的准确率——即使研究（侧重于政治活跃用户）声称有90%的准确度。

解决方法

Ruths和Pfeffer指出，以上很多问题都有显而易见的解决方法，这些方法被广泛地用在诸如流行病学，统计学和机械学等领域。

Ruths说，“这些问题的共同点就是，需要研究者们在分析社交媒体数据时，能更加敏锐地感知数据本身。”

社会学家应对此种挑战的技术和标准已经十分纯熟了。Ruths说，“1948年，臭名昭著的“杜威击败杜鲁门”报纸标题就来自于电话调查，它最终在采样上低估了杜鲁门的支持者。这并不是在抹黑民意调查，正是那次显而易见的错误导致了今天日益复杂的技术，更高的标准，以及更加准确的民调。如今，我们站在与当年类似的技术发展拐点上。通过解决面临的问题，我们才能实现基于社交媒体的研究所展现出的巨大潜力。”

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

偏差大数据数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

社交媒体的大数据并不可靠_数据分析师

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】逻辑回归中因子与协变量的核心区别、模 ...

【CDA干货】依托大数据分析优化企业营销策略的路径 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

【CDA干货】基于STP模型、价值主张画布与精益画布的 ...

CDA持证人专访：林雪谈数据运维岗的核心工作与ETL技 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】基于中位数与四分位数的箱型图结构解读 ...

【CDA干货】基于Python Tkinter的界面美化技术与实 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：郑志超谈互联网金融数据产品经理的 ...

从零散标识到结构资产：CDA数据分析师视角下的标签 ...

【CDA干货】数据挖掘经典实例分析：从技术原理到行 ...

【CDA干货】基于Requests库读取HTTP响应报文的方法 ...

【CDA干货】2025中小企业门店经营分析：基于客流、 ...

精准取数之道：CDA数据分析师视角下的数据查询语言 ...

【CDA干货】两水平单因素方差分析的原理与完整实操 ...

CDA持证人专访：郭畅谈银行大数据建模与智能风控实 ...

从“构建数据骨架”到“加速智能取数”：CDA数据分 ...

【CDA干货】Excel箱型图（箱线图）数据解读与实操分 ...

【CDA干货】基于3σ原则的异常数据识别与质量控制方 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

社交媒体的大数据并不可靠_数据分析师​

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】逻辑回归中因子与协变量的核心区别、模 ...

【CDA干货】依托大数据分析优化企业营销策略的路径 ...

从“点状静态”到“时序动态”：CDA数据分析师视角 ...

【CDA干货】基于STP模型、价值主张画布与精益画布的 ...

CDA持证人专访：林雪谈数据运维岗的核心工作与ETL技 ...

从“标签”到“人”：CDA数据分析师视角下的用户画 ...

【CDA干货】基于中位数与四分位数的箱型图结构解读 ...

【CDA干货】基于Python Tkinter的界面美化技术与实 ...

从“raw”到“ready”：CDA数据分析师视角下的标签 ...

CDA持证人专访：郑志超谈互联网金融数据产品经理的 ...

从零散标识到结构资产：CDA数据分析师视角下的标签 ...

【CDA干货】数据挖掘经典实例分析：从技术原理到行 ...

【CDA干货】基于Requests库读取HTTP响应报文的方法 ...

【CDA干货】2025中小企业门店经营分析：基于客流、 ...

精准取数之道：CDA数据分析师视角下的数据查询语言 ...

【CDA干货】两水平单因素方差分析的原理与完整实操 ...

CDA持证人专访：郭畅谈银行大数据建模与智能风控实 ...

从“构建数据骨架”到“加速智能取数”：CDA数据分 ...

【CDA干货】Excel箱型图（箱线图）数据解读与实操分 ...

【CDA干货】基于3σ原则的异常数据识别与质量控制方 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

社交媒体的大数据并不可靠_数据分析师