京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据与情感分析:言多必得与言多必失
SmogFarm从事的是基于大数据的情绪分析,衡量、跟踪、聚合数百万人的情绪,然后做出全球第一份衡量群众心理的定量指标—地球脉搏。为什么要这么做?因为数据就是未来,情感是笔大买卖,选举、调查结果、流行新闻故事乃至于股市都会受到 “群众” 情绪的影响。
言多必得
相比之下,KredStreet则找到了另一个似乎更容易变现的垂直商业模式并已开始进行不公开测试:社会化股票交易员排名(The Social Stock Trader Rankings)。The Social Stock Trader Rankings 对 StockTwits 的数据进行情绪分析,对 Twitter 数据流进行采样,以便确定交易员总体看涨还是看跌。它还会将当前的股市表现与交易员过去的涨跌判断进行比对,进而依据交易员的准确率对其进行评分和排名。
这个排名系统的创意的确好。因为这里一切都是靠实力和结果说话,无名之辈只要预测准确率高也能把夸夸其谈的知名人士压倒。实际上,这一思路完全可以推广到许多领域,比方说倡导声音有力则不需名气的舆论网络初创企业 State的做法。说实话,这套东西有时候的确比文凭和砖家管用。
当然 SmogFarm/KredStreet 之流所从事的情绪分析,以及Summly从事的自然语言处理,还有Palantir从事的数据挖掘等尚处在早期阶段,还很不成熟。但请你设想一下 5年 之后。如果他们的大数据、高能量探照灯打在Facebook timeline这样的东西上,会有多少东西被他们洞悉?
几年前,EFF(电子前沿基金会)发现,哪怕是像浏览器设置这么简单的东西都会让你的匿名性下降到无法想象的地步。上一周,一项新研究又发现人的移动轨迹具有高度的独特性,按照这份研究的说法,从各人匿名提供的手机方位数据中只需抽取四个时空点就能识别出该用户,识别率高达 95%。好的软件能够从这些看似稀疏、空白的数据中挖掘出甚多宝物。
言多必失
随着语言和图像处理软件的不断进化,一旦被运用到 Facebook timeline 这样的东西上,就有可能产生出你意想不到的效果。你所说的话、发出去的图、玩过的游戏等,都会逐渐勾勒出你本人的一幅准确得令人恐怖的肖像,那些东西可能是你从来都不曾想公开的隐私。
更糟的是这件事有可能容易得出奇。老板可能根本就不需要通读你的 Facebook timeline,只需将档案分析软件往你的头像一点,半分钟之后,你的工作习惯、神经衰弱、人生受挫、情绪不稳、对老板的态度等悉数就被推断出来—你的照片、评论、喜欢、顶等,这些信息从个体上看虽然毫无意义,但是拼凑起来就能形成你的拼图。
这是一笔大买卖。前不久,IBM 开发的新型安全工具就能够运用大数据来识别安全威胁和不满员工。Facebook 之流显然也指望此类大数据应用为其定向广告挖掘出大金矿。
但是这会受到用户的反制。我们可以设想,一旦这样的工具成熟起来,大家在网上的表现一定不会再像以前那样直率,会变得更加小心翼翼。或者甚至只看不说。这样的网络到头来也许只有两种结果:死气沉沉、人人自危,或者只谈风月、口是心非。
扎克伯格定律认为互联网用户共享的信息每年都会翻番。但是一旦大家都意识到言多必失时这条规律还能不能延续?
工具无所谓好坏,言多必得还是言多必失,要看用者做不做恶,对于用户和商家来说结果只有两个:双赢或双输,善用则情感成为好买卖,滥用则数据没有未来。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22