京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代 你还有隐私吗_数据分析师考试
“我点击了自己的名字,页面上出现了一张熟悉的照片――是我穿着一件蓝色衬衫的照片,旁边配有我的基本履历资料……我点开了一个最近更新的链接,地点是波士顿的马萨诸塞大街……两秒钟后,我在视频中看到了自己推开了地铁站那厚重的大门……每次看到自己出现在视频中,我都会浑身不自在。但现在可好,我的一举一动已经被LifeLinear网的系统给记录了下来……”
以上是出自美国作家艾伯特-拉斯洛・巴拉巴西今年的新书《爆发》中的片段,其中出现的能够每时每刻记录人们行踪的“LifeLinear系统”只是作者杜撰出来,并非真实存在。但是作者同时认为,在科技发达的今天,借助大数据的平台,“LifeLinear系统”并非不能实现。这样的场景又让人毛骨悚然:如果真有这样一套系统面世,我们的隐私岂不是要暴露在光天化日之下?大数据堪称一把双刃剑。不论是企业还是个人,都会因大数据的爆发获益匪浅,但同时个人隐私也无处遁形。随之而来的问题是:这些数据应当属于谁?谁有权利利用这些数据进行分析?这种利用能否有个限度?
大数据改变世界
大数据概念相对“年轻”,但是对于很多人并不陌生。数据的爆发归功于社交网络、电子商务和物联网的快速发展。
以前,人们只是将上网当做娱乐方式之一,现在,人们更多的是生活在网络平台上。这使得每18个月,数据量就会翻一番。海量数据的影响力是不可小觑的。麻省理工学院斯隆管理学院的经济学教授埃里克・布吕诺尔夫松(Erik Brynjolfsson)曾经指出,在商业、经济及其他领域中,决策行为将日益基于数据和分析而作出,而并非基于经验和直觉。“我们的决策能够开始变得更加科学化。”他这样说。 越来越多的企业希望借助数据存储、数据分析等为自身带来更多利益。最典型的一个案例就是,华尔街有炒家利用电脑程序分析当时全球3.4亿微博账户的留言来判断民众情绪,再以1到50为其打分,根据分数高低处理手中的股票。判断原则很简单:如果多数人表现兴奋,那就买入;如果大家的焦虑情绪上升,那就抛售。这一数据分析软件帮助该炒家在今年第一季度获得了7%的收益率。
当然,消费者也会享受到更方便和更具个性化的服务。网购狂人李雪(化名)每天早上打开邮件,首先映入眼帘的就是各大电子商务网站发出的订阅邮件和个性化推荐的邮件,着实方便了她在网上进行目标性极强的有选择的“扫荡式”购物。这是商家根据对用户的页面停留时间、浏览与购买商品的分类等数据的分析作出的推荐。 另外,还可以通过数据分析来为人们的提供健康保障。总部位于美国加州的医疗管理财团Kaiser Permanente,收集并分析所有的临床分析和成本数据,发现了美国默沙东公司的神经和肌肉、骨骼系统药“万络”能够引发心脏病的副作用,最终成功使其退出市场。《爆发》一书中提出,如果大数据被充分利用,在流行病的控制等方面也会发挥奇效。
谁来掌控属于你的大数据
每个人都期待获得个性化服务。但是,在大数据时代,想要获得个性化服务,就一定会在某种程度上牺牲自己的隐私。 当你在使用电子邮件、社交网络的时候,你大概也会知道你的信息正在被记录下来,你发表的言论或者分享的照片、视频等都决定着互联网运营商即将向你推荐什么样的资源和广告;当你拿着iPhone满世界跑的时候,苹果早已通过定位系统把你的全部信息收罗在自己的数据库里,利用这些信息来构建地图和交通信息等;当你在享受着视频监控带来的安全感的同时,别忘了你也是被监控的一分子,你的一举一动都会暴露在镜头下面;你用手机通话时,运营商不仅知道你打给谁,打了多久,还知道你是在哪里进行的通话。 以前,这些记录几乎不会对普通人造成影响,因为它的数量如此巨大,除非刻意寻找,人们不会注意其中的某些信息。
但是,随着大数据技术的不断进步,这一状况正在发生改变。本文之前提到的悬而未决的问题随之而来,造成了很多尴尬的局面。例如,Facebook公司内部的科学家已经利用这些数据进行了大量研究并发表了超过30篇论文,但Facebook顾虑到隐私问题,并未公布原始数据,使得这些论文无法被业界承认并应用在广泛的社会学和心理学领域。同时,外界的研究者苦于没有数据,进行相关研究时远远没有Facebook得心应手。今年8月,Facebook公司表示正计划向社会学家开放有限的数据访问权限,这又会带来更多争议。此外,谷歌也和美国政府就数据利用问题产生了多次冲突。美国政府以各种理由不断要求谷歌提供用户数据并时常遭到谷歌拒绝。
同时,美国政府也对街景等应用进行调查,限制谷歌收集更多数据以制衡谷歌。 微软研究院的高级研究员博伊德(Danah Boyd)曾经表示:“如今,我们社交网络化的社会绝对有制造恐慌的天分。在大数据时代,对隐私泄露的担忧就是强大的紧张和焦虑的源泉。人们普遍认为,最令人焦虑的在于你根本不知道什么时候自己的隐私就无意中被泄露出去。”她认为,这并不是我们希望建立的社会。 人们最担心的,是对这种数据的无限制利用。《爆发》一书中更指出,人的行为看似随机无序,但实际上是存在某种规律的。社交网络如此发达的今天,大数据把人的行为进行放大分析,从而能够相对准确地预测人的性格和行程。
所以,不排除有这样一种可能:在忙完了一天的工作之后,你还没有决定要去哪儿,数据中心却早就先于你准确预测了接下来的目的地。 人们是否存在真正的隐私 当前,数据的数量时刻都在飞速增长。信息分享在全世界范围内越广泛,确保数据安全和保护人们隐私的任务就越难完成。现如今,人与人之间交流产生的流量远远大于文件传输产生的流量,但是,人与人之间的交流可以界定为隐私,属于比较敏感的范畴。
由此看来,整个互联网都是隐私的,是不可公开的。但是,现有的互联网结构下,你的所有应用对于服务提供商,其实都是透明的。那么,人们既想要借助互联网的平台与别人交流,又想要自己的空间不被窥探,这是完全不可能的。 《爆发》一书中指出,为获得便利,人们未来会接受匿名的隐私泄露。
但是,在过去的几年中,计算机专家一再表示,即使是匿名的数据也可以被重新确定,并且归属到具体的个人。例如,如果一笔超市购物记录中的零食全都和你的爱好相符、提供记录的超市正好位于你公司到家里的路上、购物时间刚好是你下班和到家之间的时间,这笔购物就很有可能与你相关,如果单子里刚好有你之前微博上表示感兴趣的商品,那就更有可能了。曾经,谷歌的一位工程师在解释“为什么不收集与人的名字相关的信息”的时候说道:“我们根本就不需要名字,名字对我们来说完全多余。谷歌记录网民搜索查询、位置和网上行为的大型数据库中就有大量信息,这足以让谷歌间接地了解一个人。”
这意味着人们隐私权的最后一道防线同样脆弱得不堪一击。 人们只能寄希望于在政府加大立法制度的同时,企业自身也设定相关规则实现自我管控。在美国北卡罗来纳州,曾经有人因为雇主看了他在Facebook上的信息而求职失败,求职者对雇主起诉并打赢官司。
为此,北卡罗来纳州专门立法规定雇主不得对雇员进行网上监控。Facebook也专门设立了首席隐私官。不过,政府和企业本身就拥有最多的数据,它们会真正限制自己对数据的应用吗?这将是未来大数据时代头上的一把达摩克利斯之剑。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23近日,由 CDA 数据科学研究院重磅发布的《2026 全球数智化人才指数报告》,被中国教育科学研究院官方账号正式收录, ...
2026-04-22在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22