京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代更加注重个人隐私_数据分析师
近日,谷歌因侵犯数据隐私在法国被罚,理由是未整改其跟踪并储存用户信息的违法行为。此事要回溯到2012年3月,谷歌启用新的数据收集方案,修改了隐私政策,通过YouTube、Gmail等服务收集数据并整合在一起。虽然谷歌称此举可以为用户提供更加便捷、高效的服务,但法国国家信息自由委员会(CNIL)认为谷歌对用户信息的处理不够透明,用户既不知道这些数据会被怎样处理,也不知道谷歌处理其个人数据信息的目的,而且用户别无选择。
最终,谷歌被CNIL处罚15万欧元,虽然跟谷歌的收入相比简直微不足道,但此判罚将引发世界各地对个人隐私保护的连锁反应。据悉,谷歌新的隐私政策在西班牙、英国、德国、意大利以及荷兰都遭到了相似的指控。
上述案例是目前吵得沸沸扬扬的大数据与个人隐私之争的典型代表。未来随着大数据应用的进一步广泛,个人隐私保护将面临更为严峻的挑战。
福尔摩斯可以从微小的细节中发现案件的相关蛛丝马迹,勾勒出嫌疑人的形象。同样,大数据通过对海量数据的分析,也可以将一个人具象化。
互联网的个人隐私问题由来已久
自己的秘密不愿让他人知道,是自己的权利,这个权利就叫隐私权。在互联网时代,个人隐私问题主要是指对个人隐私权的侵犯。比如个人照片,当事人主动在网上分享与当事人不情愿却被他人放到网上分享是截然不同的两种情形,后者显然侵犯了个人隐私。人们的个人身份信息,以及人们在互联网上的各种行为,在没有任何提示的情况下被网站存储、利用,甚至泄露,这就是目前互联网在个人隐私方面涉及的主要问题。
互联网上个人隐私问题由来已久,因为个人隐私信息具有很高的利用价值。去年的央视315让人们了解到Cookie这一古老的收集个人上网行为的工具,在人们接触互联网的过程中,网民的性别、年龄、职业、兴趣等等都会成为有价值的数据,互联网广告可以通过这些数据实现精准的推送。在社交网络兴起之后,网民之间的社交关系同样极具价值:当你的某个朋友将要过生日时,生日礼物的广告已经铺天盖地提前占满所有屏幕。同样,LBS兴起之后,网民的地理位置信息同样可被利用,人们到达任意位置,附件商家的信息可以即时呈现。即使不用LBS,移动通信基站同样可以实现定位
大数据让互联网隐私问题更加突出
既然个人隐私问题是互联网Web2.0生来携带的胎毒,那为何还要与大数据应用起争执呢?我们知道,大数据分析是大数据应用的撒手锏,Gartner将大数据描述为具有更强的决策力、洞察发现力。大数据可以对海量的信息进行分析并发现其中的价值,这种能力让其成为了互联网应用中的夏洛克福尔摩斯。大数据应用中,前面所述的所有类型的个人信息都可以关联利用,使得这个人更加具象。所以说,大数据应用下互联网隐私问题显得更加突出。
不过,大数据与个人隐私之间的关系并非处处剑拔弩张。在讨论这个问题之前,可以先看这么几则案例:
送到机场的晚餐
当一位顾客开玩笑地通过推特向位于芝加哥的牛排连锁店Morton牛排店订餐,并要求送到纽约Newark机场(他将在一天工作之后抵达该处)时,Morton开始了自己的社交秀。首先,分析推特数据,发现该顾客是本店的常客,也是推特的常用者。根据客户以往的订单,推测出其所乘的航班,然后派出一位身着燕尾服的侍者为客户提供晚餐。
摸清赌客的脾气
现实中的赌客个个深藏不露,但在互联网上就没那么神了。Tipp24 AG针对欧洲博彩业构建的下注和预测平台,利用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。
定制化求婚
这不能算作一个案例。在百度有一个奇思妙想实验室,在足够规模的用户数据和技术积累下,输入一句简单的怎么向女友求婚,通过跨领域推荐引擎技术,便能找到一套为你量身打造的方案。甚至连道具、路线、天气,乃至如何讨得她家小狗欢心的方法都考虑得一应俱全。
大数据炒股
经典的大数据应用。华尔街有炒家利用电脑程序分析全球3.4亿微博账户的留言来判断民众情绪,再以1到50为其打分。同时根据打分的结果,来处理手中数以百万美元的股票。判断原则很简单:如果多数人表现兴奋,那就买入;如果大家的焦虑情绪上升,那就抛售。这一数据分析帮助该炒手今年第一季度获得了7%的收益率。
上述的四则案例中,前面三个均是针对个人的定制化服务,在利用大数据的过程中,必然会涉及大量的个人隐私信息,其中有哪些是用户授权的,哪些是未经授权的,这些分析系统未必能分得清楚,因此带来一系列的侵犯隐私的问题;对于第四种行为,对群体信息进行分析,笔者认为其实际上已经做到了脱敏,并不涉及隐私问题。
相比Cookie、社交、LBS的单一功能,大数据综合利用到更多的隐私信息,当然也带来更加定制化的服务。良好的用户体验恰恰又需要高度定制化的服务,因此如何平衡隐私与定制服务的关系成为难题。美国《连线》杂志创始人凯文凯利曾经说过说:如果需要个性化服务,就必须用透明度换取。最大化的个性化意味着最大化的透明化。如果不想透露任何信息,那就不能期待别人把自己当作有个性的个体。
对群体信息的分析实际上已经实现了脱敏
好坏之分:看AK47在谁的手里
每个网民、每个消费者都无法避免个人隐私被互联网记录和利用。虽然DNT(Do Not Track,禁止跟踪)技术可以阻止记录浏览行为,但通过对移动终端的定位,结合网关的上网行为分析依然能识别每一个人。大数据的特点已经讲过了,可以对所有的数据进行关联分析,从这个意义上说,大数据面前人人无所遁形。
大数据只是一个工具,好与坏要看人们怎么去用它。就像卡拉什尼科夫发明的AK47"
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-10在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-10在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01