京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代更加注重个人隐私_数据分析师
近日,谷歌因侵犯数据隐私在法国被罚,理由是未整改其跟踪并储存用户信息的违法行为。此事要回溯到2012年3月,谷歌启用新的数据收集方案,修改了隐私政策,通过YouTube、Gmail等服务收集数据并整合在一起。虽然谷歌称此举可以为用户提供更加便捷、高效的服务,但法国国家信息自由委员会(CNIL)认为谷歌对用户信息的处理不够透明,用户既不知道这些数据会被怎样处理,也不知道谷歌处理其个人数据信息的目的,而且用户别无选择。
最终,谷歌被CNIL处罚15万欧元,虽然跟谷歌的收入相比简直微不足道,但此判罚将引发世界各地对个人隐私保护的连锁反应。据悉,谷歌新的隐私政策在西班牙、英国、德国、意大利以及荷兰都遭到了相似的指控。
上述案例是目前吵得沸沸扬扬的大数据与个人隐私之争的典型代表。未来随着大数据应用的进一步广泛,个人隐私保护将面临更为严峻的挑战。
福尔摩斯可以从微小的细节中发现案件的相关蛛丝马迹,勾勒出嫌疑人的形象。同样,大数据通过对海量数据的分析,也可以将一个人具象化。
互联网的个人隐私问题由来已久
自己的秘密不愿让他人知道,是自己的权利,这个权利就叫隐私权。在互联网时代,个人隐私问题主要是指对个人隐私权的侵犯。比如个人照片,当事人主动在网上分享与当事人不情愿却被他人放到网上分享是截然不同的两种情形,后者显然侵犯了个人隐私。人们的个人身份信息,以及人们在互联网上的各种行为,在没有任何提示的情况下被网站存储、利用,甚至泄露,这就是目前互联网在个人隐私方面涉及的主要问题。
互联网上个人隐私问题由来已久,因为个人隐私信息具有很高的利用价值。去年的央视315让人们了解到Cookie这一古老的收集个人上网行为的工具,在人们接触互联网的过程中,网民的性别、年龄、职业、兴趣等等都会成为有价值的数据,互联网广告可以通过这些数据实现精准的推送。在社交网络兴起之后,网民之间的社交关系同样极具价值:当你的某个朋友将要过生日时,生日礼物的广告已经铺天盖地提前占满所有屏幕。同样,LBS兴起之后,网民的地理位置信息同样可被利用,人们到达任意位置,附件商家的信息可以即时呈现。即使不用LBS,移动通信基站同样可以实现定位
大数据让互联网隐私问题更加突出
既然个人隐私问题是互联网Web2.0生来携带的胎毒,那为何还要与大数据应用起争执呢?我们知道,大数据分析是大数据应用的撒手锏,Gartner将大数据描述为具有更强的决策力、洞察发现力。大数据可以对海量的信息进行分析并发现其中的价值,这种能力让其成为了互联网应用中的夏洛克福尔摩斯。大数据应用中,前面所述的所有类型的个人信息都可以关联利用,使得这个人更加具象。所以说,大数据应用下互联网隐私问题显得更加突出。
不过,大数据与个人隐私之间的关系并非处处剑拔弩张。在讨论这个问题之前,可以先看这么几则案例:
送到机场的晚餐
当一位顾客开玩笑地通过推特向位于芝加哥的牛排连锁店Morton牛排店订餐,并要求送到纽约Newark机场(他将在一天工作之后抵达该处)时,Morton开始了自己的社交秀。首先,分析推特数据,发现该顾客是本店的常客,也是推特的常用者。根据客户以往的订单,推测出其所乘的航班,然后派出一位身着燕尾服的侍者为客户提供晚餐。
摸清赌客的脾气
现实中的赌客个个深藏不露,但在互联网上就没那么神了。Tipp24 AG针对欧洲博彩业构建的下注和预测平台,利用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动。这项举措减少了90%的预测模型构建时间。
定制化求婚
这不能算作一个案例。在百度有一个奇思妙想实验室,在足够规模的用户数据和技术积累下,输入一句简单的怎么向女友求婚,通过跨领域推荐引擎技术,便能找到一套为你量身打造的方案。甚至连道具、路线、天气,乃至如何讨得她家小狗欢心的方法都考虑得一应俱全。
大数据炒股
经典的大数据应用。华尔街有炒家利用电脑程序分析全球3.4亿微博账户的留言来判断民众情绪,再以1到50为其打分。同时根据打分的结果,来处理手中数以百万美元的股票。判断原则很简单:如果多数人表现兴奋,那就买入;如果大家的焦虑情绪上升,那就抛售。这一数据分析帮助该炒手今年第一季度获得了7%的收益率。
上述的四则案例中,前面三个均是针对个人的定制化服务,在利用大数据的过程中,必然会涉及大量的个人隐私信息,其中有哪些是用户授权的,哪些是未经授权的,这些分析系统未必能分得清楚,因此带来一系列的侵犯隐私的问题;对于第四种行为,对群体信息进行分析,笔者认为其实际上已经做到了脱敏,并不涉及隐私问题。
相比Cookie、社交、LBS的单一功能,大数据综合利用到更多的隐私信息,当然也带来更加定制化的服务。良好的用户体验恰恰又需要高度定制化的服务,因此如何平衡隐私与定制服务的关系成为难题。美国《连线》杂志创始人凯文凯利曾经说过说:如果需要个性化服务,就必须用透明度换取。最大化的个性化意味着最大化的透明化。如果不想透露任何信息,那就不能期待别人把自己当作有个性的个体。
对群体信息的分析实际上已经实现了脱敏
好坏之分:看AK47在谁的手里
每个网民、每个消费者都无法避免个人隐私被互联网记录和利用。虽然DNT(Do Not Track,禁止跟踪)技术可以阻止记录浏览行为,但通过对移动终端的定位,结合网关的上网行为分析依然能识别每一个人。大数据的特点已经讲过了,可以对所有的数据进行关联分析,从这个意义上说,大数据面前人人无所遁形。
大数据只是一个工具,好与坏要看人们怎么去用它。就像卡拉什尼科夫发明的AK47"
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18