
大数据时代,即便匿名,也可能被人识别出来
大数据研究是否会侵犯个人隐私?这个问题一直饱受争议。一方面,加强个人信息安全的呼声从未减少;但另一方面,越来越多掌握海量个人数据的机构开始向公众开放数据源,以推动学术研究,提升企业的商业表现,或是为用户的日常生活提供便利。
脆弱的匿名:仅仅四个数据点便能识别个体?
为了保障个人信息不被泄露,数据提供方常使用随机ID代替个人身份信息。敏感的个人身份识别信息——如名字,住址,手机号码等——因而得以隐藏。但是,匿名ID并不是万全之策,更何况在大多数情况下,公开数据只能做到某种程度上的匿名。通过极其少量的外部确认信息,比如时空数据点,数据使用者就能够反向识别某个具体的个人。
在最近发表的一项研究中,MIT的Yves-Alexandre de Montjoye等学者分析了100多万用户在3个月内的信用卡消费数据。他们发现,仅仅需要4个外部确认信息,数据使用者就能以超过90%的几率识别特定用户。所谓外部确认信息,也就是跟用户相关的时空数据点,比如带有定位信息的Twitter,在Google上对某地的评价,Netfliex上的电影评分等等。
反向识别的大致流程是这样的:比如说,数据使用者想找到用户S的消费记录。他们由外部确认信息得知,S曾经在9月23号在某甜品店消费,并于9月24号在某餐馆就餐。经过在信用卡数据集中的筛选,只有一位ID为“7abc1a23”的用户完全符合上述条件。于是,只通过两条外部确认信息,研究者们就在海量的信用卡数据中找到了S,并通过ID获取了ta的所有相关记录。
尽管上诉个例略显极端,但是也为我们敲响了警钟:大数据时代,个人的日常生活轨迹极易被各个平台记录在案,它们可以互相参照,并成为其它数据集的外部确认信息。心怀不轨的攻击者,可以轻易地使用不同数据集进行比对,并定位目标个体。
数据和隐私:从历史到今天
在不同类型的数据中,个体被识别的可能性差别很大。相对而言,财经类数据,比如研究者们所使用的信用卡消费信息,能更准确地对个体进行反向识别。这些数据不仅仅包含了时间,地点,还额外加上了一重识别信息:消费金额。除此之外,手机移动数据信息、网络浏览信息、交通通勤信息等等,也都属于风险较大的类别。对于生活在网络时代的我们来说,只要曾在生活中留下过电子痕迹,个体隐私便难免遭受侵犯,甚至连匿名都无法提供足够的保护。
事实上,关于身份信息的记录早已有之,包括人口普查、选民登记、医疗信息等等。而这些数据常常在经过简单匿名处理之后,就直接向公众开放。1997年,MIT的学者Latanya Sweeney就曾质疑马萨诸塞州保险委员会公布的匿名医疗记录无法保护个人隐私。她借助该州的选民信息,成功反向识别了病患身份,并将研究结果发给州长加以警示。所以,匿名个体遭到定位的风险倒并非今天所独有。
然而,计算机技术的成熟以及大数据时代的到来,让情况变得更加糟糕。许多提供匿名用户数据的公司,都在隐私保护方面栽过跟头。2006年,美国在线(AOL)公布了65万用户在三个月内的匿名搜索数据。纽约时报依据外部信息进行对比,成功识别了部分用户的身份。在随后的法律诉讼中,AOL被迫付出了500万美元的赔偿金。
Netflix在2008年也曾陷入类似的争议。Netflix在2006年举办了著名的算法竞赛,奖励能预测用户观影偏好的最佳算法。大量的匿名用户评分数据因而被公布,并由参赛者任意使用。来自德克萨斯州大学奥斯汀分校的Arvind Narayanan 和 Vitaly Shmatikov两位学者,将Netflix的数据和IMBD的数据进行匹配,并由此识别了一些用户的身份,以及包括政治偏好在内的敏感信息。一年后,四位用户以侵犯隐私权为由将Netflix告上了法庭。
见招拆招:更复杂的匿名技术还是更完备的法律?
意识到匿名ID的脆弱和不可靠,学界和业界也在不断发明新的方法,以提升个人身份被识别的难度。Yves-Alexandre de Montjoye等研究者提供的一种解决方案是降低数据精度,比如将特定咖啡馆转换为某一区域内的餐馆,将具体时间转换为某个时间范围。但是他们承认,如果有足够多的外部确认信息,即便数据精度较低,某些个体仍旧很容易被辨识。
上文提到的Latanya Sweeney教授,则早在2002年就提出了k-匿名(k-anonymity)隐私保护模型。其它的方法还包括 l-多样化(l-diversity)、t-closeness、 差分隐私(differential privacy)、同态加密(homomorphic encryption)、零知识证明(zero-knowledge proof)等等。但是这些匿名方法都不可避免地存在局限性,无法完全阻止反向识别的实施。
比如说,所谓差分隐私,就是向原始数据中加入噪声,在增加识别难度的同时,保持数据的原有属性。一个例子是,Chrome 浏览器会首先对用户上传的数据进行随机化修改(randomized response),通过使用布隆过滤器加入噪声,再上传给服务器。苹果在2016年的世界开发者大会(WWDC)上也宣布使用类似的差分隐私方法。不过,差分隐私还是无法避免多个相关数据上报而导致的隐私泄露。更何况,道高一尺魔高一丈,匿名方法推陈出新的同时,攻击者们也会采用更为强力的识别工具。
唯一可以让我们稍许感到宽慰的是,学者们的不断努力提醒了政府,并推动了相关领域的立法行动——Latanya Sweeney就医疗隐私做出的警告,使得美国政府在2003年更新了健康保险便利和责任法案(HIPAA),进一步限制了医疗数据的披露。
现有体系的缺陷:隐私保护向何处去?
但即使在美国,立法方面的进展仍旧远远落于实践之后。美国现有法律强调,只要数据被提前模糊化,个人的身份信息得以隐藏,便可以被视为“安全”的匿名数据集,从而数据拥有者可以开放其使用权限。
至于数据被公开之后的使用限制,在现有法律框架中基本无迹可寻。更令人担忧的是,并不是所有数据公司都有保护隐私的良知,或者掌握了完备的匿名处理方法。很多时候,匿名数据被公开之后,公司就无法再通过后续手段加强其安全性。相比之下,攻击者能够不断升级技术手段,并收集其他数据来进行对比。
随着技术的普及和大数据的发展,使用者从公开资料中挖掘出个人敏感信息的难度不断降低。2014年,一名在Neustar实习的数据科学家在获取了纽约出租车轿车协会提供的出租车行车记录后,结合八卦信息网上找到的名人出行街拍图,成功识别了多位名人的上下车地点、车费、行车路径,以及其他一些出行记录,一时引发了舆论的关切。
越来越多的事例及研究表明,匿名能给个人隐私提供的保护十分脆弱,反向识别正变得愈发普遍。但是在当前的司法体系下,数据提供者依旧没有义务上报可能遭受了反向识别的数据集。攻击者们也甚少被追究责任。于是,公众很难得知,某个公开数据的匿名性是否已被攻破。无论是技术层面还是法律层面,大数据时代的隐私保护都还任重道远。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据驱动营销革命:解析数据分析在网络营销中的核心作用 在数字经济蓬勃发展的当下,网络营销已成为企业触达消费者 ...
2025-06-23随机森林模型与 OPLS-DA 的优缺点深度剖析 在数据分析与机器学习领域,随机森林模型与 OPLS-DA(正交偏最小二乘法判 ...
2025-06-23CDA 一级:开启数据分析师职业大门的钥匙 在数字化浪潮席卷全球的今天,数据已成为企业发展和决策的核心驱动力,数据分析师 ...
2025-06-23透视表内计算两个字段乘积的实用指南 在数据处理与分析的过程中,透视表凭借其强大的数据汇总和整理能力,成为了众多数据工 ...
2025-06-20CDA 一级考试备考时长全解析,助你高效备考 CDA(Certified Data Analyst)一级认证考试,作为数据分析师领域的重要资格认证, ...
2025-06-20统计学模型:解锁数据背后的规律与奥秘 在数据驱动决策的时代,统计学模型作为挖掘数据价值的核心工具,发挥着至关重要的作 ...
2025-06-20Logic 模型特征与选择应用:构建项目规划与评估的逻辑框架 在项目管理、政策制定以及社会服务等领域,Logic 模型(逻辑模型 ...
2025-06-19SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的利器 在数据分析的众多方法中,Mann-Kendall(MK)检验凭借其对数据分 ...
2025-06-19CDA 数据分析能力与 AI 的一体化发展关系:重塑数据驱动未来 在数字化浪潮奔涌的当下,数据已然成为企业乃至整个社会发展进 ...
2025-06-19CDA 干货分享:统计学的应用 在数据驱动业务发展的时代浪潮中,统计学作为数据分析的核心基石,发挥着无可替代的关键作用。 ...
2025-06-18CDA 精益业务数据分析:解锁企业增长新密码 在数字化浪潮席卷全球的当下,数据已然成为企业最具价值的资产之一。如何精准地 ...
2025-06-18CDA 培训:开启数据分析师职业大门的钥匙 在大数据时代,数据分析师已成为各行业竞相争夺的关键人才。CDA(Certified Data ...
2025-06-18CDA 人才招聘市场分析:机遇与挑战并存 在数字化浪潮席卷各行业的当下,数据分析能力成为企业发展的核心竞争力之一,持有 C ...
2025-06-17CDA金融大数据案例分析:驱动行业变革的实践与启示 在金融行业加速数字化转型的当下,大数据技术已成为金融机构提升 ...
2025-06-17CDA干货:SPSS交叉列联表分析规范与应用指南 一、交叉列联表的基本概念 交叉列联表(Cross-tabulation)是一种用于展示两个或多 ...
2025-06-17TMT行业内审内控咨询顾问 1-2万 上班地址:朝阳门北大街8号富华大厦A座9层 岗位描述 1、为客户提供高质量的 ...
2025-06-16一文读懂 CDA 数据分析师证书考试全攻略 在数据行业蓬勃发展的今天,CDA 数据分析师证书成为众多从业者和求职者提升竞争力的重要 ...
2025-06-16数据分析师:数字时代的商业解码者 在数字经济蓬勃发展的今天,数据已成为企业乃至整个社会最宝贵的资产之一。无论是 ...
2025-06-16解锁数据分析师证书:开启数字化职业新篇 在数字化浪潮汹涌的当下,数据已成为驱动企业前行的关键要素。从市场趋势研判、用 ...
2025-06-16CDA 数据分析师证书含金量几何?一文为你讲清楚 在当今数字化时代,数据成为了企业决策和发展的重要依据。数据分析师这一职业 ...
2025-06-13