大数据时代:隐私保护的技术支持及法规保障(2)_数据分析师考试
在大数据技术方面,隐私保护的研究领域主要关注基于数据失真的技术、基于数据加密的技术和基于限制发布的技术。
基于数据失真的技术通过添加噪音等方法,使敏感数据失真但同时保持某些数据或数据属性不变,仍然可以保持某些统计方面的性质。包括随机化,即对原始数据加入随机噪声,然后发布扰动后数据的方法;第二种是阻塞与凝聚,阻塞是指不发布某些特定数据的方法,凝聚是指原始数据记录分组存储统计信息的方法;第三类是差分隐私保护。
基于数据加密的技术采用加密技术在数据挖掘过程隐藏敏感数据的方法,包括安全多方计算 SMC,即使两个或多个站点通过某种协议完成计算后,每一方都只知道自己的输入数据和所有数据计算后的最终结果;还包括分布式匿名化,即保证站点数据隐私、收集足够的信息实现利用率尽量大的数据匿名。
基于限制发布的技术有选择地发布原始数据、不发布或者发布精度较低的敏感数据,实现隐私保护。当前这类技术的研究集中于“数据匿名化”,保证对敏感数据及隐私的披露风险在可容忍范围内。包括K-anonymity、L-diversity、T-closeness。
最早被广泛认同的隐私保护模型是k-匿名,由Samarati和Sweeney在2002年提出,作者正是马萨诸塞州医疗数据隐私泄露事件的攻击者。为应对去匿名化攻击,k-匿名要求发布的数据中每一条记录都要与其他至少k-1条记录不可区分(称为一个等价类)。当攻击者获得k-匿名处理后的数据时,将至少得到k个不同人的记录,进而无法做出准确的判断。参数k表示隐私保护的强度,k值越大,隐私保护的强度越强,但丢失的信息更多,数据的可用性越低。
然而,美国康奈尔大学的Machanavajjhala等人在2006年发现了k-匿名的缺陷,即没有对敏感属性做任何约束,攻击者可以利用背景知识攻击、再识别攻击和一致性攻击等方法来确认敏感数据与个人的关系,导致隐私泄露。例如,攻击者获得的k-匿名化的数据,如果被攻击者所在的等价类中都是艾滋病病人,那么攻击者很容易做出被攻击者肯定患有艾滋病的判断(上述就是一致性攻击的原理)。为了防止一致性攻击,新的隐私保护模型l-diversity改进了k-匿名,保证任意一个等价类中的敏感属性都至少有l个不同的值。t-Closeness在l-diversity 的基础上,要求所有等价类中敏感属性的分布尽量接近该属性的全局分布。(a, k)-匿名原则,则在k-匿名的基础上,进一步保证每一个等价类中与任意一个敏感属性值相关记录的百分比不高于a。
然而,上述隐私保护模型依然有缺陷,需要不断的被改进,但同时又有新的攻击方法出现,使得基于k-匿名的传统隐私保护模型陷入这样一个无休止的循环中。从根本上来说,传统隐私保护模型的缺陷在于对攻击者的背景知识和攻击模型都给出了过多的假设。但这些假设在现实中往往并不完全成立,因此攻击总是能够找到各种各样的攻击方法来进行攻击。直到差分隐私的出现,这一问题才得到较好的解决。
差分隐私(differential privacy, DP)是微软研究院的Dwork在2006年提出的一种新的隐私保护模型。该方法能够解决传统隐私保护模型的两大缺陷:(1)定义了一个相当严格的攻击模型,不关心攻击者拥有多少背景知识,即使攻击者已掌握除某一条记录之外的所有记录信息(即最大背景知识假设),该记录的隐私也无法被披露;(2)对隐私保护水平给出了严谨的定义和量化评估方法。正是由于差分隐私的诸多优势,使其一出现便迅速取代传统隐私保护模型,成为当前隐私研究的热点,并引起了理论计算机科学、数据库、数据挖掘和机器学习等多个领域的关注。
在管理领域,我国各部门也在制定一些强制管理措施保护隐私信息。
总之,隐私保护在大数据时代是不可回避的,需要拿出切实可行的法律、技术、管理措施,并严格遵照执行。同时,广大民众也应该养成保护个人隐私信息的意识和习惯,用技术和法律的手段捍卫自己的合法权益。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08