京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据与个人信息保护
数据为王的时代,对于用户隐私的保护必然会越来越受到重视。那么,个人隐私保护制度会对互联网的发展带来怎样的影响?如何才能在大数据应用的商业利益与公众的个人信息保护需求之间取得平衡?在互联网无时不在、无时不有的今天,我们的隐私在各种情况下被收集、被利用,甚至被滥用,有关个人信息保护的立法也是国家立法计划中的重要内容,我主要跟大家分享几个方面,首先什么是隐私,如果这一点达不成共识,讨论就没有意义了。第二,我们现在所谓隐私保护面临哪些问题?第三,面对这些问题,未来从法律上怎么解决这些问题?
隐私是一个法律概念
隐私简单地说,是一个人不想让别人知道的东西。但个人的生活、感情因人而异,大家对隐私的看法也不一样。很多朋友都讲,隐私体现的是一种个人的东西,这在我理解的话就是属于个人信息的范畴。很多人对什么是隐私有分歧,就同一个人来说也不确定自己哪些是隐私,或者有些时候是,有些时候不是,完全自己说了算。所以这样的社会里如果较起真来,或者在法律上要维权的话就混乱了。
隐私不是中国本土的概念,隐私是用美国隐私概念的瓶装入了欧洲隐私的酒拿到中国来的。欧美人并没有对隐私从不同的学科、不同的语境、不同的地域文化上做区分,在欧美问什么是隐私,分歧也很大,但可能会比中国好一些,因为这种隐私跟我们的文化水土不服。隐私是一个与地域文化传统关联十分密切的概念。
在欧洲,宗教信仰就是隐私,而在中国,谁会认为这是隐私呢?中国传统上并没有隐私的概念,有一个观念是阴私。但上世纪70年代末80年代初,从欧美翻译过来的隐私的概念传到中国后广泛传播,导致了现在中国的隐私泛滥、泛化,动不动就说侵犯隐私,但你问什么是隐私,他却无法给你准确的答案。
隐私应当做不同学科、不同语境、不同地域文化的理解。女性的三围、身高、体重是心理学或社会学上的隐私,一定不能将这些隐私,包括政治学、经济学意义上的隐私跟法律上的隐私混为一谈。法律上,隐私是通过隐私权来保护的,权利就是行为自由的边界。这个边界很清晰,其他人不能进入,否则就可以起诉他侵权。如果法律上的隐私内涵不确定、外延不明确,因人而异,就会出现混乱。
隐私与公共利益无关
隐私绝对是个人的东西,比如国家机关就没有隐私。法律上的隐私,是个人信息的一部分,但不是所有个人信息都是法律上的隐私,姓名、家庭住址、女性的三围绝对不是法律上所讲的隐私。中国的阴私概念是值得借鉴的,从1956年“民法草案”开始,到1982年的民法通则,这一段时间里中国的法律上就有阴私概念。阴私是指不好的事情,一般正常理性的人,这些事情、信息公布出去会让他名誉扫地,让他的社会尊严受到伤害。传统的阴私仅仅是指与性有关的一些东西,比如裸照、性生活、两性情感。这个价值取向值得我们认可,但缺点是内涵比较窄,仅限于与性有关的方面。
阴私的价值观我们要继承。在上世纪70年代、80年代之前,阴私内涵比较窄没有问题,但是发展到今天,价值取向扩大了。很多人认可隐私这个词,这就是中国传统阴私的概念,但是内容要扩展。所以法律上的隐私,不限于与性有关的,还包括不为人知的重大生理疾病缺陷,这些缺陷公布出去同样会让他受到歧视,或令他的名誉受到影响。
这里下一个定义,法律上的隐私是指与公共利益、社会利益没有直接关系,同时又与人的名誉和尊严有关的极少数个人信息,这是抽象出来的本质;包括但不限于裸照、性相关、情感经历、生理疾病等,这是范围和表象。很多学者批评中国民法通则没有规范隐私,不重视人权,但是最高法院的司法解释是把它作为名誉权来保护的,比如披露与性有关的东西,让人名誉扫地,就认为侵犯了名誉权。其实按我的理解,隐私权不独立,隐私与名誉是相联系的。这方面中国其实比欧美先进,中国有阴私概念,披露阴私即会使人名誉扫地。
与公共利益、社会利益的关系还要看具体情况。一般人的婚外情或者是两性的东西可能被认为是属于隐私,但是作为政治官员、作为公众人物,他们的某些个人信息可能与公共利益、社会利益有关系,所以这部分在一定范围内可以公开。一般人认为属于隐私的,他们要受到限制。但是无论如何,在披露这些政治人物或者公众人物隐私时也要考虑到他们作为一个人最起码的名誉和尊严,披露的方式要注意,比如将裸照放在网上是不可以接受的,不能因为是公众人物就不被保护。再比如犯罪记录,它有不同国家、不同文化的考量。有的以社会利益为本位的国家不把犯罪记录作为隐私,他们认为如果把犯罪记录作为隐私保护起来的话,会对周围人的安全带来隐患,虽然公开犯罪记录也可能会使被公开者的尊严受损。
难以操作的个人信息保护指令
我们现在说的个人信息、敏感信息的概念来自欧盟。欧盟与中国国情不同,拿过来没有可操作性。今天在讨论隐私遇到互联网时,一定要知道这个隐私是什么样的隐私,否则讨论就没有任何意义。欧美的隐私观,表面上看好像尊重了个人权利,好像很现代化,实际上不仅没有任何积极意义,还会带来很多消极的作用。现在所说的“隐私遇上互联网”的这个隐私,不是我讲的法律上的隐私,而是受到欧美隐私观影响的一种东西。
在个人信息中,姓名、家庭地址、电话号码都是在社会交往中正常产生的,我们反对的是骚扰电话、垃圾短信这样的滥用行为。现在买卖个人信息很常见,发送垃圾短信、骚扰电话,有人认为是侵犯隐私,这看起来非常诱人的想法实际上正是导致问题泛滥的根源。按照刑法修正案,情节严重的买卖个人信息是一种犯罪行为,但是起诉维权的成本特别高,侵权和犯罪的成本却特别低。现在的隐私观念听起来讲人权,但客观上不利于受害人维权。
我们现在的立法是学习欧盟的,全国人大常委会2012年通过一个规定,互联网公司在收集个人信息的时候应当征得当事人的同意,当事人有决定权是否让你收集;有知情权,你基于什么样的目的收集个人信息,收集以后存在什么地方;当事人也有查看的权利、删除的权利、修改的权利,比如信息记录不完整、有出入时可以进行修改;甚至还有被遗忘的权利———以前互联网上的信息,时过境迁不希望放在网上的时候有权请求删除,删除之后在互联网上就被遗忘了,所以是被遗忘的权利。
收集信息所涉及的同意、知情、查询、修改、删除权是欧盟1995年的个人信息保护指令中所规定的内容,去年修改时增加了被遗忘的权利,但是这个权利的落实需要技术上的一个先决条件,就是当事人必须知道自己的信息何时何地被何人收集在了什么地方,这样才能行使相关权利。欧盟的个人信息保护指令源于上世纪60年代末70年代初,那时只有银行、保险、电信公司和政府机构才有大型计算机,但现在,移动互联网的出现让信息的收集无时无处不在,每个人的工作单位、电话号码、家庭地址能说清楚何时何地被何人收集了吗?所以现在的立法和认识都远远过时了,没有办法操作。
去年欧洲讨论很激烈的是被遗忘的权利,最后勉强通过,我们马上将欧洲的东西引进过来。欧洲有没有大的互联网公司?一个都没有。欧盟像垂暮的老年,特别保守,极端推崇个人的权利、个人的自由,欧盟的隐私观就是极端个人主义自由观的体现。
互联网收集的信息多数不是隐私
当隐私遇到互联网,很多时候我们说的那个隐私其实并不是隐私。互联网收集信息无处不在无时不有,但收集的这些信息多数不属于隐私范畴:比如说在当当购书了,就会发现上网时会提示你买什么书;或者使用了搜索引擎,下次再使用时就会自动弹出相关的东西,很多人都错误地认为这是侵犯了隐私。排除政府的行为,对互联网企业来说,你要是认为它收集的信息侵犯了你的隐私,这十有八九是自作多情。互联网企业无需知道你是张三还是李四,它只需要有针对性地推广商品和服务。
在互联网背景下,要区分什么是我的个人信息,什么是可以找到我的信息。个人信息是由若干片断组合而成的,N个片断的组合才是我的个人信息。如果N -1个片断的话,不是完整的我,就不是个人信息了。所以行为偏好不是个人信息,个人信息是能够直接或间接识别出一个人的信息总和,单单行为偏好的数据不足以识别出一个完整的我。但是行为偏好数据可以让商家很快找到这个人所需要的服务,对双方都有好处。所以隐私遇到互联网,有一个观念要转变,很多人认为商家收集信息就是侵犯个人隐私,这是错误的,是对互联网的误解。一般来说互联网公司无需知道一个人的个人信息,也没有动机知道,知道对它没有任何好处,只有坏处。只有一种情况例外,就是比如公安机关依法定程序找互联网企业要信息。
现在的大数据时代还意味着,原来散落在互联网各个角落的信息,通过数据信息的收集、加工技术,海量数据将连在一起。这样,原来不能识别出一个人的N -1、N - 2、N -3个信息就可以还原为N个信息,就可以找到这个人,实行实名化。所以这里有一个原则,在大数据的背景下对数据的加工分析匹配过程一定要匿名化。匿名化对商家来说,就是处理的这些数据不会知道具体是谁的信息,只是数据而已。收集加工处理越精准,才越有利于用户和企业之间减少交易成本。当然还有一个原则,阴私是禁止收集、禁止加工的,但遵循匿名原则的话,这个问题就不存在了。
只要我们遵循以上的这些原则,隐私遇到互联网其实没有什么大问题,不像传说中那么恐怖。最重要的,一是要规范政府的行为,二是要规范企业的信息加工,使最后的匹配行为一定匿名化。如果这两点做到了,在互联网环境下,我们就不要老强调信息安全,害怕泄露隐私。现在我们在观念上本末倒置,强调信息的安全,事实上无法安全。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18