
大数据卖的就是隐私_数据分析师考试
随着互联网技术更新换代,数据的大规模采集和分析使用,已是人们生活的常态。高端分析算式的研发,使抽取数据中藏着的有用信息成为现实。于是数据的魔力大放异彩,给我们带来了梦寐以求的便利。例如,商家仿佛钻进消费者肚子里的孙悟空,你才转了个念头,电脑和手机就奇迹般地开始推送相关的商品广告了。真应了那句老话:心想事成。当然,我们也添了许多闻所未闻的麻烦,比如刚接通一个免费WiFi,银行账户信息就莫名其妙地泄露了。电视台天天报道,告诫大家警惕。但在市场弄潮儿眼里,数据还有更为奇妙的神功,那就是取之不尽、用之不竭的廉价原材料——元数据。元数据追踪着我们的生活,一刻不停又无处不在,仿佛一座座富矿,等待着算式处理、点石成金。多少人想挖掘这富矿……现在,终于打通了矿井,而那最后的爆破就是:数据商品化,公开合法的交易。
然而,要把数据交易这颗“明珠”稳稳当当地放上数据产业金字塔的顶端,尚有一道难题需要回答:数据要当做商品,它的所有权何在?
一样东西之成为商品,一是因为它有某种使用价值,如饮食、观赏、制作工具等;二是因为有人拿它来买卖,即实现其可交换的价值。如此就有了价格和市场。一般来说,商品的产权清晰,买卖才做得成。明确的所有权(ownership)归属,是商品参与市场交易的前提条件,而所有权的界定有赖于一套稳定的社会道德伦理和法律规范;否则就难以有效行使产权,包括市场交易,并合理合法地解决相关的纠纷。显然,数据作为商品,也不例外。不幸的是,信息时代虽然来临,数据的财产所有权却一直缺乏规范,滞留在法律的灰色地带。因此,海量的数据挂牌交易,对于市场秩序和交易双方,就充满了法律风险;而且,从社会公正的角度看,还极易损害被记录主体的一些公民基本权利,包括人格权与财产权,影响到民众的医保、生育、就业和人身自由权。为了降低并管控这些风险,我们有必要研究一下数据所有权的归属,对数据商品化,即新产权的攫取和扩张可能带来的社会后果考察一番。
数据的所有权到底该归谁?如,你在网上购物生成的数据,产权属于网店、网上购物平台提供商,还是你自己?患者就诊,病史信息归病人、医院,还是医院的电脑系统提供商?社保个人账户数据,属于参保者、政府、共同基金,抑或网络系统外包商?这是回避不了的问题,现行法律规范和学说却显得捉襟见肘,拿不出有说服力又便于操作的答案。为什么呢?我们仔细思考便会发现,那困境的起因,在于数据的不同寻常的价值特征,或者说,在于它正在获得的市场新身份——商品。
数据,若是指记录下来的一组信息,并不是什么新鲜事。自人类发明了记录工具和手段,如文字符号、纸张和硬盘,数据就一直伴随着我们。历史上,所有权不太受关注,是因为数据一般不会被当作商品,不参与市场交易;私下或非法的付费(如贿赂和谍报活动)不算。互联网技术大规模开发了数据的价值,数据商品化,所有权问题才凸显了。
作为商品,数据具有类似无形财产的特征,可以无限复制而无损耗;其所有权、许可使用、收益和转让,都依赖法律的保障。一般认为,无形财产的权属界定有一个特点,初始所有权与财产的生成及价值起源挂钩。例如,文学艺术作品的版权首先属于作者,因为作品是通过作者的劳动才产生,并有了价值。同样的素材,让不同的作者来创作(包括集体创作),作品的内容风格可以千姿百态。这说明,作品蕴含了作者的思想人格。所以,现代法律才把无形财产的初始所有权视为创作的果实,并把作品价值归于作者的人格和创造性劳动。恰恰在这一点上,数据与别的无形财产如版权,分道扬镳了。
我们知道,跟文艺创作和技术发明不一样,数据的价值不是因记录者的制作而起的。数据只有忠实于被记录主体,准确反映后者的身份性格行为习惯等等,才具有价值。换言之,记录下来的信息必须“无创见”、“非创新”,客观得像一面镜子,才有实用价值。不论血糖血脂的定期测量、消费习惯或借贷信用的曲线,还是网民访问网页的点击数、气候变化同粮食收成或公司营运的相关性数据:脱离了具体的被记录的人、物、事,数据是无意义、无价值也不能用的。不忠实的记录如果不是疏忽,便是编造,是假数据。可见,数据的全部价值,就在百分之百依附于被记录主体,而不能剥离了独立存在。于是,根据上述无形财产的一般原理,作品价值与初始所有权统一,数据所有权的生成(subsistence)应是在被记录主体。
这道理也符合我们的常识。比方说,同样一套数据,换一个人或一家公司记录,或者换一台电脑来处理、储存,丝毫不会改变数据内容。就数据的价值而言,谁来记录和用什么工具记录并不重要,重要的是被记录的是谁、是什么。诚然,数据的采集整理离不开记录者和记录工具,乃至投资方的支持。但投资和采集整理产生的是次生的权利,动摇不了数据的初始所有权。因为数据从属于被记录主体,两者不可分离,是数据价值的所在。而记录者及其工具手段与数据内容的关系则是松散的、可置换的,不是数据价值的起源。故而数据的初始财产权属于被记录主体,不仅有学理和社会道德的支持,落实在新产权的建设上,似乎也应是权利配置的“自然”选择。
不过,学理归学理,现实世界里大数据的监管,法律法规才刚起步,不太给力。这里涉及大数据的另一个特征:所有权人同记录者 / 占有者的分离,即数据的财产所有权人一般不是数据的记录和持有者——所有权人非但不占有数据,连接触、支配自己的数据财产也很困难。平常所谓财产问题,财产或者掌握在产权人手中,或者有明确的合同委托监护,如房产、首饰、存款。至少,产权人知晓财产的存在和财产权的归属。产权人有意愿,且依法有能力,行使自己的权利。但是遇到数据财产,情况就变了。例如,网店的交易双方可能不清楚,自己的行为已经被平台提供方记录在案,更无从了解是如何记录的,放进了哪些数据集,会交付谁使用,怎样使用。又如,互联网搜索器记录下的搜索行为的每一个细节,用户是无权访问,也没法监督的。这就使得被记录主体处于一个尴尬境地:他虽然拥有理论上的数据所有权,实际上却很难行使。反观数据记录者,尽管没有初始产权,却因为拥有记录工具和手段,就控制了记录过程、内容、格式和结果,把数据牢牢握在手中。而且,这法律意义上的受委托方,甩开了委托人 / 被记录主体,成了数据的唯一持有者。更微妙的是,大数据以量取胜,孤立的单个数据几乎没有商品价值;故而多数被记录主体容易忽视自己的数据产权。但是一个个数据集腋成裘,便是宝藏。而大型数据集的处理使用,须借助复杂的分析算式与大功率计算机,老百姓和小公司难以问津。渐渐地,大数据的采集整理,便成了财力雄厚的大公司的专利。产权人的疏忽或无力,即占有者的便利。后者往往随意使用数据,出了问题,后果也难以追究,包括数据丢失、黑市交易,更不要说个人隐私满天飞了。这是大数据时代的一道世界性的难题。
正是意识到这种复杂性,数据产业才决定绕开所有权,快刀斩乱麻:成立大数据交易所,挂牌交易,用既成事实“倒逼”社会和法律默许。推手希望通过交易所,给数据披上一件崭新的外衣,遮住所有权上的瑕疵。同时,利用媒体开展宣传攻势,淡化对个人隐私和公共利益的威胁,声称:“交易所交易的不是底层数据,而是清洗、分析、建模之后的数据结果。”(见《贵阳日报》2015年5月16日头版)似乎经过“清洗”,一下子解决了两个敏感问题:一、数据集经过清洗,遮蔽了身份信息,个人隐私、技术秘密等就能获得保护;二、清洗过后,数据便摆脱了初始所有权而有了新的业主,可以合法交易了。但事实上,所谓“清洗” 并不等于“脱敏”。更重要的是,法理上,“清洗”这一技术手段不可能将“底层数据”的所有权转移到所谓“数据结果”。就像拿了别人的珍珠项链,不会因为把珍珠拆下重新串过,项链变长变短,或者镶在几只胸针上,那些珍珠就变成自己的财产,就可以合法出售。所以“清洗”只是回避问题的一种说法;那被回避的,才是数据商品化的要害所在:底层数据到底属于谁?谁说了算?
所以不是偶然,最近美国多个农会的一次联合行动,正是这样的质问和拒绝“倒逼”。他们的立场与上述讨论殊途同归,我以为代表了国际潮流,体现了前沿社会在数据所有权归属及衍生权利范围等问题上的基本共识。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04