京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据卖的就是隐私_数据分析师考试
随着互联网技术更新换代,数据的大规模采集和分析使用,已是人们生活的常态。高端分析算式的研发,使抽取数据中藏着的有用信息成为现实。于是数据的魔力大放异彩,给我们带来了梦寐以求的便利。例如,商家仿佛钻进消费者肚子里的孙悟空,你才转了个念头,电脑和手机就奇迹般地开始推送相关的商品广告了。真应了那句老话:心想事成。当然,我们也添了许多闻所未闻的麻烦,比如刚接通一个免费WiFi,银行账户信息就莫名其妙地泄露了。电视台天天报道,告诫大家警惕。但在市场弄潮儿眼里,数据还有更为奇妙的神功,那就是取之不尽、用之不竭的廉价原材料——元数据。元数据追踪着我们的生活,一刻不停又无处不在,仿佛一座座富矿,等待着算式处理、点石成金。多少人想挖掘这富矿……现在,终于打通了矿井,而那最后的爆破就是:数据商品化,公开合法的交易。
然而,要把数据交易这颗“明珠”稳稳当当地放上数据产业金字塔的顶端,尚有一道难题需要回答:数据要当做商品,它的所有权何在?
一样东西之成为商品,一是因为它有某种使用价值,如饮食、观赏、制作工具等;二是因为有人拿它来买卖,即实现其可交换的价值。如此就有了价格和市场。一般来说,商品的产权清晰,买卖才做得成。明确的所有权(ownership)归属,是商品参与市场交易的前提条件,而所有权的界定有赖于一套稳定的社会道德伦理和法律规范;否则就难以有效行使产权,包括市场交易,并合理合法地解决相关的纠纷。显然,数据作为商品,也不例外。不幸的是,信息时代虽然来临,数据的财产所有权却一直缺乏规范,滞留在法律的灰色地带。因此,海量的数据挂牌交易,对于市场秩序和交易双方,就充满了法律风险;而且,从社会公正的角度看,还极易损害被记录主体的一些公民基本权利,包括人格权与财产权,影响到民众的医保、生育、就业和人身自由权。为了降低并管控这些风险,我们有必要研究一下数据所有权的归属,对数据商品化,即新产权的攫取和扩张可能带来的社会后果考察一番。
数据的所有权到底该归谁?如,你在网上购物生成的数据,产权属于网店、网上购物平台提供商,还是你自己?患者就诊,病史信息归病人、医院,还是医院的电脑系统提供商?社保个人账户数据,属于参保者、政府、共同基金,抑或网络系统外包商?这是回避不了的问题,现行法律规范和学说却显得捉襟见肘,拿不出有说服力又便于操作的答案。为什么呢?我们仔细思考便会发现,那困境的起因,在于数据的不同寻常的价值特征,或者说,在于它正在获得的市场新身份——商品。
数据,若是指记录下来的一组信息,并不是什么新鲜事。自人类发明了记录工具和手段,如文字符号、纸张和硬盘,数据就一直伴随着我们。历史上,所有权不太受关注,是因为数据一般不会被当作商品,不参与市场交易;私下或非法的付费(如贿赂和谍报活动)不算。互联网技术大规模开发了数据的价值,数据商品化,所有权问题才凸显了。
作为商品,数据具有类似无形财产的特征,可以无限复制而无损耗;其所有权、许可使用、收益和转让,都依赖法律的保障。一般认为,无形财产的权属界定有一个特点,初始所有权与财产的生成及价值起源挂钩。例如,文学艺术作品的版权首先属于作者,因为作品是通过作者的劳动才产生,并有了价值。同样的素材,让不同的作者来创作(包括集体创作),作品的内容风格可以千姿百态。这说明,作品蕴含了作者的思想人格。所以,现代法律才把无形财产的初始所有权视为创作的果实,并把作品价值归于作者的人格和创造性劳动。恰恰在这一点上,数据与别的无形财产如版权,分道扬镳了。
我们知道,跟文艺创作和技术发明不一样,数据的价值不是因记录者的制作而起的。数据只有忠实于被记录主体,准确反映后者的身份性格行为习惯等等,才具有价值。换言之,记录下来的信息必须“无创见”、“非创新”,客观得像一面镜子,才有实用价值。不论血糖血脂的定期测量、消费习惯或借贷信用的曲线,还是网民访问网页的点击数、气候变化同粮食收成或公司营运的相关性数据:脱离了具体的被记录的人、物、事,数据是无意义、无价值也不能用的。不忠实的记录如果不是疏忽,便是编造,是假数据。可见,数据的全部价值,就在百分之百依附于被记录主体,而不能剥离了独立存在。于是,根据上述无形财产的一般原理,作品价值与初始所有权统一,数据所有权的生成(subsistence)应是在被记录主体。
这道理也符合我们的常识。比方说,同样一套数据,换一个人或一家公司记录,或者换一台电脑来处理、储存,丝毫不会改变数据内容。就数据的价值而言,谁来记录和用什么工具记录并不重要,重要的是被记录的是谁、是什么。诚然,数据的采集整理离不开记录者和记录工具,乃至投资方的支持。但投资和采集整理产生的是次生的权利,动摇不了数据的初始所有权。因为数据从属于被记录主体,两者不可分离,是数据价值的所在。而记录者及其工具手段与数据内容的关系则是松散的、可置换的,不是数据价值的起源。故而数据的初始财产权属于被记录主体,不仅有学理和社会道德的支持,落实在新产权的建设上,似乎也应是权利配置的“自然”选择。
不过,学理归学理,现实世界里大数据的监管,法律法规才刚起步,不太给力。这里涉及大数据的另一个特征:所有权人同记录者 / 占有者的分离,即数据的财产所有权人一般不是数据的记录和持有者——所有权人非但不占有数据,连接触、支配自己的数据财产也很困难。平常所谓财产问题,财产或者掌握在产权人手中,或者有明确的合同委托监护,如房产、首饰、存款。至少,产权人知晓财产的存在和财产权的归属。产权人有意愿,且依法有能力,行使自己的权利。但是遇到数据财产,情况就变了。例如,网店的交易双方可能不清楚,自己的行为已经被平台提供方记录在案,更无从了解是如何记录的,放进了哪些数据集,会交付谁使用,怎样使用。又如,互联网搜索器记录下的搜索行为的每一个细节,用户是无权访问,也没法监督的。这就使得被记录主体处于一个尴尬境地:他虽然拥有理论上的数据所有权,实际上却很难行使。反观数据记录者,尽管没有初始产权,却因为拥有记录工具和手段,就控制了记录过程、内容、格式和结果,把数据牢牢握在手中。而且,这法律意义上的受委托方,甩开了委托人 / 被记录主体,成了数据的唯一持有者。更微妙的是,大数据以量取胜,孤立的单个数据几乎没有商品价值;故而多数被记录主体容易忽视自己的数据产权。但是一个个数据集腋成裘,便是宝藏。而大型数据集的处理使用,须借助复杂的分析算式与大功率计算机,老百姓和小公司难以问津。渐渐地,大数据的采集整理,便成了财力雄厚的大公司的专利。产权人的疏忽或无力,即占有者的便利。后者往往随意使用数据,出了问题,后果也难以追究,包括数据丢失、黑市交易,更不要说个人隐私满天飞了。这是大数据时代的一道世界性的难题。
正是意识到这种复杂性,数据产业才决定绕开所有权,快刀斩乱麻:成立大数据交易所,挂牌交易,用既成事实“倒逼”社会和法律默许。推手希望通过交易所,给数据披上一件崭新的外衣,遮住所有权上的瑕疵。同时,利用媒体开展宣传攻势,淡化对个人隐私和公共利益的威胁,声称:“交易所交易的不是底层数据,而是清洗、分析、建模之后的数据结果。”(见《贵阳日报》2015年5月16日头版)似乎经过“清洗”,一下子解决了两个敏感问题:一、数据集经过清洗,遮蔽了身份信息,个人隐私、技术秘密等就能获得保护;二、清洗过后,数据便摆脱了初始所有权而有了新的业主,可以合法交易了。但事实上,所谓“清洗” 并不等于“脱敏”。更重要的是,法理上,“清洗”这一技术手段不可能将“底层数据”的所有权转移到所谓“数据结果”。就像拿了别人的珍珠项链,不会因为把珍珠拆下重新串过,项链变长变短,或者镶在几只胸针上,那些珍珠就变成自己的财产,就可以合法出售。所以“清洗”只是回避问题的一种说法;那被回避的,才是数据商品化的要害所在:底层数据到底属于谁?谁说了算?
所以不是偶然,最近美国多个农会的一次联合行动,正是这样的质问和拒绝“倒逼”。他们的立场与上述讨论殊途同归,我以为代表了国际潮流,体现了前沿社会在数据所有权归属及衍生权利范围等问题上的基本共识。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10在数据驱动业务的当下,CDA(Certified Data Analyst)数据分析师的核心价值,不仅在于解读数据,更在于搭建一套科学、可落地的 ...
2026-03-10在企业经营决策中,销售额预测是核心环节之一——无论是库存备货、营销预算制定、产能规划,还是战略布局,都需要基于精准的销售 ...
2026-03-09金融数据分析的核心价值,是通过挖掘数据规律、识别风险、捕捉机会,为投资决策、风险控制、业务优化提供精准支撑——而这一切的 ...
2026-03-09在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心工作,是通过数据解读业务、支撑决策,而指标与指标体系 ...
2026-03-09在数据处理的全流程中,数据呈现与数据分析是两个紧密关联却截然不同的核心环节。无论是科研数据整理、企业业务复盘,还是日常数 ...
2026-03-06在数据分析、数据预处理场景中,dat文件是一种常见的二进制或文本格式数据文件,广泛应用于科研数据、工程数据、传感器数据等领 ...
2026-03-06在数据驱动决策的时代,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越单纯的数据清洗与统计分析,而是通过数据 ...
2026-03-06在教学管理、培训数据统计、课程体系搭建等场景中,经常需要对课时数据进行排序并实现累加计算——比如,按课程章节排序,累加各 ...
2026-03-05在数据分析场景中,环比是衡量数据短期波动的核心指标——它通过对比“当前周期与上一个相邻周期”的数据,直观反映指标的月度、 ...
2026-03-05