
揭秘贵阳大数据交易所:数据须经“脱敏”保护隐私
4月14日,全国首家大数据交易所在贵阳“开张”。成立当天就做成了一笔大买卖,京东买走了腾讯的“数据产品”。
这间24小时营业的交易所,到底啥模样?看不见摸不着的数据,如何定价进行交易?这些交易,又和普通贵阳市民的生活到底有什么联系?
采访中,工作人员用拟人的口吻,介绍了平台交易的整个过程。
大家好,我是一串数据,出生时被命名“李丽”,记录了贵阳市民李丽在医院妇科就诊的历史信息。
今年4月份,我和兄弟姐妹被卫生部门送进一个大数据交易平台。进入平台之前,卫生部门给我们洗了一次澡。据说,这叫“数据脱敏”。洗完澡,我曾经存储的和李丽相关的私人信息,都不见了。
洗澡经过复杂的“脱敏”程序,我的代号由“李丽”变成“X”,只记录了一位不知名的44岁的贵阳女性的妇科病史。
脱敏成功,我就可以正式进大数据交易所了。进门之前,我猜那里肯定和证券交易所一样,里面有滚动电子显示屏、忙碌的工作人员和热闹的电话铃声。走进去一瞧,才发现,“高大上”的交易所,和淘宝一样,是虚拟的交易平台,平台后方就是一帮戴眼镜的技术人员,在维护这个网站。
淘宝什么都卖,而这个交易所就只买卖数据。刚进门,我听见卫生部门和平台的管理方在商量,谈了我到底值多少钱。等他们定完价,我就被标上价格,进入平台展示窗口,等待买家。
最终,贵阳市一家制药公司看中我,价格也合适,老板把我和数以百万计的兄弟姐妹一起打包买走了。具体交易额是多少,保密;收益由平台和卫生部门四六分成。
到达制药公司,老板将我们塞进数据深度挖掘系统,最终分析出,贵阳市40至50岁的女性,患乳腺增生的几率较高。由此,制药公司有针对性地推出新药。
有一天,我的第一个主人李丽,去医院买了那盒新药。
我很开心,李丽买药及用药反应的记录又生成了全新的数据,下一个数据串X也会随之诞生。更多的数据串,会踏上交易之旅,更多的人会因此受益。
(注:数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。)
数据交易这些事
1.交易数据从哪来的?
交易所提供的只是交易的平台,至于企业与企业之间商业交易的数据,全是卖家通过各种渠道自行搜集、统计、分析之后提供的。
2.任何人都可以买数据?
交易所执行会员制度,不论是卖家还是买家都需要先“入会”才能获得交易资格。入会先提交申请,审核过关的才能进驻交易所。另外,该所尚不接受个人用户参与交易。
3.数据咋定价咋交易?
数据值多少钱,由交易所与数据卖家协商制定。数据内容和交易价格在平台网站上挂出。买家看中了,在平台上拍下就算交易成功。
4.交易数据如何保障普通人的隐私?
进入平台交易前,数据都要经过脱敏,抹去和隐私相关的信息。另外,数据交易的行业公约和大数据立法这两个话题,已经引起各界广泛关注。
5.卖了数据,交易所平台要抽四成收益,企业还愿意来?
卖家当然也可以选择私下交易,但是在交易所这种大平台上交易肯定更省时省力。交易所已纳入百余位交易商会员,其中50家企业来自贵阳本地,另有70多家来自省外。
6.数据卖出去,复制给别人太简单了,那交易所以后不就没钱挣了?
数据买家需遵守交易所制定的保护条例,不得私自转售、泄露“数据产品”,以确保数据不被滥用。
7.说来说去,我们老百姓又挣不了数据交易的钱,那到底和我们有啥子关系?
平台搭建起来后,数据交易更加方便,利用数据掘金的公司也会活跃起来,每个人的生活会因此改变。打个比方,贵阳市民出行的数据经脱敏进入平台,有商家瞅准商机,买了这些数据做出一款APP,每天提前分析出贵阳每个堵点,每个人出行就更方便了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09