京公网安备 11010802034615号
经营许可证编号:京B2-20210330
几乎每一刻我们都在为大数据作出“应有的贡献”
这是我们大多数人司空见惯的一天:早上起床后抓起手机看当天天气预报,然后是查询上班路线,再接下来打开汽车导航,上班后通过互联网查询资料,并不时用手机与外面联系,下班后通过手机APP订餐、购买电影或演出票,回家后通过互联网电视收看节目……“不论你喜欢与否,你的生活已经受控于技术”。在《大数据时代的隐私》一书的作者看来,几乎每一刻我们都在为大数据作出“应有的贡献”。当然,就是这样看似再寻常不过的日常生活,我们一天的行踪、偏好(哪怕有时仅仅只是一个闪念),早就暴露无遗,某种意义上,我们越来越像是一个没有私密可言的“透明人”。
技术就是这样一把双刃剑,既会给你带来诸多便利,同时也会在悄无声息中肆意“偷”走你的信息,根本不在乎你的情绪,这正是本书所要阐明的核心所在。书中每一章都展示了人们在家庭和工作中的日常活动如何成为大数据收集的一部分。或因第一作者本人有过白宫首席信息官的特殊经历,对大数据接触较多,对信息技术更为敏感,所以本书能够针对性提出个人避免隐私泄露的实操举措。此外,本书对改进公共监管举措、完善法律的思考亦不乏真知灼见。
上世纪九十年代,我们曾慨叹生活在一个信息爆炸的年代,今天我们则像是生活在一个数据爆炸甚至过剩的年代。资料表明,全球数据正在迅速增长,大约每18个月翻一番。有专家估计,到2020年全球将会有240亿台连接设备,其中一半是可移动的。届时,全球年数据产生量将会达到2009年的45倍。美国统计学家纳特·西尔弗也在《信号与噪声》一书中指出,在大数据时代,人类一天创造的内容甚至超过人类有史以来的所有内容。在本书作者看来,大数据越是这样蓬勃发展,对公众私密生活的威胁越可能“雪上加霜”。
大数据不仅改变了我们,还“战胜”了我们。2016年的“人机大战”无异于大数据对人类智商的一次不经意“嘲弄”:由谷歌公司研造的人工智能系统阿尔法围棋,挑战世界围棋冠军李世石,最终以4:1获胜。就此,中国科学院院士徐宗本一言以蔽之——人工智能的胜利其实就是大数据的胜利。素以智慧自居的人类败给了自己亲手创造的大数据,这是多么大的讽刺!
“悖论”远不止此,我们甚至还没有大数据更了解自己。举个许多人碰到但又不曾留意的例子。当你在互联网上偶尔点开一本书,你可能很快就会发现,你的电脑页面虽然与别人的大体相同,但你点过的那本书,或者与其关联的信息总会及时出现在页面一角。你原本没什么特别感觉,经这么反复刺激,你很可能在潜移默化中慢慢改变原来的看法,至而生成购买欲。还有,当我们打开APP,刚打出一个字,后面常常会联想出一串信息。这些信息绝非空穴来风,要么因为上了热搜榜,要么因为我们曾经浏览过,或者关注过关联的信息。
大数据蕴含无限商机。“数据挖掘的概念已经存在了至少20年”,“一项数据业务预测2020年企业持有的数据量将超过2012年收集量的30倍”。另一方面,近年来关于大数据泄露公众个人信息的案例屡见不鲜。如果数据的获取没有规则边界,那么就只剩下“裸奔”的利益。媒体多次披露,互联网上的个人信息贩卖已经形成黑色利益链。
内幕触目惊心。商业机构在“盗取”公众个人信息后,常常又以投其所好的方式出现在消费者面前。许多消费者只是觉得越来越方便,而很难意识到这种“贴心”服务是建立在自己信息被泄露基础之上。“我们需要越来越多的数据来满足无止境的欲望,然而我们还从未公开探讨哪些个人信息可以被收集以及如何被利用”。事实上,“信息收集和挖掘技术已经远远超出政府的能力范围,以致难以深思熟虑地通过一项兼顾商业和隐私保护的法律。正因如此,商业公司不知道它不可以做什么,而民众也没有得到保护”。
两位作者郑重指出,在大数据漫天飞舞的今天,只要我们使用手机、电脑、身份证、护照、社保卡、车载卫星定位等,个人信息就一定存在泄露风险。就此,本书从日常生活角度逐一提供技术防范举措。当然,这些举措未必一定确保个人信息的万无一失,但至少可以加上一道密级更高的锁,大大提升泄密的难度。
值得警醒的是,紧步商业机构后尘,一些国家的公共机构亦借大数据技术之利对公民信息“巧取豪夺”。《大数据时代》作者舍恩伯格曾称,“信任是大数据可持续发展的 货币 ”。这里的信任其实应加上引号,因为大多数数据的采集并没有经过被采集者的同意或者授权。2013年,美国中央情报局技术分析员斯诺登向英国《卫报》和美国《华盛顿邮报》泄露了美国国家安全局和联邦调查局启动的一个代号为“棱镜”的秘密监控项目,这也就是至今仍在发酵的“棱镜门”事件。根据斯诺登披露的文件,美国国家安全局可以接触到大量个人聊天日志、存储的数据、语音通信、文件传输、个人社交网络数据。
现实尚且如此,那是否意味,在可预见的未来,随着可穿戴技术和眼球捕捉技术等高科技的突飞猛进,届时无所不在的数据采集会否更令公众束手无策呢?有一点或无疑问,相较而言,今天的数据采集还显得粗放原始。这也就是说,虽然困难很大,从现在开始改进保护个人信息法律,这远比坐等日后数据采集更加泛滥时再纠偏更为容易。想必这也是本书两位作者的良苦用心所在。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Python开发中,HTTP请求是与外部服务交互的核心场景——调用第三方API、对接微服务、爬取数据等都离不开它。虽然requests库已 ...
2025-12-12在数据驱动决策中,“数据波动大不大”是高频问题——零售店长关心日销售额是否稳定,工厂管理者关注产品尺寸偏差是否可控,基金 ...
2025-12-12在CDA(Certified Data Analyst)数据分析师的能力矩阵中,数据查询语言(SQL)是贯穿工作全流程的“核心工具”。无论是从数据库 ...
2025-12-12很多小伙伴都在问CDA考试的问题,以下是结合 2025 年最新政策与行业动态更新的 CDA 数据分析师认证考试 Q&A,覆盖考试内容、报考 ...
2025-12-11在Excel数据可视化中,柱形图因直观展示数据差异的优势被广泛使用,而背景色设置绝非简单的“换颜色”——合理的背景色能突出核 ...
2025-12-11在科研实验、商业分析或医学研究中,我们常需要判断“两组数据的差异是真实存在,还是偶然波动”——比如“新降压药的效果是否优 ...
2025-12-11在CDA(Certified Data Analyst)数据分析师的工作体系中,数据库就像“数据仓库的核心骨架”——所有业务数据的存储、组织与提 ...
2025-12-11在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01