京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据与隐私安全
我们对于日常生活中的各种“推荐”早已是习以为常。比如每天打开电子邮箱时,难免会收到各种商品推荐的邮件。我过去在网上买书比较多,邮件中当然是以某购书网发来的新书推荐居多。再比如每次登录YouTube,总会在网站的主页看到系统推荐给我的一系列视频片段。不论推荐的是图书还是视频,大概都能和我最近喜欢看的内容合拍。但是,每一次享受这种方便的同时,我也会感到一种隐约的不安:在这些推荐的背后,是谁在做出决定呢?
用一个流行的词汇来概括,替我做出决定的应该并不是某个人或一群人,而是所谓的“大数据”(BigData)概念。每一次的上网购物,哪怕是对网上内容的浏览,都在不知不觉中形成了一种属于我独有的数据。这些数据记录着我的行为习惯、个人爱好以及种种涉及隐私的讯息,如今却都被互联网公司巨细无遗地捕捉、收集进入他们的云端数据库,作为向我推送商品的参考依据。说实话,这些精准的推荐收到得越多,我心里的不安感反而越有所增加。原因在于,我发现这些推荐的准确度越来越高,这意味着我个人的数据泄露越多,仿佛内心已经逐渐被“大数据”看穿,连我想些什么都有被精准预测的可能。
看似无所不能的大数据引起了不少人的警觉,例如国际网络安全专家施奈尔(BruceSchneier)。他在《隐形帝国》一书里写道:“脸书(facebook)只是根据按赞的动作,就可以推测一个人的种族、个性、政治意识形态、感情状态和药物使用情形……行销人员不断地在寻找一些能代表某人即将花大钱的模式。”需要特别指出的是,这些能够让顾客更愿意掏钱买东西的行为数据,其实也不是什么新东西,过去早已有之,只不过,其用途却并不在于商业。
早在二战期间,数据分析便是同盟国胜利的关键因素之一。同盟国数据分析活动著名的案例,就包括破译Enigma密码避免德军潜艇攻击、使用喷火式战斗机拍摄的2D军事照片重构3D图像等等。而二战结束后,原本是军用的数据采集和分析方法开始被大规模使用在平民百姓身上。在麦卡锡时代,美国政府曾经利用政党登记、杂志订阅,以及朋友、邻居、家人和同事的证词来收集一个人的资料。施奈尔认为,和今天的差别在于,现在的监控能力比以前更强,个人数据收集更精确完整,而科技已经进化到了可以利用电脑做复杂分析的程度。也就是说,复杂数据分析可直接给出一个准确度很高的结论:关于一个人的信用度、收入、习惯、生活状况等等。这些分析对商业机构来说当然是极有价值的。
大数据的完备和海量反过来恰好说明了我们这个社会对人的监控和操纵已经到了何其深的程度。以至于我们在做每一个行动之前最好都三思而行,以免给自己带来麻烦,反为“大数据”所伤。事实上,有不少外国的数据公司已经开始用数据软件分析人们在脸书(facebook)等社交网络媒体的行为习惯,来判断此人的信用评价、判断此人的信用风险,个人行为成为网上征信的重要手段。而中国国内亦开始有公司在对用户在本土社交网站点赞等等的行为进行分类统计,用以预测用户偏好。因此,即使是发一个朋友圈状态以及在别人的朋友圈里点赞时,也要意识到这些行为其实也会被记录到个人的数据库里。但人们往往会忽略这一显而易见的事实。
在我们注册使用的各种社交网站、邮箱、门户、商业网站等等的时候,我们其实都过于轻易地同意把自己个人行为的记录和数据提供给了商业机构。这些商业机构在“合法”获取了个人数据之后,又会将数据卖给其他的商业网站或者政府机构。据新闻报道,美国的一个汽车网站在获得用户行车的详细记录之后开始动起了数据的脑筋,他们决定将数据卖给政府交通部门,因为数据详细记录了用户在不同时段和路段的车速和车况,对之进行分析,显然有利于交通部门更准确地预测车主在哪些地段容易超速,方便交通警察开罚单。
随着“大数据”的迅速发展,类似的个人信息数据被越来越多的监控、统计、分析,并且被商业机构和政府买卖分享。了解到一个人开车的车速详细数据已经并不奇怪,在现实中,更有海量的个人隐私数据在被暗中监控统计,而这些涉及个人方方面面隐私的数据都没有得到人们事实上的允许,因此也是不合法并且不合理的。这也就是我为什么一直对于“大数据”这个看似时髦的词汇始终持保留意见的原因。
谁来监控监控者?这是一个没有人能回答的问题。现在,人人似乎都是“大数据”的受益者,而其带来的问题却尚未充分展现出来。但我们一定不能忘记大数据的观测、产生、统计、使用,事实上都对于个人的自由和隐私构成了一种侵害。施奈尔向我们描绘了一个颇为可怕的未来场景:“对我们有些了解的人,能对我们有某种程度的控制。知道我们所有事情的人,能对我们进行完全的控制。监控有助于控制。”显然,商业机构和权力部门要想实现这种“数据控制”,前提就是要通过各类机构来监测、收集人们海量的日常数据。如此看来,大数据的背后,意味着未来人类自由和隐私权新的威胁,我们当引起足够的警觉并以切实的行动防患于未然。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12在数字化转型深度渗透的今天,企业管理已从“经验驱动”全面转向“数据驱动”,数据思维成为企业高质量发展的核心竞争力,而CDA ...
2026-03-12在数字经济飞速发展的今天,数据分析已从“辅助工具”升级为“核心竞争力”,渗透到商业、科技、民生、金融等各个领域。无论是全 ...
2026-03-11上市公司财务报表是反映企业经营状况、盈利能力、偿债能力的核心数据载体,是投资者决策、研究者分析、从业者复盘的重要依据。16 ...
2026-03-11数字化浪潮下,数据已成为企业生存发展的核心资产,而数据思维,正是CDA(Certified Data Analyst)数据分析师解锁数据价值、赋 ...
2026-03-11线性回归是数据分析中最常用的预测与关联分析方法,广泛应用于销售额预测、风险评估、趋势分析等场景(如前文销售额预测中的多元 ...
2026-03-10在SQL Server安装与配置的实操中,“服务名无效”是最令初学者头疼的高频问题之一。无论是在命令行执行net start启动服务、通过S ...
2026-03-10