论“万能”的大数据及由此带来的诸多问题-CDA数据分析师官网

论“万能”的大数据及由此带来的诸多问题

大数据”——如果你反感这一用语的话，你并不是唯一有这种想法的人，但我认为我们如今已经接受了它——最激动人心的一个前景是，规模日益庞大的数据搜集活动，借助于现代化的数据处理和模式识别算法，将让我们对周围这个世界具有更为全面的认识，尤其是对人类行为。不幸的是，这同样也是大数据最令人担心的地方。

目前，大数据和隐私似乎是一对不共戴天的死敌。个人数据可以降低汽车保险支出，但代价是你的个人隐私。它可以提供至关重要的公共卫生数据——通过获取敏感且私密的个人健康信息。它可以帮助警察追踪犯罪分子——通过一种在实践中被认为遭到滥用的技术，创建面部识别“圆形监狱”（panopticon）。它可以根据你发布到网上的所有照片，对你的个人特征做出一个详细描述——即便你根本不希望这一切发生。

这些并不是仅仅是纯粹理论层面的担忧。据《纽约时报》报道：

由于政府机构监管不力，数十年来数据挖掘公司、数据代理公司、数据中间商数不断危害公民隐私，如今他们又将隐秘的个人数据分类带到一个全新的水平。他们已经制作了性侵受害者名单以及性病患者的名单。此外，还有阿尔茨海默氏病、痴呆症及艾滋病患者的名单，阳痿和抑郁症患者名单。

与此同时，还有“冲动型买家”名单；“易受骗者”名单：即容易上当受骗的消费者，研究发现这个人群易于遭受“基于弱点的营销宣传”的影响。

可以想见，如果这种名单是来自于那些无意中显露出他们易受数据披露影响的人，这会带来什么样的严重后果。例如，通过算法可解读的Facebook帖子，再对比发帖者其他所有信息，可以作为他们本不想披露的秘密的证据。

这基本上存在两个问题。一是数据的匿名化和安全性没有任何一个标准。有些搜集和发布数据的机构会对数据进行匿名化处理，确保它们的安全，但这些举动让人感觉更像是权宜之计，“经过匿名化处理”的数据极少。例如，今年早些时候纽约出租车数据就未经过妥善的匿名化处理。

还有一个更深层、也更为重要的问题：人们是否有权知道他们的数据何时被别人搜集？一旦发生这种状况，是个人还是搜集方拥有这些数据？下面，我就来介绍一下麻省理工学院教授阿莱克斯·彭特兰（Alex Pentland）及其提出的“数据新政”（New Deal on Data）：

从整体上讲，我们现在拥有的数据可以帮助减少环境污染，帮助创建透明政府，帮助应对流行疾病，当然也有助于提高工人的工作效率，让顾客获得更好的服务。但很显然，有人或有公司可以滥用数据…“新政”可以让人们知道自己有哪些数据正在被搜集，进而可以选择加入或退出。想象一下，如果你的仪表板可以显示你的居室掌握了哪些信息，以及分享了哪些信息，你可以将它关闭或打开…透明是关键。正在搜集的有关你的数据能形成对你生活的相当全面的认识，我认为一些公司并未意识到“抓取所有数据”战略的成本非常高。

然而，从实际情况来看，这种“新政”预示着创新和监管之间漫长而令人悲伤的战斗故事将掀开一个新的篇章。我并不反对后者（即监管），但相对于前者（即创新）的快速演变，我只是对它的表现经常感到失望罢了。毋庸置疑，数据搜集能力的指数级增长可以给我们带来巨大的好处，但同样不容置疑的是，所有人都极为担心科技对隐私发起的那场不可阻挡（几乎出于偶然）的战争，我们正面临着一场灾难，或者说距离大声疾呼更严格的监管只有一步之遥。

若想解决这个问题，科技行业理应从一开始就走到最前面，定义和执行对数据进行匿名化处理的技术标准。（如果这真的成为一个新的子行业，我丝毫不会感到吃惊。）但一个更好的结果是，大公司在一个性质相当于“新政”的自愿协议上达成一致，希望可以预先阻止民众呼吁加强监管的行动，而且宜早不宜迟。我认为科技行业并未充分意识到数据隐私和缺乏隐私对公众的危害。如果我们不认真对待这件事，那无异于是在玩火。CDA数据分析师培训官网

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；