京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代你我都是透明人_数据分析师
网络海量数据让监控轻而易举
早期互联网本身,就是在美国国防先进研究计划内研发出来的,在上世纪90年代互联网大规模商业化应用之前,美国政府一直掌控着网络的控制权。作为信息时代的幕后推手,美国政府从未将全球信息网络当做单纯的商业空间,而是特别重视其在国家政治和安全领域的利用价值。“棱镜”计划不过是延续了冷战以来美国国安局全面监听国内外通讯的传统,将其进一步延伸到数据空间而已。
十年前出国,你也许会听到这样的建议:在给国内亲友打电话时,电话中最好插一些涉及弹道导弹、核潜艇之类的军事敏感词。作为对个人隐私权遭受侵犯的抗议,如果所有普通人都在电话中夹杂一些容易被注意到的关键词,会增加那些情报监听机构的工作量,增加其成本,最终获得干扰对方监听的效果。
如今,随着计算机运算和存储能力的提升,以及相应成本的下降,网络化计算能力得到指数倍的提升。时下,随便哪个网站都可能需要处理数量巨大的在线数据,例如,当你使用谷歌在线翻译,寻找英语单词“light”是该翻译成中文的“光”还是“轻”时,一瞬间谷歌就会检索数十亿页的翻译资料。
这个世界每年所创造的数据量正在以指数形式增长,去年,这一数字则达到了2.8ZB(1ZB=10244GB),听起来很可怕吧?据知名信息行业咨询服务商IDC称,这一数字将在2015年翻一番。此外,这些数据中的3/4是由个人在创造或移动数字文件时贡献的。
举例来说,一个标准的美国“上班族”每年可以贡献180万MB的数据量,平均每天有约5000MB,其中包括下载的电影、文档、电邮以及这些数据通过移动或非移动互联网传播时所产生的附加数据量。
在这种庞大的运算能力面前,此前似乎像散沙一样不具备任何关联性的海量数据得到了有效处理。面对一个个体生活不断被互联网信息化高度整合,甚至裹挟和绑架的时代,暂且不去讨论大数据技术是否会沦为一个专制的恶政府的可怕工具,即便一个民主政体出于一个好的目的,但是,你永远无法判断结果的好坏,因为魔鬼永远用一个好的理由将人们带向地狱。“棱镜”事件折射出的对个人隐私权的漠视,似乎正成为一个可怕结果的开始。
大数据可预测80周后你可能到达的位置
斯诺登揭露的“棱镜”项目的重要特征是美国的“政商协作”。这种协作既包括政府购买服务(政府订单和服务外包),也包括企业自愿或服从政府要求提供服务,以获取政府信任和政商互动(如人员流转)。“棱镜”项目暴露出的战略与技术咨询提供商博思艾伦和与政府合作的九大互联网公司,也是在此政商协作模式下工作的。
很明显,美国政府与企业的数据情报合作是互惠性的。一方面,美国的互联网大企业本身具有巨大的技术和资本优势,可以弥补政府开支的局限性,并增强国家情报的储存和分析能力;另一方面,国家安全局为快速发现潜在可用情报而研发的最新算法和培养的新人才,可以反过来被高科技资本迅速利用,从而保持美国公司在全球信息技术领域的领先性。
Facebook已经可以实现对个人信息收集的自动化与实时化,其首次公开募股时的财务档案显示,Facebook上每位用户的图片和视频资料数据量约为111MB,而Facebook的用户数如今已经超过了10亿,这可是整整100PB(1PB=10242GB)的个人信息数据。这意味着,可以获得的个人数据量越多,其中的信息量就越大。只要拥有了足够多的数据,我们甚至可能发现关于一个人的未来信息。去年,来自美国罗彻斯特大学的亚当·萨迪克和来自微软实验室的工程师约翰·克拉姆发现他们可以大致预测一个人未来可能到达的位置,最多可以预测到80周后,其准确度高达80%。为此,他们收集了32000天里307个人和396辆车的GPS数据并建造了一个“大规模数据集”。
根据斯诺登提供的信息,美国国安局拥有的正是一套基于大数据的新型情报收集系统,这套名为“无界爆料”的系统,以30天为周期,可以从全球网络系统中接收到970亿条讯息,再通过比对信用卡或者通讯记录等方式,能几近真实地还原个人的实时状况。
随着数据越来越详尽,数据挖掘和解读的技术不断提高,哪怕是个人生活最隐秘的部分也越来越趋于透明化。事实上,我们可以直接说数字化生存在很大程度上就是透明化生存,而且是透明化的程度在不断地提高。随着数据采集取样越来越趋于详实,对个人和群体行为趋势的预判越来越准确。
潜在危险需要监督制约
相比网络之前的时代,时下的数据分析能力得到了空前的提升,但谁能保障大数据分析的准确性呢?我们可以回过头去,看看电脑是如何得出这个结果的,或许可以查阅一下硬盘上的数据,或许可以检查一下一两个程序代码,来判断其逻辑是否有误。但在大数据时代,因为大数据算法和结构太过复杂,从外部没有人能够追溯错误的源头。
维克多·梅耶·松博格与肯尼迪·古奇尔在他们合著的《大数据:改变我们生活、工作、思考的革命》一书中,记录了这样一件事:在2004年美国国家安全局依赖大数据系统,自动分析生成了一张禁止飞行的危险人物名单,但这一名单错误百出,甚至美国参议员也赫然在列。幸亏国家安全局一名算法师从内部阻止了这张名单生效。
在这个故事中,我们可以看到大数据出错的风险。在没有有效的保障下,大数据分析系统可能变成一个不可说明、不可追踪,甚至不可信的黑匣子。在这种情况下,大数据和政府治理一旦密切联姻,可能将产生无数的受害者。试想一下,谁能真正保证“棱镜”计划制止的恐怖分子不会有错误呢?
在西方,消费者信息监控已经发展为一项规模达几十亿美元的产业,其中的企业基本不受什么监管,即使是有影响力的人物的个人信息,其卖价通常都不会超过一美元。在这种力量不平衡之下,手中掌握着更强大的数据分析能力的大公司以及更强大的政府,就拥有了自由利用这些信息而不受监督的能力。
显然,“棱镜”折射出了这一潜在的危险。大数据时代的到来,要求我们必须建立一套新的监督制衡机制来规范政府行为,建立一个更加开放的社会治理环境来减少大数据错误的危害。
在大数据时代之前,民众可以以保密的方式来保护隐私,但今天人们在不知不觉间就透露了隐私。这就要求那些保存和管理信息的企业承担更大的责任,这应该成为一种新的隐私保护模式:政府不应假定消费者在使用企业的通讯工具等产品时主动透露了自己的隐私,就意味着他们授权企业使用这些隐私。力量越大责任也越大,现在是那些掌控大数据的大企业和政府负起责任,构建一张更完善的安全网的时候了。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18