京公网安备 11010802034615号
经营许可证编号:京B2-20210330
|
在爱德华·斯诺登曝光了美国国家安全局(NSA)要求IT公司为其提供通话录音和数据的行径之后,乔治·奥威尔的《1984》一下子销量大增。到目前为止,人们对 “老大哥”还没到真正热爱的程度,但他们已经准备好为确保安全而付出隐私被侵犯的代价。
大数据是绕不开的话题。商业公司掌握的个人信息正在迅速地增加,他们正在利用新型的分析方法和人工智能来打造他们的产品和服务,并对客户的未来需求进行预测。谷歌的首席执行官拉里·佩奇如此形容他理想中的科技成果——一个真心聪明的助手,能够替你代劳,你不用操心,也不需要动脑。 这简直像是生活在真正的“唐顿庄园”里(庄园里的贵族得到仆人与管家的周道服侍),有一台电脑为你安排日程,规划最佳的出行线路,向你推荐合你胃口的电影,找出最适合你搭乘的航班。这听上去颇为诱人,我们每个人时间有限,都想过得轻松自在,与其被各色资讯轮番轰炸,被迫挑来选去,还不如寻求这种私人助手般的服务。 NSA的行动已经进行了整整60年,事件的曝光足以让大众深感震惊,但我估计大多数人未必能明白他们自己每天究竟创造了多少可供追踪的信息,也未必能清楚那些让大数据企业得以利用这些信息的技术有了哪些最新的发展。科技进步日新月异,两年前完全无法想象的东西,到今天已然成了家常便饭。 “前途光明却也刺眼。那些掌握海量信息的企业对你的了解程度甚至超过你本人,他们将有能力预测你下一步的行动。“李开复说,他曾掌管谷歌中国地区的业务。 上周的专栏里,我把今天的谷歌和19世纪末的通用电气做了比较,两者都是引领技术革新浪潮的创新型工业企业。但另一方面,谷歌、亚马逊、微软和其他科技巨头正在积聚的强大力量,这种力量需要小心翼翼地加以控制。 NSA和大数据企业将数据库资源和计算能力用在了不同的地方,前者用它们来侦查间谍和恐怖分子,后者利用它们来将合适的服务提供给适合的用户。他们同样利用了超大型数据库以及模式识别(pattern recognition)和网络分析(network analysis)之类的技术手段。 从前沿科技的角度看,大数据逐渐变得和某一类人工智能相似,比如哪怕你拼错了关键词,搜索引擎还是能猜得到你本来打算搜索的东西。还可以像微软去年在中国演示的那样,实时将演讲翻译成另一种语言。或者在分析了成千上万张图片之后,学会辨别猫咪的照片。 “深度学习”指的是电脑以类似人类的方式进行学习的能力,值得一提的是谷歌已经将这一领域的几位先驱人物招至麾下,其中包括科学家兼作家雷·库兹韦尔(Ray Kurzweil)。NSA向美国私人企业转移了各项技术,其中就包括了“最尖端的‘机器学习’科技” (machine learning technologies) 这类软件程序能从一些琐碎的信息中推断出许多结果,前提是信息的数量得足够多,所以NSA才会努力从威瑞森(Verizon)和其他电信运营商那里获取通话元数据(译注:元数据可以理解成关于数据的数据)。奥巴马向美国民众保证“没有人在监听你们的通话”,但这些数据本身确实价值非凡。 哈佛大学的教授拉坦亚·斯维尼(Latanya Sweeney)进行研究发现,如果在公共数据库中进行交叉查验,仅仅依靠年龄、性别和邮编信息,就能确认87%的人的身份。社交网络和互联网公司收集的数据也能办到同样的事情。 大数据公司之所以拥有超强能力,是因为他们将用户个人信息和用户行为的观察结合在了一起。他们不仅知道人们买了什么,而且知道是在哪儿买的(由智能手机的GPS数据测算)。于是你才看到了各种“您可能会喜欢……“这类推算出来的数据。 如果我跑到印度去,在安卓手机上搜索“泰姬陵”,谷歌会优先显示北方邦的那座历史名胜,要是我在伦敦市中心搜索同样东西,跳出来的会是附近的孟加拉餐厅。可能再过不久,傍晚时分,当我走在陌生城市的街上,智能手机会根据我之前给出的餐饮评价记录,主动推送餐厅信息,问我是否需要预订晚餐。 一方面,如果托了它的福,美餐了一顿,自然称心如意。可另一方面,正如世界经济论坛发布的一份关于个人信息的报告里指出的:“‘推算数据’(Inferred data)好像是一位正盯着监视屏,无所不知的老大哥。“ 由此引发的第一点忧虑便是:拥有了这样的软件之后,大数据企业变得难以匹敌。我们这些用户为他们提供的数据越多,他们就能越好地预测我们的需求。机器脑瓜真的是越用越灵。 第二个是信任问题。社交网络在用户信息保护方面一直做得不好,他们目前只能留存一小部分信息,主要关于用户的行为、习惯、对新兴服务的意向等等。难怪NSA会找上这些网站,NSA能提供足够的计算能力,而社交网络上有海量的信息资源。 第三点是所有权问题。每个人都对自己的信息享有权利,但要是自己的信息和其他人的信息混在了一起,汇入了广阔的数据库当中,会是什么结果?要是我改变了主意,不希望别人获得这些信息,它们还能不能被要回来? 最要紧的是,我们还不清楚这样的技术意味着什么,毕竟我们才刚刚把一只脚跨入大数据的时代。大数据显然有许多方面值得青睐,但要对它一见钟情,恐怕并不容易。 |
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22