京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据在美国 已完成从灰姑娘到公主的蜕变
大数据的老家在哪里?如果从血脉渊源来看,应该在美国。麦肯锡的报告、自然杂志的专刊,以及Gartner、IBM专家的演说都证明了这一点。今天我们就来聊一聊她和她的家乡。
起初,她只是一位灰姑娘
要想富先修路,美国从上世纪50年代开始修路,建起了全美的高速公路网。修路不是一件简单的事情,要人要钱要技术,不过这也正好解决了就业、刺激了经济。路修好了又拉近了距离,人活了,货活了,钱更活了,想去哪里去哪里。
上世纪90年代,风流倜傥的克林顿总统提出要将路修到互联网去,随后全美信息高速公路声势浩荡地开建了。
20年后,这条路修好了,路上承载了更多信息,文字、图片、影音… 类型越来越多,数量也越来越大,不仅如此,以前一年产生的量,如今一个月就生成了。不知不觉中,有人开始头疼如何处理他们,有人开始关注如何挖掘他们,于是,大数据这位灰姑娘进入了人们的视野。
联邦政府看上她
这位灰姑娘的出现,引得越来越多人关注,终于有一天联邦政府看上了她。2012年,奥巴马政府正在筹划修建另一条路,这条路隐于无形,联系着万事万物,像神经一样重要却不可见。那么这次修路的工具和材料哪里来呢,“众里寻他千百度,蓦然回首,那人却在灯火栏珊处”,他们的这次相遇注定将被载入史册。
2012年3月,白宫发布了「大数据研究和发展倡议」(「Big Data Research and Development Initiative」),家里六个兄弟纷纷斥巨资同她合作,听说加起来超过了2亿美元。科学基金(NSF)、卫生研究院(NIH)、能源部(DOE)、国防部(DOD)、国防部高级研究计划局(DARPA)、地质勘探局(USGS)这六个兄弟禀赋异常,与大数据联合起来,简直就是传说中的葫芦七兄妹。
他们的项目列表涵盖了科研教学、环境保护、工程技术、国土安全、生物医药好多领域,半年后,美国再次公布了一批研究项目。至此,美国大数据战略2.0版闪亮登场。
天使与恶魔只在一念间
水能载舟亦能覆舟,如何面对大数据的超能力,联邦政府开始纠结了。2014年5月,白宫发布了白皮书「大数据:抓住机遇,保存价值」(「Big data:seizing opportunities, preserving values」)
“抓住机遇,保存价值”—原以为是保存大数据妹妹的价值,通篇读完才知道这是美国人的思维,他们关注的是大数据的超能力对美国价值观的冲击。
这一切源于奥巴马对情报问题的关注。顾问团队90天后提交了两份报告,一份是白皮书,另一份是「从技术角度看待大数据与隐私保护」。(「Big Data and Privacy: A Technological Perspective」)。这让我想到此前去上海电力调研的收获,上海电力信息部门统管科技项目和信息化项目,他们第一年通过科技项目做可行性研究,条件具备的话第二年再上信息化项目。这种台面上一杯水台下一桶水的做法还是靠谱的
整份报告很纠结,也很让人欣慰。
也许我们没有想过大数据可能带来不平等—连锁超市通过数据分析选择在不同区域差异定价造成价格歧视,不使用智能手机人群在打车软件面世后更难打车。
也许我们没有想过大数据可能带来伤害–基因预测模型一旦出错则会误伤一片。
也许我们同样没有想过大数据可能对社会造成潜移默化的负面影响—过滤器泡泡正在孜孜不倦的构筑意识形态和文化的隔离,使每个人都沉浸在自己感兴趣的信息当中,减少冲突体验。时间长了,人们对熟悉领域的愿望和期待增强了,却慢慢忘记了那潜伏在暗夜的,未知爪牙。
纠结完,接下来开始大干一场吧。
兄妹同心 其利断金
大数据给美国政府装上了动力外骨骼。以纽约为例,那里设立了市长数据分析办公室(MODA),通过数据分析来提升政府日常运作水平、预防和处置紧急事件,MODA还和新企业加速服务团队(NBAT)合作,利用量化分析手段评估政府决策。市政府出台一个政策,他们就数据分析这个政策效果如何,好的话就推广不好的话就砍掉。
大数据在美国的公共事业领域也大显身手。美国教育和医疗的信息化一直都走在全球前列,有了大数据,他们可以更进一步了。学校关注如何通过数据分析,来调整教学方法。卫生研究院(NIH)、食品和药物管理局(FDA)这些机构一方面力推生物医学数据共享重用,另一方面着手研发大数据医疗神器,包括流行病预测的、重大疾病早期诊断的,还有像大白这样实时个性化服务的。能源部(DOE)资助建设大数据平台,鼓励公众高效利用能源。波士顿市和麻省理工学院合作利用大数据提供城市交通解决方案。
联邦政府与大数据的这一次合作背后还有很多神秘人物默默支持,他们一方面通过特许协议、年度协议与政府保持联系,另一方面以大咖身份投资最领先的大数据技术,In-Q-Tel(IQT)就是其中的一员,IQT投资了很多数据分析和数据管理的公司,而且主要进行早期投资,尽管投资总额小于红杉、英特尔等大佬,但是参与的大数据领域早期投资数量位居全美第三。
腹有诗书气质华
大数据在美国不是花瓶,她不仅天生丽质,而且勤奋努力,技术功底是相当的扎实。
美国是流行大数据计算框架的发源地。从Google说起,到Hadoop、Spark、Storm,这些框架都来自这里。活跃的开源社区还汇集了全球大数据人才的头脑。
美国还有一批像51区那样神秘的研究机构,硅图(SGI)是其中之一,谁也说不好这家公司目前正在发展怎样的尖端超级计算能力。这些日常生活中鲜有接触的重型装备,在制造业、媒体、生命科学和地球科学这些数据密集型行业可是大有用处。
美国高校也正孕育着一群科学小狂人儿。伊利诺伊大学在Grainger基金会的资助下正在发展一门大数据的工程学科,并且把它当做其他跨学科创新活动的秘密武器。纽约大学、伯克利和华盛顿大学在摩尔和斯隆基金会支持下也在小黄人儿的帮助下开展秘密研究活动。
阿凡达中的灵魂树
大数据已经渗透到美国生产生活的方方面面。这一次的工业对决中,德国工业4.0企图从工业渗透到互联网,美国则要从互联网渗透到工业。美国建设国家制造业创新网络(NNMI),其背后的杀手锏想必就是大数据了。
在零售领域,看看啤酒尿片经典案例诞生地沃尔玛的收购名单就已经让人惊叹不已,Kosmix、SetDirection、OneRiot一大批数据分析和营销应用的初创企业都赫然出现在名单上。农业方面,孟山都这类大型企业不用说了,就连家庭农场主也都将大数据运用得游刃有余,关键是还得到了丰厚的回报。
IBM、Oracle那一帮大佬自然不会落后。IBM将大数据列为企业战略目标,将软件、硬件、咨询服务、研发各个领域的资源都整合起来,正在积蓄着发一个大招。甲骨文也强调垂直整合,早在2011年就推出了集成硬件、存储和软件的大数据机。微软也推出了一体机和大数据产品,明确了普及计算和环境智能的发展战略。英特尔推出Hadoop商业发行版,入股了很多公司。EMC也不断加大并购和研发的投入。
美国最大的亮点的应该还是谷里风起云涌的初创企业,像Cloudera、Hortonworks、MapR这些公司在Hadoop上深耕,Splunk把实时数据分析系统做得越来越强大,Databricks又称为给力Spark,Pivotal提供了企业级大数据基础平台,Tableau的可视化萌萌哒,Flatiron Health试图利用大数据来治愈癌症,人工智能公司Vicarious正在复制人类大脑皮层,还有像Palantir这种帅呆又神秘的大数据分析公司。
我们对她的了解还是太少
上面看起来热闹非凡的场景,放到20年后来看或许只是发动汽车的扬尘。她太神秘、太美丽、太强大,或许以相来求她是错的,或许她终究是无处不在的。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22