登录
首页精彩阅读大数据从科幻变成现实
大数据从科幻变成现实
2016-09-09
收藏

大数据从科幻变成现实

美国当代著名小说家艾萨克·阿西莫夫(Isaac Asimov)曾凭借系列科幻小说《基地》(Foundation)获得雨果奖,在书中,主人公哈里·谢顿(Hari Seldon)是一位数学和统计学天才,开辟了一个跨领域的学科——把统计学、社会学和心理学结合在一起创立了“心理历史学”(psychohistory)。利用心理历史学,哈里·谢顿能够用宇宙级的“大数据”分析预知世界文明的未来。

《基地》的最后一部——第14册《基地与地球》——出版于1986年,在27年后的今天,“心理历史学”不再是科学幻想,而这都是拜“大数据”所赐。
大公司的大数据转变
就在最后一部《基地》小说出版的九年之后,世界上有了“雅虎”这个域名,十年之后,拉里·佩奇和谢尔盖·布林在斯坦福大学开始了他们的研究项目——后来在此基础上成立了谷歌。雅虎和谷歌的初衷都是想为索引和搜索大量的数据找到快速的解决方案,正因为如此,直到今日,它们仍然是、也将继续是,大数据领域的巨擘。而它们在大数据领域的贡献大多通过Hadoop平台实现,该平台是由道格·卡汀(Doug Cutting)和他的团队开发,毫不夸张地说,他们就是“哈里·谢顿”。卡汀几年前,作为软件顾问,在雅虎组织开发了Hadoop平台(Hadoop就是以他儿子的一只大象绒毛玩具命名的)。而Hadoop的灵感则是来自于2004-2006年谷歌研发的文件系统MapReduce,谷歌未曾公开该系统的源代码,只是就MapReduce发表了几篇论文,但这就足以让卡汀开发出解决大规模搜索和索引的软件平台。
卡汀现在已经离开雅虎创立了著名的大数据公司Cloudera,并成为其架构师。和卡汀一样,现在大数据公司的创始人和执行官都是来自于雅虎和谷歌,这两家公司在大数据领域仍然是最活跃的参与者,雅虎的Hadoop以及谷歌的Big Query和Dremel就是最好的例子。
现在大数据的业务已经从索引和搜索发展到了分析阶段,通过Apache(世界最流行的Web服务器端软件)来运行,这样大数据就可以从需要专业人员操作的特殊工作转换成一般性的操作,并可以用于商业目的。
那么是不是要放弃现行的商业智能系统(BI)和数据库?答案是否定的。仍然可以把现在的数据库、策略分析、报告和管理控制台整合进入大数据分析。
事实上,商业智能领域和数据仓库的老牌供应商,比如IBM、甲骨文(Oracle)、赛仕(SAS)和天睿资讯(Teradata)不仅因大数据开始了大量的业务转变,提供一系列的新产品、新合作方式,也正在招募大数据方面的专家,包括商业分析师、工商管理学博士、存储方面的专家和数据科学家。同时,收购分析平台和专业数据库也是一个不错的选择,就像惠普收购了Vertica(该公司的软件能够帮助企业分析海量数据),EMC收购了Greenplum(该公司为全球大型企业用户提供新型企业级数据仓库和企业级数据云),SAP收购了Hana(Hana是软硬件结合体,用户可以直接对大量实时业务数据进行查询和分析,而不需要对数据进行建模、聚合)。
大数据的新创公司
现在已经有一些新创的大数据公司被风投所看好,Cloudera、MapR和HortonWorks是Hadoop 分布式文件系统管理与服务提供商。原来,只有比较强的软件开发、数据管理、服务与存储分析背景的专业人士可以免费下载Hadoop,这些技术的综合要求和协调性要求都非常高。现在,一些基于Hadoop的新创公司则将这些技术打包成了一个简单操作的平台。
事实上,现在很多老牌的商业智能、数据分析公司都与Cloudera、或者MapT、或者HortonWorks有合作。IBM、戴尔和惠普作为系统提供商也同样有商业智能、业务分析类产品,所以可以与分布式系统的提供商形成合作关系为用户提供单一的大数据整体解决方案。
我们认为,大数据领域的新创公司肯定不会止步于基于分布式系统提供的业务。大数据的新创公司未来会在两个方面有新的突破,一个是数据库,另外一个是分析的图像化。在数据库方面,很多基于开源项目的新型数据库会为大数据市场提供硬件支持,并提供相关的应用。比如DataStax就提供了一个商业化版本的非关系性的数据库。CouchBase则提供了另外一个商业版本的交互式软件记录系统。也有一些已经开发的很完善的数据库供应商,比如Versant、Objectivity和InterSystems,能为大数据提供图像化的分析。也有建立在开源技术基础上的自主研发产品,VoltDB就利用其内存价格低廉的优势,为大数据分析提供卓越的表现。
在分析的图像化方面,我们看到一些新创公司提供端对端的分析方案,利用高精尖的图形化工具帮助数据分析师和企业用户找到重要的新观点、新视角,类似的公司有 Tableau Software、Datameet和Pentaho,虽然还在发展初期,但已在大数据分析的图像化方面崭露头角。这些商业智能公司提供新类型的服务,将大数据分析的技术整体简化、提供专业的知识,以帮助公司和行业利用大数据来实现公司的价值。
为什么需要大数据
为什么现在要提出“大数据”的概念?如果我是公司的CEO,为什么要关心“大数据”?
回首过去,我们已经经历了几轮技术革命带来的商业转型:企业资源计划(ERP)和电脑彻底改变了商业竞争的环境;1990年代,继互联网之后,电子商务的兴起颠覆了很多行业;Email和社交网络改变了传统的营销渠道……
大数据预示着一场新的革命,将改变现在很多行业相对平衡的竞争关系。那些能够挖掘、利用大数据,拥有大数据视野的公司将会在下一轮竞争中占据优势。那些能够率先揭开大数据谜团的公司,将会依据数据而不是依靠感觉,做出更好的宏观决策。正如《基地》的主人公哈里·谢顿所说:“‘直觉’这个神奇的词汇,是无知最好的伪装。”总而言之,“知识就是力量”这句旷古名言将会因大数据的出现而被遗忘


数据分析咨询请扫描二维码

客服在线
立即咨询