登录
首页精彩阅读将大数据的挑战转化为大机遇_数据分析师
将大数据的挑战转化为大机遇_数据分析师
2015-01-29
收藏

将大数据的挑战转化为大机遇_数据分析师


现在,大数据时代已经到来。最近,Facebook宣布其用户量目前已超过7.5亿,每天的分享次数达40亿。这是一个非常巨大的数据。根据IDC的预测,从2009年到2020年,数据总量将增长44倍,达到35ZB(zettabyte)。其中,80%的数据都是非结构化数据。无疑,世界已经进入到了大数据时代。因此,如何有效地利用大数据,以及其中所沉淀的信息,成为未来的一大竞争焦点。

什么是大数据?

大数据意味着包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。大数据是由三项主要技术趋势汇聚组成:

大交易数据:在从 ERP 应用程序到数据仓库应用程序的在线交易处理(OLTP)与分析系统中,传统的关系数据以及非结构化和半结构化信息仍在继续增长。随着企业将更多的数据和业务流程移向公共和私有云,这一局面变得更加复杂。

大交互数据:这一新生力量由源于 Facebook、Twitter、LinkedIn 及其它来源的社交媒体数据构成。它包括了呼叫详细记录(CDR)、设备和传感器信息、GPS 和地理定位映射数据、通过管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件等等。

大数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构,例如具有开放源码、在商品硬件群中运行的 Apache Hadoop。对于企业来说,难题在于以具备成本效益的方式快速可靠地从 Hadoop 中存取数据。

具体到一家企业/机构,对于大数据没有明确的规模定义,不过通常其数量介于几十个太字节到多个拍字节之间。一项由 Unisphere Research 对531名独立 Oracle 用户进行的调查发现,百分之九十的企业的数据量在迅速上涨,其中16%的企业每年的增长率达到50%或更高。

不少企业已经感受到失控数据增长对绩效造成的冲击。一项由 Informatica 赞助的 Unisphere Research 调查发现87%的受访者将企业的应用程序性能问题归咎于不断增长的数据量。

数据集成是关键

越来越多的机构为了应对大数据现象部署更加先进的大规模并行处理(MPP)数据库、Hadoop 分布式文件系统、MapReduce 算法、云计算及存档存储设施。我们说,数据集成是其关键。因为对各个机构来说,让业务部门能够访问所有数据,以便将其应用于整个大数据基础设施极为重要。

数据集成将让组织机构能够利用大数据的最大优势,即将传统的交易数据与全新的交互数据组合起来,从而获得在其它情况下无法达成的洞察力和价值。比如,可以通过社交媒体了解客户的喜恶,以此充实客户资料来提高目标行销效率。没有数据集成,大数据就仅仅是许多海量数据孤岛。

在北京举行的“大数据世界论坛”上,我们很欣喜地看到,很多演讲人和嘉宾都在谈论Hapdoop,不少厂商已经提供了基于Hapdoop的解决方案,这与我在美国看到的情况相当,大数据时代真的已经来临。这些最先由google、Facebook、雅虎等互联网公司发展起来的技术,在发展到一定程序之后,作为开源技术。由于是开源的,大家都可以使用,吸引了更多企业级用户开始考虑这种技术,“Big Data”这个概念开始漫延开来。实际上,在Hapdoop出现之前,很多软件公司已经在做大规模并行处理这样的数据分析技术了。并不是在“Big Data”之前没有针对海量数据的分析技术,已经有了,但相对来说是比较昂贵的技术,在性价比方面没有太好的竞争力。但有了Hapdoop之后,可以比较经济地进行大数据处理,解决更多的问题。

Informatica 9.1:为大数据而构建

今年6月, Informatica成功地推出了创新的Informatica 9.1 for Big Data,这是全球第一个专门为大数据而构建的统一数据集成平台。这个平台的开发目标非常明确,这就是将海量数据带来的挑战转化为重大机遇。在这个产品中,Informatica以18年来积累的数据集成领先技术为基础,帮助企业用户充分发挥大数据的业务潜力:

通过大数据集成,实现大数据的业务价值

通过为所有用途提供可信数据,凭借可靠而可信的数据提高业务洞察力和一致性

在IT 部门保持操控权的情况下,以自助服务增强所有用户获取相关信息的能力

自适应数据服务可提供按所有项目的业务需求进行调整的相关数据

大数据集成

Informatica 9.1 在大数据集成的三个方面提供了创新和全新功能:

与大交易数据的连接。Informatica 9.1 提供的一个全新关系/数据仓库设备包可将该连接扩展到专为大数据定制的解决方案。Informatica 9.1 通过与 OLTP 和在线分析处理(OLAP)数据存储的本地连接,提供了对高流量的交易数据的访问,最大可达拍字节。

与大交互数据的连接。借助于Informatica 9.1所提供的与新型社交媒体的连接器,访问如 Facebook、Twitter、LinkedIn 和其它媒体等新数据源。将数据收集范围扩大到企业所在行业的新兴价值数据集,包括设备和传感器、CDR、海量图像文件。

海量数据处理。Informatica 9.1提供了新连接功能,可让IT部门将来自任何来源的数据输入 Hadoop,同时从 Hadoop 中抽取数据发送给任何目标。此外,该连接还允许对 Hadoop中的数据应用 Informatica 数据质量、数量探查和其它技术。对于在 Hadoop 系统内外合并交易和交互数据的企业来说,这些功能提供了全新的可能性。

一些大数据的应用实例

实例1:网络营销公司得以降低成本

这家网络联盟营销公司是全球最大的互联网服务公司之一,为电子商务、门户网站和媒体、旅游、金融服务和职业运动等多种行业提供领先服务。该公司提供一个在线营销平台,集高质量的直接响应数字媒体、服务和技术为一体。它能够让客户开展具有成本效益的按操作付费式联盟、搜索及销售线索生成活动,以赢得新客户、增进营收并促进成效。

为实现最大化收益,这家客户极其需要在正确的时间向正确的客户展示正确的广告内容。仅此一项就构成了巨大的优化难题。该公司亦与其客户订立了服务等级协议(SLA),必须在活动的最后五分钟内提交最新的准确发票。这一难题涉及了来自500多个数据源的大量交易数据,每天涉及到3亿笔交易,以及实时向300,000名用户提供信息。该公司通过采用 Informatica 技术,令这一切成为了现实,并已经将成本降低了3倍,同时将项目的交付速度提高了5倍。

实例2:以客户为中心的海量百货商店零售商

这是一家领先的专业时装零售商通过当地的百货商店、网络及其邮购目录业务为客户提供服务。该公司以向其客户提供差异化服务而知名。在经过一番分析之后,该零售商决定不再提供免费化妆服务和化妆品样品,因为经理们意识到接受了这些馈赠的客户不会购买更多的化妆品。该零售商预计在馈赠计划终结之后,化妆品销售量将保持原样,但实际情况是销量出现下降。

通过研究,包括从 Twitter 和 Facebook 上收集社交媒体信息,该公司才开始更深入地理解化妆品的影响模式。它了解到必须保留两类有价值的客户,即高消费者和高影响者。接受了免费化妆服务的客户虽然不再需要购买化妆品,但他们的口碑宣传可促使亲朋好友及他们的亲朋好友踊跃购买。这是交易数据与交互数据的完美结合,为业务挑战提供了隐蔽的答案。通过运用 Informatica 技术,这家零售商以社交媒体数据充实了它的客户主数据,令其服务更具目标性。该公司最终通过向这些具有高度影响力的客户提供正确的产品和服务而增进了利润。

实例3:改进流程的运输移动智能先锋

这家货运公司的愿景是借助新一代的车载通讯系统与数千名驾驶员以及几万辆卡车和其它车辆,成为运输移动智能方面的领导者。该公司着重于采用移动智能技术,通过跟踪和了解其资产、车辆、驾驶员、运营经理、合作伙伴及客户的所有活动来实现最佳运营。它面临着数项挑战。该公司无法确定卡车在何处停车或停车时长。发动机的空转时间意味着资金的浪费,不能充分发挥卡车的使用效率,同样也会影响到客户服务。

作为其“不遗留任何数据”计划的一部分,该公司开始按每秒数次从卡车货运系统中收集900个数据元素,通过有效地跟踪能够想到的每条数据,包括有关轮胎和用油量、发动机运行情况的传感器数据及地理空间数据来跟踪车队的活动。该公司甚至从卡车司机们用于抱怨该系统的博客中搜罗数据,以便做出改进。一个基于 Hadoop 的海量数据处理环境和 Informatica 技术构成了企业信息管理系统的关键组成部分,让这家公司能够优化车队的使用、减少排放量并实现环保承诺。这帮助了该公司每年节省数百万美元,也帮助我们大家共同“走向绿色”。

Q:对于金融等这样数据量大的行业用户,他们对大数据管理有怎样的需求?

A:Informatica在金融领域已经获得了许多成功应用,包括在大数据管理方面,德意志银行、瑞联、摩根斯坦利等银行都已经开始应用Informatica大数据解决方案。银行有一个共同的需求,这就是他们需要控制风险,在技术的选型上更为谨慎。
    
Q:大数据是否会对数据集成的基础架构带来新的挑战?Informatica如何顺应大数据发展的需求?

A:从业务角度来看,即使是在大数据时代,客户仍然需要做数据集成、仍然需要做商业智能,只是现在需要处理的数据更多,要求数据集成的基础架构能够适应大数据集成的要求。我们的数据集成平台采用统一的软件开发工具包,这样的平台架构让我们能够灵活地应对新技术和新的应用需求,因此,对我们来说,提供能满足大数据需求的数据集成平台不是很困难的事情。事实上,Informatica一直在引领数据集成的发展,在数据集成领域已经发展了20多年,对数据集成的发展有着敏锐的洞察力。目前,IT技术有三个主要的大潮,一是云计算、二是大数据、三是移动计算,Informatica都及时针对这些技术扩展自己的集成平台。在今年6月,Informatica就成功推出了创新的Informatica 9.1 for Big Data,这是全球第一个专门为大数据而构建的统一数据集成平台,提供了大数据集成、权威可信的数据、自助服务和自适应数据服务这四项创新功能,旨在帮助广大用户和合作伙伴轻松对应大数据时代的新需求,充分释放大数据潜能,把大数据转化为重大机遇。

Q:企业如何部署大数据解决方案?

A:我们在跟客户沟通时,客户常问的一个问题是:部署大数据方案,是否需要改变原来已有的数据中心?我们的回答是完全不需要,而是需要一个完整的基础架构,在统一的平台上处理结构化数据、半结构化数据和非结构化数据,充分利用已有的在结构化数据处理方面的投资,同时充分利用Hadoop、MapReduce的强大优势。

Q:现在有一些厂商在谈把软硬整合在一起的一体机,这种方式与Informatica所提供的数据集成有哪些不同?

A:两者是非常互补的关系。Informatica是一个非常中立的公司,我们没有自己的数据库产品,也没有自己的BI产品,我们把所有的精力都集中在数据集成这个平台上,我们的战略是与相关的软件和硬件厂商合作,把精力集中在自己的优势领域——数据集成、数据质量、主数据管理。我们与提供数据库、数据仓库、数据存储和管理的厂商都有非常紧密的合作关系,与EMC、Teradata 、ORACLE等厂商都有很好的合作。Oracle也在OEM Informatica的产品。


Q:是否有基于云的交付方式?

A:实际上,Informatica基于云的产品已经面世了3年多了,对于中小型用户是很好的福音,他们可以以相对少的费用用租赁的方式来使用Informatica基于Hadoop的技术和方案。

Q:Informatica是自己提供云服务还是依靠合作伙伴来提供?

A:两种方式都有,Informatica有自己的云服务,也提供一个云平台,让客户把自己的应用放到云中。Informatica提供了多个云服务。

Q:对于像Informatica这样的公司,大数据时代将意味着什么?

A:Hadoop的出现,把数据存储、数据分析、数据仓库这三个不同的市场融在一起,既可以用Hadoop来做数据存储、做数据分析,也可以做数据仓库。Informatica专注于数据集成,能够对高效率地集成Hadoop上的半结构数据、非结构数据,因此,Hadoop对Informatica来说,是一个很好的机会。

Q:Hadoop在美国,到底有多热?会不会是雷声大、雨点小、慢慢就消失?

A:Hadoop在美国非常的热,就像前段时间的云一样。不久前,我参加了雅虎的2011 Hadoop论坛,有5500来宾参加。我在订票的时候给老板打电话问他是否参加这个会,老板说他想参加。但由于比我晚了三分钟而买不到这次论坛的票,我比他早3分钟购票,结果我买到了。可见参加这次Hadoop论坛的的人非常多。据说,Hadoop论坛的入场券在开始发售之后8个小时就售磬。而参加此次论坛的人员很多是客户,这是一个很有意思的变化。通常像这样的技术论坛,参会者大多是开发人员或技术供应商。我相信,Hadoop的雷声很大,雨点也很大,因为它已经得到证明,能够为客户解决不同的问题。

目前,已经有国内的公司开始和我们洽谈相关的大数据项目,通常,在面对新技术时,一般是大公司开始应该,他们会先在某个项目上进行尝试,既要能及时利用新技术的好处,也要控制好风险,确保成功。事实上,在Informatica,我们在开发新方案时,都会与客户紧密沟通,了解客户的最大需求。对于大数据项目,可以说,现在已经有大公司开始“吃螃蟹”了。

而在全球范围内,大数据分析师可能会有越来越大的需要,可能是IT组织的一部分,也可能是业务组织的一部分。从互联网的情况来看,提供用户的价值,可以发掘很多用户价值,比如汽车销售等等有直接的销售影响。在世界的各个地方,尤其是一些数据比较多的、比较成熟的行业中,会有大量的数据分析、数据科学家的需求。

数据分析咨询请扫描二维码

客服在线
立即咨询