京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据与传统数据库是互补关系_数据分析师培训
在全球大数据生态圈中,Hadoop堪称其中最为核心的技术。
由非营利组织管理的Hadoop平台,尽管推行开源模式,但企业并不是拿来就可以用,它需要经过进一步的加工和修缮,由此孕育了多家大数据商业开发公司,如Cloudera、MapR、Hortonworks等。这些公司的商业模式就是开发商业化的Hadoop分发版,并对外销售。
在这些Hadoop分发版开发公司中,Hortonworks刚刚完成IPO,算是最早的一家,目前市值约10亿美元。而要论规模和影响力,则莫过于Cloudera。
Cloudera由分别来自Facebook、谷歌、雅虎和甲骨文的四位创始人于2008年成立。一项数据显示,75%的Hadoop新用户使用的都是Cloudera的分发版。
12月10日,Cloudera正式宣布在中国开始运营,标志着这家已在全球发展了1300多家客户的大数据公司,将业务触角伸向这一潜力市场。Cloudera公司创始人、董事长兼首席战略官Mike Olson亦专程来到中国为新公司站台。
“随着中国交通、电信、金融、医疗等行业领域的飞速发展,越来越多的企业需要快速,甚至是实时的大数据分析。”Mike Olson在接受21世纪经济报道记者专访时表示,大数据在中国企业转型与变革中发挥的作用将愈发显著,而Hadoop作为大数据应用中的主流技术,也将逐渐成为企业应用的核心。
英特尔软件与服务事业部中国区总经理、英特尔亚太研发有限公司总经理何京翔,以及Cloudera公司副总裁、肯睿(上海)软件有限公司总经理凌琦也同时接受了21世纪经济报道记者专访。
50亿美元估值
《21世纪》:Cloudera的四个创始人当中,各自怎么分工,你负责哪些部分?
Mike Olson:我们四位联合创始人分别来自于雅虎、谷歌、Facebook和甲骨文。我是来自于甲骨文,在此之前创建了Berkeley DB,后来被甲骨文收购了。2008年与另外三位同事一起创建了Cloudera,到现在已经六年半了。现在我的角色是董事长和首席战略官。
另外的三位同事,Jeff Hammerbacher来自Facebook,他现在是我们的首席科学家,他在做很多对人类非常重要的一些事情,比如说基因图谱,利用大数据这样一个工具进行一些重大疾病的研究。Amr Awadallah是我们的CTO,他来自于当年的雅虎,他是最早在雅虎内部使用Hadoop的人之一。Christophe Bisciglia来自于谷歌,尽管他现在已经离开了Cloudera,但是还是在这个生态圈里面,他在Cloudera基础上创建了一些工具和应用,利用大数据这个平台服务客户。
另外还有一个需要提及的人是Doug Cutting。大家都知道Doug Cutting是Hadoop之父,他在2004年写了Hadoop,到2009年加入Cloudera,现在任职我们的首席架构师。
《21世纪》:能否介绍下Cloudera的最新发展情况?
Mike Olson:目前我们全球拥有800名员工,已经有超过50亿美金的市值,有超过1300家的合作伙伴,他们分布在电信、运营商和金融、制造业等各行各业。
Cloudera的商业模式以软件销售为主,同时会提供专业化的服务和认证培训。这类似于Red Hat。诚然,Hadoop是开源的开放式标准,这避免了客户被某一家厂商锁定的风险,但仅仅开源并不够,开源版本更多的是靠一个社区去推动,而企业级客户需要更稳定、更安全、便于管理的企业级平台。这是企业级用户大多会选择Hadoop商业分发版的原因。
从技术角度来讲,Cloudera 的800名员工有一半以上是开发人员,这也就意味着我们对Hadoop社区和整个技术演进的发展方向有非常大的贡献和影响。
联手英特尔
《21世纪》:Cloudera成立六年半后来到中国,准备怎么开展业务?
Mike Olson:我们的中国公司——肯睿(上海)软件有限公司——已经在9月份注册完成,现在正式对外宣布开始运营。目前的团队主要在上海、北京、广州三个地方。业务模式与在美国的业务一脉相承,主要包括四部分:软件开发、营销;合作伙伴支持;解决方案咨询服务;认证培训。
团队方面,我们一方面是本地化,凌琦是Cloudera公司副总裁和肯睿(上海)软件有限公司总经理,他在英特尔工作了20年。另一方面是与英特尔的合作。英特尔向Cloudera投资了7.4亿美金,持有18%的股份,我们在产品和技术和团队上有广泛的合作。
凌琦:我来谈谈中国这边的情况,第一个方面的工作是把以前英特尔的Hadoop分发版的中国客户,转换到Cloudera平台上来。这些客户主要是在金融领域,包括银行、证券、保险等。在此基础上,我们也发现中国市场对大数据的需求在快速增长,比如说电信业,它积累了大量的数据和客户行为数据,这些信息会有很大价值可以挖掘。
我们还看到智慧城市。中国的智慧城市建设非常热,这里面也是靠数据来支持,比如说交通管理,比如说在商业分布,甚至说对于城市安全的管理都有非常好的应用。
另外,大数据在生命科学方面、医药研究方面以及流行病趋势方面,也会有很多应用。
《21世纪》:Cloudera在中国与英特尔将在哪些方面共享资源?
Mike Olson:我们跟英特尔的沟通当中会发现很多大数据潜在的问题,我们可以通过和英特尔或者与英特尔共享的合作伙伴渠道一起提供一个大数据整体解决方案。我们说到的智慧城市、平安城市都是非常典型的大数据应用场景案例。
何京翔:英特尔在上海的大数据开发团队,与Cloudera在开源上有很多的合作;另一方面,我们在共有客户和新客户方面也会合作,来更好满足客户需求。
我本身在英特尔软件及服务事业部工作,这个部门一个主要的任务是使得软件能够在英特尔平台上跑得最好,所以具体落实到大数据这块,就是怎么样让Hadoop、Spark这些新的软件平台在英特尔平台上得到最好的优化,把我们软硬结合做到最好。
与传统数据挖掘是互补关系
《21世纪》:有很多力量在推动大数据发展,其中比较典型的包括传统IT公司面对大数据的转型,以及新兴的创业公司。你怎么看这两类公司的优劣势?
Mike Olson:像Oracle、IBM、Teradata这些传统的数据库或者数据挖掘厂商,其实他们在自己擅长的部分已经做得非常好、非常成功,有非常成熟的解决方案。随着时间的发展,我们现在已经看到越来越多的应用场景和新技术加入到Hadoop平台。正如多年以前谷歌发表了三篇论文,MapReduce、Bigtable、GFS,三篇论文就是Hadoop的原形。Hadoop也是受到这三篇论文的启发。
我认为这两种模式更多的是优势互补。我们现在看到Cloudera做的大数据平台和传统数据仓库EDW数据平台并不是竞争的关系,因为我们可以给他们提供更多的数据,更多种类的数据,不论是从量、种类还是数据类型都会远远超过过去EDW数据能够处理的范围。有了这些数据,用户还是可以用他们熟悉的数据分析和建模以及数据挖掘的工具,比如说Teradata,比如说MicroStrategy这样的东西去发掘数据的价值。
也就是说,我们这两个方案完全是互补的关系,我们可以给他提供更多种类的数据,让他们从中挖掘更多的价值给到用户。
这里想强调一下我们跟合作伙伴良好的关系,举几个例子,今年10月份,我们宣布了很多合作,比如说跟Teradata、微软、EMC,以及我们跟Oracle做了一体机,这些都是非常好的样板,会告诉大家我们跟这些传统的关系型数据库、数据挖掘公司并不是竞争的关系,而是良好的合作关系。
在Cloudera过去六年半的历史上,我们已经做到了在大数据领域最大,也是最好的分发版提供商,这也是我们跟合作伙伴持续创新、共同发展、共同成长的一个结果。
大数据平台作为一个新生的产品或者一个业界的发展动态,毕竟现在还是一个早期的阶段,对Cloudera这样的新兴的创业公司来讲,在这方面肯定有优势,船小好掉头,这也是大家容易理解的。
《21世纪》:美国大数据领域的创业非常活跃,有很多融资、并购的案例。目前中国大数据领域的创业也在增多。你对这样的创业公司有什么建议?
Mike Olson:一是对这些新兴的中国的创业的大数据厂商,要尽量让自己聚焦在创建一个行业的解决方案或者是一些应用,或者是一些上传的工具,这样能够更好地利用Cloudera非常稳定的、成熟的大数据平台,提供整体的解决方案给到客户。
中国有很多非常活跃的初创企业,我们非常希望能够和合作伙伴一起,通过合作伙伴整个生态圈的打造,能够更多更好地服务于最终客户。
隐私问题的技术视角
《21世纪》:你怎么理解大数据隐私的问题,目前全球有哪些比较好的解决方案?
Mike Olson:用户隐私是一个非常重要的话题,不论是对客户,还是对我们这样一个产品提供商。我们在这方面已经做了很多工作。前期我们在数据加密和优化方面,和英特尔一起发布了很多产品。这是一方面。接下来更多的挑战是,如何把现有我们平台已经有的功能应用到客户的应用场景里去解决客户的真实问题。
凌琦:第一,我们都理解信息安全、隐私非常重要。同时跟国家的政策、法规以及文化、心理习惯有关系,所以从一个技术公司的角度来说,我们更多的定位自己是提供能够加强信息安全和隐私管理的技术。但是上面所进行的应用开发更多是跟本地的公司在一起做的,而这些公司对本地习惯的了解,文化法规的了解,使他能够开发这些应用,符合本地用户的需求。
第二,我们也认识到隐私其实是个人的事情,如果说这个数据能够直接点到每一个人,把你所有的东西都通过大数据的技术找出来,(CDA数据分析师培训)这是个很可怕的事情,从技术上不是不可能。但是我们有一些技术可以通过隐藏这个人本身的身份,但是把这些数据剥离出来,能够知道整个趋势是什么样的,但是把人本身的身份隐藏起来。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15