京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据项目部署的五大愿景
如果你正在尝试构建大数据应用或分析系统,你可能会清楚的意识到该领域缺少哪些功能。笔者将人们对大数据的愿景归纳为五大需求,分别是SQL(或SQL-like)分析、快速部署、高级分析、实时分析和网络分析选件。
好消息是人们正在努力应对这些问题,SQL分析选件就是其中之一。大批数据管理和数据分析专家们对SQL非常熟悉,自然想要利用SQL知识搞清楚Hadoop集群和NoSQL数据库中的数据。Apache Hadoop软件的发行商都在规划、测试,甚至已经发布了SQL(或SQL-like)分析选件,用于分析存在于Hadoop集群里的数据。这些发行商包括Cloudera、EMC、Hortonworks、IBM、MapR和Teradata等。在NoSQL阵营中,10gen公司已经对MongoDB的分析能力进行了改进,大数据厂商Acunu对Cassandra也做了同样的改进。
部署和管理Hadoop集群和NoSQL数据库对于大多数IT组织而言是一种全新的体验,但似乎每个软件更新带来的部署和管理新特性都能够让生活变得更轻松。与此同时,EMC、HP、IBM、Oracle和Teradata等厂商计划或已经提供了一些工具,旨在帮助企业进行Hadoop快速部署。其他厂商将重点放在Hadoop框架组件的使用,如WibiData,提供简化HBase的开源库、模型和工具。
收集和利用大数据的重点是进行预测分析和其他高级分析,进而得到更明智的商业决策。但是在数据人才短缺的今天,企业正在寻求一种更简便的方式支持复杂的分析过程。很多厂商和企业都在研究机器学习,这是因为它不依赖于专家,而是依赖数据和计算能力收集客户行为数据,并挖掘数据背后的商业模式。
大数据的3V原理的其中一个V是velocity(速度),但是很难用“实时”一词来形容Hadoop,其弊端在于MapReduce的分析方法。MapR和HStreaming等厂商开始为Hadoop增加实时分析功能,其他厂商可能会效仿,尤其是那些事件流处理厂商。
排在第五位的大数据愿景是更简便的网络分析。目前,企业友好型图形分析数据库和工具不断涌现,它们采用了很多与Facebook相同的真正大规模的技术。这里提到的工具和技术很少有30年以上的历史,不会像关系型数据库和SQL查询工具那样成熟。但是有明确的迹象表明,大数据管理和分析的痛点正在迅速缓解。
通过很多关于大数据人才短缺的故事和报告,就可以得到这样一个结论:大数据领域最迫切的需求是了解数据类型的数据科学家,他们也知道如何通过编写自定义代码、MapReduce作业和算法在大数据中获取洞察力。但是,为何不让擅长关系型数据库、商业智能(BI)和分析工具的SQL专家处理更多繁重的工作呢?SQL专家的数量远远大于数据科学家,并且大多数SQL专家更急于扩大自己的职业潜力。
推动在Hadoop之上提供SQL分析能力,大数据的人才短缺只是其中一个原因。另一个原因是Apache Hive——Hadoop中的数据仓库,它提供SQL-like查询功能的有限子集,但是Hive是将SQL查询转化成MapReduce任务,这导致Hive的性能缓慢。
为了应对Hadoop之上SQL查询范围更广、速度更快的需求,很多相关项目和方案陆续发布,如Cloudera Impala、EMC Pivotal HD中的HAWQ查询特性、Hortonworks Stinger、IBM Big SQL、MapR支持的Apache Drill、Teradata SQL-H等。
即使是NoSQL阵营也在为更好的SQL-like查询功能而努力。去年10gen公司为其MongoDB NoSQL数据库新增了一个实时数据统计框架,该框架让用户直接在MongoDB中查询数据,而不需要编写或者运行编译的、面向批处理的MapReduce作业。Acunu公司也在做类似的工作,它已开发出一种SQL-like的AQL(Annotator Query Language)语言支持Cassandra查询。
SQL查询功能的发展仅仅是个开端。BI、分析工具和大数据平台自身分析系统的脱颖而出,如Datameer、Hadapt、Karmasphere和Platfora等,它们提供了Hadoop之上的分区查询、分析、数据可视化和监控能力。
包含Hadoop和NoSQL数据库在内的大数据平台一直在努力简化其部署和管理功能,每次软件升级都会带来新的管理特性和新的内置功能,例如10gen公司在最新发布的MongoDB中新增了内置文本搜索功能和预置监控功能。Hortonwork Hadoop发行版针对微软Windows的版本嵌入Active Directory(活动目录)、System Center和虚拟化技术,用以简化大数据的部署和管理。
在构建Hadoop集群的过程中,虽然没有太多硬件方面的抱怨,但是EMC、IBM、Oracle和Teradata等硬件厂商推出Hadoop一体机,使Hadoop的部署更快速、更便捷。商用硬件的成本很高,但是Oracle称如果算上每个组件的价格、配置和调整的时间、维护和升级工作、可以直接运行的Cloudera软件,以及Oracle NoSQL数据库,一体机的成本比自己部署价格更低。
真正复杂的Hadoop管理常常出现在软件层面,而非硬件配置。例如HBase——Hadoop架构中日益重要的NoSQL数据库,很多开发者认为很难在HBase中建模和分析数据。WibiData公司提供开源库、模型和工具,使HBase中的数据更容易存储、提取和分析。该理念是将HBase运行中的技术难点可重复化,因此在解决商业问题时节省大量工程师和数据科学家等人力资源,这一准则也可以应用于其他大数据平台。
开发算法和预测模型是专业数据科学家的工作,但是他们既数量稀少,又需要支付高额报酬。因此,人才短缺是大数据、分析和商业智能厂商开发机器学习方法的原因之一。在光学字符识别、垃圾邮件过滤和计算机安全威胁检测等应用程序中证实,机器学习使用的学习算法是数据本身训练而来的。如果展示该算法扫描成千上万个文本字符、未经请求的电子邮件消息、病毒程序和恶意软件等,的确能够找到更多实例。
随着机器学习的发展,训练模型还能继续在新的数据中学习。例如Amazon.com和Netflix公司利用算法发现顾客交易规律,并向他们推荐感兴趣的书或电影。每当新书或者电影发行时,这些公司可以利用算法洞察数据中的偏好模式,推荐给相关顾客。
Apache Mahout是全球领先的部署机器学习基础集群、分类、Hadoop协同过滤算法的项目,该技术同样是由R统计编程语言支持的。支持或嵌入机器学习技术的厂商还包括Alpine数据实验室、Birst、Causata、Lionsolver、Revolution Analytics等。
大数据分析上的另一个需求是实时性能。两家初创厂商正试图抓住这一机遇,分别是市场分析厂商Causata和实时Hadoop分析厂商HStreaming。
对于Causata而言,“实时”意味着在50毫秒以内作出决策。当你的顾客仍然在访问网站和手机客户端时,需要以这种速度更改内容、横幅广告和市场报价。Causata利用Hadoop的HBase NoSQL数据库进行存储,包括点击流、活动响应数据和CRM记录等与市场相关的数据。HBase并不擅长实时查询,因此Causata在专有查询引擎上运行基于Java的算法用以提升性能。
HStreaming所用的流处理技术类似于金融交易系统中的事件处理引擎,以及IBM(InfoSphere Streams)、Progress Software (Apama)、SAP (Sybase Aleri)、Tibco (Complex Event Processing)等技术。HStreaming能够直接从不间断数据源中提取数据,如视频监控摄像头、发射塔、传感器等。该技术还提供了一种提取、转换、加载(ETL)的形式,将数据存储在Hadoop中,用于随后的分析。HStreaming在视频监控、网络优化和移动广告领域拥有最多应用,在这三种场景下,实时洞察力和行动力是必须的。
与HStreaming采取不同的策略,Hadoop软件和服务提供商MapR宣布与Informatica成为合作伙伴,并将成为第一个也是唯一一个拥有实时能力的Hadoop软件发行商,能够在大数据平台中以接近实时的速度传送数据。MapR的Hadoop发行版的特色是无锁存储服务层,能够与Informatica消息传递软件共同运行,不断将大规模数据传送至Hadoop。结合即将推出的SQL-on-Hadoop选件,如MapR-favored Drill,大数据又将增加一个快速分析的选择。
社交网络为大数据贡献了规模性和多样性的数据,社交网络本身使用图形数据库和分析工具,通过研究“节点(nodes)”发现用户关系网。这些节点代表人、公司、地点等,而边缘(edges)代表各个节点中复杂的关系。
美国世纪投资公司利用图形分析预测公司基金投资的业绩,该公司使用的开源R统计编程语言和iGraph包由Revolution Analytics(分析力革命公司)提供软件和支持,由此创建的图形分析应用能够跟踪制造商和供应商之间的资金流。
如同苹果公司与其芯片和屏幕的供应商或者汽车制造商与其零部件供应商之间的关系。美国世纪投资公司结合这些采购关系的公共和私有数据,运用图形分析获得对供应商更清晰的认识,这些预测比基于公共财政报告数据的预测更准确。
其他支持图形分析的开源技术还有Neo4j,这是Neo Technologies公司开发和支持的一款图形数据库。Neo4j适用于IT和电信网络场景应对安全接入挑战、在主数据管理应用中观察数据之间关系的变化,以及在推荐引擎应用中根据好友的行为和关系计算客户的需求。除此之外,开源图形分析项目还包括Google Pregel和Apache Giraph,人们对图形分析的兴趣与日俱增。
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22