如何为企业选择合适的数据集成工具?
企业产生和收集的数据量日渐增长,随之而来的是对这些数据进行集成需求的增长,可以帮助IT团队简化并管理这一流程的数据集成软件应运而生。但是产品类型如此丰富,对你的企业来说哪些数据集成工具才是最佳之选呢?选择这类产品并非要挑那些拥有丰富功能的,而是要选择与你的集成需求和企业特质最为适配的产品。
在对数据集成平台评估之前,要在企业内部进行调查来协助产品选择过程。你的调查应该涵盖下列主题:
源系统。企业拥有多少源系统?是否拥有重叠系统,例如多重CRM或是销售处理应用程序?除了传统结构化数据,是否存在非结构化或半结构化数据?除了内部数据源,是否存在外部数据源?数据量和更新频率又如何呢?
集成用例。企业需要为分析而进行数据集成么——主要通过数据仓库?应用程序集成又是怎样呢?你所在的企业需要为主数据管理(MDM)获取和处理数据么?在本地系统和云应用程序或物联网设备间同步数据又是如何呢?亦或是在本企业以及其他企业的内部业务流程和应用程序间交换数据?需要为复杂事件处理和流处理应用程序捕获并交付数据么?在不迁移至中央数据存储的情况下,是否需要将来自几乎完全不同系统的数据进行集成呢?
企业规模。你所在企业的年收入怎样,拥有多少员工,对于数据集成的IT预算有多少?
资源和技术。企业是否拥有专门的IT资源来执行数据集成工作?对于使用数据集成工具以往的经验水平如何?
在你回答了这些问题之后,就可以浏览以下十大数据集成产品来探寻哪一款与你的需求和特点最为匹配了。
针对大型企业的数据集成产品
大型企业通常具有以下特点:
不同的源系统集总是与高数据量相伴而生的。结构化数据居于主导地位,但是像社交媒体,网页服务器日志和平面文件,还有如XML和面向消息数据的半结构化数据源同样需要进行集成。
多种集成用例。
足够的IT预算来购买任何可用数据集成工具和必要的支持基础设施。
专门的IT团队,这些团队拥有数据集成专家或是有预算雇用那些在使用给定数据集成工具上有丰富经验的员工和顾问。
符合上述特征的大型企业应该考虑用Informatica PowerCenter和IBM InfoSphere Information Server来进行数据集成,因为这些产品对集成用例进行了全方位的解决。这两款产品还提供可扩展性以处理大型企业对数据复杂性,数据量和速度的要求,而且还能跨多个项目使用,并用于任意规模的团队。IBM和Informatica都提供MDM和数据清理功能。IBM的产品解决了信息分析和管理的需求,而Informatica则专注于信息集成。但是这些强大的工具价格不菲。除了它们通常要比竞争对手的产品贵出许多之外,它们还要求使用者有更为丰富的技能和经验。此外,比起竞争对手,它们通常还要求有更大量的基础设施和更复杂的实现。
多年来,很多IBM和Informatica的竞争对手显著地提高了它们产品的功能和特性,这为大型企业提供了更多的选择,对于那些在数据集成上有更少要求的企业尤为如此。来自SAP,Oracle和SAS的数据集成工具解决了大量数据源和数据集成的用例。这些公司同样提供企业级应用程序,如尤其是在大型企业使用广泛的企业资源计划,CRM和分析应用等,而且它们也将自己的数据集成工具用在这些应用程序上。如果一家企业在上述任意公司的应用程序上有巨大投入,那么将该厂商的数据集成工具纳入考虑范畴也是理所应当的。
SAP Data Services和SAS Data Management Platform都对大型企业的数据集成功能提供广泛的支持。虽然SAP Data Services仅限于和SAP的业务应用程序协同工作,但是它正变得与该公司软件组合集成的更加紧密。这就意味着已经是SAP客户的企业就需要考虑使用这一集成产品了。同样,正在使用SAS统计和分析产品的客户则应该将SAS Data Management Platform纳入考量。
针对有深入集成需求的中型企业的工具
中型企业通常具有以下特点:
各种源系统用于处理重叠数据对象,而这些数据对象可能是在本地也可能是在云端。数据量会因行业或是所提供的产品和服务的不同而不同。结构化数据源仍占主导地位,而且任何需要进行集成的非结构化数据通常有范围限制。
如果将来数据仓储得以解决,虽然应用程序集成可能甚嚣尘上,但是提取,转换和加载(ETL)以及数据仓库还是主要的集成用例。
IT预算有限。
小规模的IT团队来执行数据集成工作和商业智能开发。针对特定工具招聘专家在财政上可能不具备可行性。
虽然有以上特点的中型企业有着显著的集成需求,但是他们在人力、财力和时间上的可操作资源是有限的。这些公司应该考虑来自Microsoft,Oracle,Information Builders,Talend和Pentaho的数据集成产品。对于在这些企业中常见的数据多样性,集成范围和资源限制等问题,这些工具都提供了解决方案。
对于拥有资深SQL经验开发人员且正在使用Microsoft SQL Server的企业来说,应该考虑Microsoft数据相关的产品,如SQL Server Integration Services(SSIS)。这些工具共享了一个公共开发方法,这可以让IT人员更加有效的与多种Microsoft工具协同工作。Microsoft一直在对SSIS的功能进行扩展以处理更为复杂的集成用例,例如缓慢改变维度和模糊查询,以及平面数据和关系型数据库之外的各种数据源。虽然Microsoft的源和目标不仅限于其自己的平台,但是部署仍然限制为Windows。Microsoft的工具历来都是在本地的,但是该公司已经在将相关功能迁移至云端方面取得了显著进步。而不利的一面是SSIS缺乏其竞争对手所拥有的强大的集成转换,工作流和流程管理,例如使用存储库和基于团队的开发管理功能来进行追踪和管理流程的能力。
与Microsoft类似,那些当前正在使用Oracle数据库的企业可能会希望考虑Oracle Data Integrator。ODI是一款强大的数据和应用程序集成工具,它能够处理各种数据源和集成用例,包括BI,MDM和应用程序集成;它还支持数据量和速度方面的可扩展性。虽然该产品有大量可供使用的功能,但是它总是用来自动执行SQL脚本。ODI确实需要足够的培训才能应对其略显复杂的实施。虽然该产品对接各种各样Oracle产品进行工作的能力扩展了其功能,但是它也增加了其部署的复杂性,这让其很难用于资源有限的IT人员。
Information Builders的iWay Integration Suite能够处理诸如MDM,数据清理和数据治理之类复杂的集成用例。当一家企业正在使用Information Builders的其他信息产品时,应该将iWay纳入考虑范畴,因为它提供了与那些产品紧密的集成。这些工具因其可扩展性和在操作系统上可实时工作的能力而闻名。但它也有一个缺点:该产品相关的专业知识和经验较为有限。
Talend和Pentaho的同名数据集成工具同样能够处理各种集成用例。两款产品都有开源版本,这可以让IT团队避免任何预先许可的成本。它们的开源版本提供固定数据集成功能,对于那些没有主动要求集成需求的企业和预算紧缩的IT团队来说,这再适合不过了。而它们公司产品的企业版本则提供很明显更加强大的功能。
小企业要进行集成需要哪些考量
小企业通常具有以下特点:
以结构化数据源为主的各种源系统。
IT预算非常有限。
在诸如数据集成,BI和操作系统等领域IT人手捉襟见肘。
这些企业可能需要考虑那些基于他们已有数据库的数据集成工具——也就是Oracle或Microsoft——或是来自Talend和Pentaho的产品。这些工具是物有所值的,因为SSIS捆绑了SQL Server,而Talend和Pentaho的开源版本则提供比很多企业所需更多的数据集成功能。注意,小型企业应该确保他们的IT部门拥有足够的专业知识来有效利用这些工具。
针对具有有限集成需求的小企业的工具
这些企业主要是直接从他们的源系统做业务报告而且不会创建数据仓库来对那些源系统进行集成。在这种情况下,这些企业通常是不会对大数据集成工具和IT技术进行投资的。相反,IT会依赖现有应用程序捆绑的东西或是自定义SQL代码。如果业务用户需要来自多个应用程序的数据做报告,他们会依赖构建在操作应用程序中的报告并使用电子表格来填补空白。
随着数据量的持续增长,对于数据集成和将这些数据转换成相关信息来生成可行见解的需求也水涨船高。希望该系列文章所提供的信息能够帮助你在购买数据集成工具的时候做出更为明智的选择。
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14