京公网安备 11010802034615号
经营许可证编号:京B2-20210330
如何选择大数据应用程序
选择大数据软件对于组织来说是一个复杂的过程,组织需要仔细评估其目标和供应商提供的解决方案。
如今可以确定的是,组织对大数据解决方案需求量很大。组织的管理者知道他们的大数据是不可忽视的最宝贵的资源之一。因此,他们正在寻找可帮助存储、管理和分析其大数据的硬件和软件。
根据调研机构IDC公司的调查,2017年组织在大数据和数据分析方面的支出为1508亿美元,比去年增长12.4%。到2020年,这一支出可能会以每年11.9%的速度增长,2020年的收入可能高达2100亿美元。
大部分收入都用于大数据应用。据IDC公司预测,到2020年,仅软件开支就可能超过700亿美元。非关系分析数据存储(如NoSQL数据库)的支出增长尤其迅速,每年可能增长38.6%,认知软件平台(如人工智能和机器学习能力的分析工具)每年可能增长23.3%。
为了充分利用大量的数据支出,供应商在各种不同的产品和服务上打上了“大数据”标签。这种产品的扩散会使组织很难找到合适的大数据应用程序来满足他们的需求。专家建议,企业开始选择大数据应用程序的一个好方法是精确地确定自己所需要什么类型的应用程序。
大数据应用的类型
企业软件供应商提供了大量不同类型的大数据应用程序。适合企业的大数据应用将取决于其目标。
例如,如果企业只想更加详细和深入地扩展现有的财务报告功能,那么数据仓库和商业智能解决方案可能已足以满足其需求;如果企业的销售和营销团队希望利用其大数据的发现增加收入和利润的新机会,则可以考虑创建数据湖和/或投资数据挖掘解决方案;如果企业想创建一个数据驱动的文化,组织中的每个人都在使用数据来指导他们的决策,那么企业可能需要数据湖和预测分析,内存数据库,也可能是流分析。
这样的事情将会变得更复杂,因为不同类型的工具之间的界限可能会有些模糊。一些商业智能工具具有数据挖掘和预测分析功能。一些预测分析工具包括流媒体功能。
最好的办法是组织一开始就清楚地确定自己的目标,然后去寻找能够帮助其实现这些目标的产品。
选择大数据应用程序时的关键决策
无论企业选择哪种类型的大数据应用程序,都需要做出一些关键决策,以帮助企业缩小选择范围。以下是一些最重要的考虑事项:
(1)内部部署数据中心与基于云计算的大数据应用程序
企业需要做出的第一个重大决策是要在自己的数据中心托管大数据软件,还是希望采用基于云计算的解决方案。
目前,更多的组织似乎正在选择云计算。分析机构Forrester公司副总裁兼首席分析师Brian Hopkins在2017年8月的一篇博客文章中写道:“通过云订阅在大数据解决方案上的全球支出将增长快近7.5倍。此外,根据数据分析专业人员的2016和2017调查,公有云是大数据的头号技术优先事项。”
基于云计算的大数据应用受到欢迎有多种原因,其中包括可扩展性和易管理性。主要的云计算供应商也在人工智能和机器学习研究方面处于领先地位,这使得他们可以在解决方案中添加高级功能。
但是,云计算对于组织来说并不总是最好的选择。对合规性或安全性要求较高的组织有时会发现他们需要将敏感数据保留在内部部署的数据中心。此外,一些组织已经在现有的本地数据解决方案上进行投资,并且他们发现继续在本地部署数据中心运行大数据应用程序或使用混合方法会更具成本效益。
(2)私有vs开源的大数据应用程序
一些最流行的大数据工具(包括Hadoop生态系统)可以在开源许可下获得。 Forrester公司指出,“2017年,企业将在Hadoop软件和相关服务上投入8亿美元。”
Hadoop和其他开源软件最大的吸引力之一是降低总体拥有成本。尽管专有解决方案需要支付高昂的许可费,并且可能需要昂贵的专用硬件,但Hadoop没有许可费,并且可以在标准的硬件上运行。
然而,企业有时发现很难获得开源的解决方案,以满足他们的需要。他们可能需要购买支持或咨询服务,组织在计算总拥有成本时需要考虑这些费用。
(3)批处理vs流式传输大数据应用程序
最早的大数据解决方案(如Hadoop)只是处理批量数据,但企业越来越多地发现他们希望实时分析数据。这引发了对Spark、Storm、Samza等流媒体解决方案的更多兴趣。
许多分析师表示,即使组织认为他们现在不需要处理流式数据,流媒体功能也可能在不久的将来成为标准操作流程。出于这个原因,许多组织正在向Lambda体系结构迈进,这是一种既能处理实时数据又能批处理数据的数据处理体系结构。
在大数据应用中寻找特性
一旦企业缩小了选项范围,就需要评估其正在考虑的大数据应用程序。以下包括一些最重要的需要考察的因素。
与传统技术集成 - 大多数组织已经在数据管理和分析技术方面进行现有投资。完全替代该技术可能代价高昂并且具有破坏性,因此组织通常会选择寻找可以与现有工具一起使用的解决方案,或者可以增加现有软件。
绩效 - 2017年Talend研究发现,实时分析功能是商业领袖的首要IT优先事项之一。如果要从这些洞察中获益,管理人员和工作人员需要能够及时获取见解。这意味着投资可以提供他们所需速度的技术。
可扩展性 - 大数据存储的规模每天都会变得更大。组织需要快速执行的大数据应用程序,随着数据存储量以指数级增长,这些应用程序可以继续快速执行。这种对可扩展性的需求是基于云计算的大数据应用变得非常流行的主要原因之一。
可用性 - 组织还应该考虑他们打算购买的任何大数据应用程序的“学习曲线”。易于部署、易于配置、界面直观和/或与组织已经使用的工具相似或集成的工具可以提供巨大的价值。
可视化 - BI-Survey.com表示,“针对商业用户的可视化和探索性数据分析(称为数据发现)已经演变成当今市场上最热门的商业智能和分析主题。”在图表中呈现数据可以使人类的大脑更容易发现趋势和异常值,加快识别可操作见解的过程。
灵活性 – 企业如今所需要的大数据可能与其在一两年前的需求大不相同。这就是为什么许多企业选择寻找能够满足各种不同目标的工具,而不是很好地执行单一功能的原因。
安全性 - 这些大数据存储中包含的大部分数据都是敏感信息,这对于竞争对手、国家机构或黑客都是非常有价值的。组织需要确保他们的大数据具有足够的保护,以防止成为头条新闻报道的大量数据泄露事件。这意味着组织需要寻找具有内置安全功能(如加密和强身份验证)的工具,或者寻找与现有安全解决方案集成的工具。
支持 - 即使有经验的IT专业人员有时也会发现难以部署、维护和使用复杂的大数据应用程序。不要忘记考虑各供应商提供的支持的质量和成本。
生态系统 - 大多数组织需要多种不同的应用程序来满足他们所有的大数据需求。这意味着要寻找一个大数据平台,与其他许多流行工具以及与其他提供商有强大合作关系的供应商进行整合。
自助服务能力 - 2017年毕马威公司针对组织的CIO调查发现,60%的CIO持续报告指出数据分析人才短缺,而大数据和分析是最需要的技能组合。由于没有足够的数据科学家去解决,组织正在寻找其他商业专业人士可以独立使用的工具。调研机构Gartner公司最近的博客文章指出,通常在一个组织中,大约32%的员工正在使用商业智能和分析。
总体拥有成本 - 大数据应用的前期成本只是其中的一小部分。组织需要确保他们考虑相关硬件成本,正在采用的许可或订购费用、员工时间、支持成本,以及与本地部署应用程序的物理空间相关的任何费用。不要忘记要考虑到云计算成本随着时间的推移普遍下降的事实。
预计价值的时间 - 另一个重要的财务考虑因素是企业能够以多快的速度启动并运行特定的解决方案。大多数公司都希望在几天或几周内,而不是几个月或几年内从他们的大数据项目中受益。
人工智能和机器学习 - 最后,考虑各种大数据应用供应商的创新。人工智能和机器学习的研究正在以惊人的速度发展,并成为大数据分析的主流部分。据Forrester公司预测,“企业在2017年对于人工智能的投资增加了三倍,因为企业需要将客户数据转换为个性化体验。”如果企业选择的供应商在这项研究没有处于行业前沿,那么可能会发现自己落后于竞争对手。
选择大数据应用程序的提示
很明显,选择正确的大数据应用程序是一个复杂的过程,这涉及诸多因素。已成功部署大数据软件的专家和组织提供以下建议:
理解自己的目标–企业在选择大数据应用程序时,需要知道自己想完成什么是至关重要的。如果不确定为什么要投资某项技术,那么其项目不太可能成功。
从小规模开始-如果企业可以通过小规模的大数据分析项目取得成功,那么企业对使用该工具将会产生更多的兴趣。
采取整体方法-尽管小规模项目可以帮助企业获得技术方面的经验和专业知识,但选择最终可用于整个业务的应用程序非常重要。Gartner公司建议:“为了支持无处不在的数据和分析世界,IT专业人员需要创建一个新的端到端体系结构,为敏捷、规模和实验而构建。如今,技术学科正在融合,数据和分析的方法正在变得更加整体化,涵盖整个业务。”
协同工作–Gartner公司的这篇博客文章还指出:“建议数据和分析领导者积极主动地在他们的组织中传播分析,以便从启用数据驱动业务操作中获得最大的收益。”许多组织正试图构建数据驱动文化,这需要业务和IT领导者之间的大量合作。
病毒式传播–前面提到的自助服务功能还可以帮助创建数据驱动的文化。Gartner公司建议:“让分析在企业内部和外部真正发挥作用。通过培养实用的自助服务方法,并通过在交互和流程中的数据摄入点上嵌入分析功能,使更多的业务用户能够执行分析。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27