
如何选择大数据应用程序
选择大数据软件对于组织来说是一个复杂的过程,组织需要仔细评估其目标和供应商提供的解决方案。
如今可以确定的是,组织对大数据解决方案需求量很大。组织的管理者知道他们的大数据是不可忽视的最宝贵的资源之一。因此,他们正在寻找可帮助存储、管理和分析其大数据的硬件和软件。
根据调研机构IDC公司的调查,2017年组织在大数据和数据分析方面的支出为1508亿美元,比去年增长12.4%。到2020年,这一支出可能会以每年11.9%的速度增长,2020年的收入可能高达2100亿美元。
大部分收入都用于大数据应用。据IDC公司预测,到2020年,仅软件开支就可能超过700亿美元。非关系分析数据存储(如NoSQL数据库)的支出增长尤其迅速,每年可能增长38.6%,认知软件平台(如人工智能和机器学习能力的分析工具)每年可能增长23.3%。
为了充分利用大量的数据支出,供应商在各种不同的产品和服务上打上了“大数据”标签。这种产品的扩散会使组织很难找到合适的大数据应用程序来满足他们的需求。专家建议,企业开始选择大数据应用程序的一个好方法是精确地确定自己所需要什么类型的应用程序。
大数据应用的类型
企业软件供应商提供了大量不同类型的大数据应用程序。适合企业的大数据应用将取决于其目标。
例如,如果企业只想更加详细和深入地扩展现有的财务报告功能,那么数据仓库和商业智能解决方案可能已足以满足其需求;如果企业的销售和营销团队希望利用其大数据的发现增加收入和利润的新机会,则可以考虑创建数据湖和/或投资数据挖掘解决方案;如果企业想创建一个数据驱动的文化,组织中的每个人都在使用数据来指导他们的决策,那么企业可能需要数据湖和预测分析,内存数据库,也可能是流分析。
这样的事情将会变得更复杂,因为不同类型的工具之间的界限可能会有些模糊。一些商业智能工具具有数据挖掘和预测分析功能。一些预测分析工具包括流媒体功能。
最好的办法是组织一开始就清楚地确定自己的目标,然后去寻找能够帮助其实现这些目标的产品。
选择大数据应用程序时的关键决策
无论企业选择哪种类型的大数据应用程序,都需要做出一些关键决策,以帮助企业缩小选择范围。以下是一些最重要的考虑事项:
(1)内部部署数据中心与基于云计算的大数据应用程序
企业需要做出的第一个重大决策是要在自己的数据中心托管大数据软件,还是希望采用基于云计算的解决方案。
目前,更多的组织似乎正在选择云计算。分析机构Forrester公司副总裁兼首席分析师Brian Hopkins在2017年8月的一篇博客文章中写道:“通过云订阅在大数据解决方案上的全球支出将增长快近7.5倍。此外,根据数据分析专业人员的2016和2017调查,公有云是大数据的头号技术优先事项。”
基于云计算的大数据应用受到欢迎有多种原因,其中包括可扩展性和易管理性。主要的云计算供应商也在人工智能和机器学习研究方面处于领先地位,这使得他们可以在解决方案中添加高级功能。
但是,云计算对于组织来说并不总是最好的选择。对合规性或安全性要求较高的组织有时会发现他们需要将敏感数据保留在内部部署的数据中心。此外,一些组织已经在现有的本地数据解决方案上进行投资,并且他们发现继续在本地部署数据中心运行大数据应用程序或使用混合方法会更具成本效益。
(2)私有vs开源的大数据应用程序
一些最流行的大数据工具(包括Hadoop生态系统)可以在开源许可下获得。 Forrester公司指出,“2017年,企业将在Hadoop软件和相关服务上投入8亿美元。”
Hadoop和其他开源软件最大的吸引力之一是降低总体拥有成本。尽管专有解决方案需要支付高昂的许可费,并且可能需要昂贵的专用硬件,但Hadoop没有许可费,并且可以在标准的硬件上运行。
然而,企业有时发现很难获得开源的解决方案,以满足他们的需要。他们可能需要购买支持或咨询服务,组织在计算总拥有成本时需要考虑这些费用。
(3)批处理vs流式传输大数据应用程序
最早的大数据解决方案(如Hadoop)只是处理批量数据,但企业越来越多地发现他们希望实时分析数据。这引发了对Spark、Storm、Samza等流媒体解决方案的更多兴趣。
许多分析师表示,即使组织认为他们现在不需要处理流式数据,流媒体功能也可能在不久的将来成为标准操作流程。出于这个原因,许多组织正在向Lambda体系结构迈进,这是一种既能处理实时数据又能批处理数据的数据处理体系结构。
在大数据应用中寻找特性
一旦企业缩小了选项范围,就需要评估其正在考虑的大数据应用程序。以下包括一些最重要的需要考察的因素。
与传统技术集成 - 大多数组织已经在数据管理和分析技术方面进行现有投资。完全替代该技术可能代价高昂并且具有破坏性,因此组织通常会选择寻找可以与现有工具一起使用的解决方案,或者可以增加现有软件。
绩效 - 2017年Talend研究发现,实时分析功能是商业领袖的首要IT优先事项之一。如果要从这些洞察中获益,管理人员和工作人员需要能够及时获取见解。这意味着投资可以提供他们所需速度的技术。
可扩展性 - 大数据存储的规模每天都会变得更大。组织需要快速执行的大数据应用程序,随着数据存储量以指数级增长,这些应用程序可以继续快速执行。这种对可扩展性的需求是基于云计算的大数据应用变得非常流行的主要原因之一。
可用性 - 组织还应该考虑他们打算购买的任何大数据应用程序的“学习曲线”。易于部署、易于配置、界面直观和/或与组织已经使用的工具相似或集成的工具可以提供巨大的价值。
可视化 - BI-Survey.com表示,“针对商业用户的可视化和探索性数据分析(称为数据发现)已经演变成当今市场上最热门的商业智能和分析主题。”在图表中呈现数据可以使人类的大脑更容易发现趋势和异常值,加快识别可操作见解的过程。
灵活性 – 企业如今所需要的大数据可能与其在一两年前的需求大不相同。这就是为什么许多企业选择寻找能够满足各种不同目标的工具,而不是很好地执行单一功能的原因。
安全性 - 这些大数据存储中包含的大部分数据都是敏感信息,这对于竞争对手、国家机构或黑客都是非常有价值的。组织需要确保他们的大数据具有足够的保护,以防止成为头条新闻报道的大量数据泄露事件。这意味着组织需要寻找具有内置安全功能(如加密和强身份验证)的工具,或者寻找与现有安全解决方案集成的工具。
支持 - 即使有经验的IT专业人员有时也会发现难以部署、维护和使用复杂的大数据应用程序。不要忘记考虑各供应商提供的支持的质量和成本。
生态系统 - 大多数组织需要多种不同的应用程序来满足他们所有的大数据需求。这意味着要寻找一个大数据平台,与其他许多流行工具以及与其他提供商有强大合作关系的供应商进行整合。
自助服务能力 - 2017年毕马威公司针对组织的CIO调查发现,60%的CIO持续报告指出数据分析人才短缺,而大数据和分析是最需要的技能组合。由于没有足够的数据科学家去解决,组织正在寻找其他商业专业人士可以独立使用的工具。调研机构Gartner公司最近的博客文章指出,通常在一个组织中,大约32%的员工正在使用商业智能和分析。
总体拥有成本 - 大数据应用的前期成本只是其中的一小部分。组织需要确保他们考虑相关硬件成本,正在采用的许可或订购费用、员工时间、支持成本,以及与本地部署应用程序的物理空间相关的任何费用。不要忘记要考虑到云计算成本随着时间的推移普遍下降的事实。
预计价值的时间 - 另一个重要的财务考虑因素是企业能够以多快的速度启动并运行特定的解决方案。大多数公司都希望在几天或几周内,而不是几个月或几年内从他们的大数据项目中受益。
人工智能和机器学习 - 最后,考虑各种大数据应用供应商的创新。人工智能和机器学习的研究正在以惊人的速度发展,并成为大数据分析的主流部分。据Forrester公司预测,“企业在2017年对于人工智能的投资增加了三倍,因为企业需要将客户数据转换为个性化体验。”如果企业选择的供应商在这项研究没有处于行业前沿,那么可能会发现自己落后于竞争对手。
选择大数据应用程序的提示
很明显,选择正确的大数据应用程序是一个复杂的过程,这涉及诸多因素。已成功部署大数据软件的专家和组织提供以下建议:
理解自己的目标–企业在选择大数据应用程序时,需要知道自己想完成什么是至关重要的。如果不确定为什么要投资某项技术,那么其项目不太可能成功。
从小规模开始-如果企业可以通过小规模的大数据分析项目取得成功,那么企业对使用该工具将会产生更多的兴趣。
采取整体方法-尽管小规模项目可以帮助企业获得技术方面的经验和专业知识,但选择最终可用于整个业务的应用程序非常重要。Gartner公司建议:“为了支持无处不在的数据和分析世界,IT专业人员需要创建一个新的端到端体系结构,为敏捷、规模和实验而构建。如今,技术学科正在融合,数据和分析的方法正在变得更加整体化,涵盖整个业务。”
协同工作–Gartner公司的这篇博客文章还指出:“建议数据和分析领导者积极主动地在他们的组织中传播分析,以便从启用数据驱动业务操作中获得最大的收益。”许多组织正试图构建数据驱动文化,这需要业务和IT领导者之间的大量合作。
病毒式传播–前面提到的自助服务功能还可以帮助创建数据驱动的文化。Gartner公司建议:“让分析在企业内部和外部真正发挥作用。通过培养实用的自助服务方法,并通过在交互和流程中的数据摄入点上嵌入分析功能,使更多的业务用户能够执行分析。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22在企业数据分析中,“数据孤岛” 是制约分析深度的核心瓶颈 —— 用户数据散落在注册系统、APP 日志、客服记录中,订单数据分散 ...
2025-10-22在神经网络设计中,“隐藏层个数” 是决定模型能力的关键参数 —— 太少会导致 “欠拟合”(模型无法捕捉复杂数据规律,如用单隐 ...
2025-10-21在特征工程流程中,“单变量筛选” 是承上启下的关键步骤 —— 它通过分析单个特征与目标变量的关联强度,剔除无意义、冗余的特 ...
2025-10-21在数据分析全流程中,“数据读取” 常被误解为 “简单的文件打开”—— 双击 Excel、执行基础 SQL 查询即可完成。但对 CDA(Cert ...
2025-10-21在实际业务数据分析中,我们遇到的大多数数据并非理想的正态分布 —— 电商平台的用户消费金额(少数用户单次消费上万元,多数集 ...
2025-10-20在数字化交互中,用户的每一次操作 —— 从电商平台的 “浏览商品→加入购物车→查看评价→放弃下单”,到内容 APP 的 “点击短 ...
2025-10-20在数据分析的全流程中,“数据采集” 是最基础也最关键的环节 —— 如同烹饪前需备好新鲜食材,若采集的数据不完整、不准确或不 ...
2025-10-20在数据成为新时代“石油”的今天,几乎每个职场人都在焦虑: “为什么别人能用数据驱动决策、升职加薪,而我面对Excel表格却无从 ...
2025-10-18数据清洗是 “数据价值挖掘的前置关卡”—— 其核心目标是 “去除噪声、修正错误、规范格式”,但前提是不破坏数据的真实业务含 ...
2025-10-17在数据汇总分析中,透视表凭借灵活的字段重组能力成为核心工具,但原始透视表仅能呈现数值结果,缺乏对数据背景、异常原因或业务 ...
2025-10-17在企业管理中,“凭经验定策略” 的传统模式正逐渐失效 —— 金融机构靠 “研究员主观判断” 选股可能错失收益,电商靠 “运营拍 ...
2025-10-17在数据库日常操作中,INSERT INTO SELECT是实现 “批量数据迁移” 的核心 SQL 语句 —— 它能直接将一个表(或查询结果集)的数 ...
2025-10-16在机器学习建模中,“参数” 是决定模型效果的关键变量 —— 无论是线性回归的系数、随机森林的树深度,还是神经网络的权重,这 ...
2025-10-16在数字化浪潮中,“数据” 已从 “辅助决策的工具” 升级为 “驱动业务的核心资产”—— 电商平台靠用户行为数据优化推荐算法, ...
2025-10-16在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15