企业构建大数据平台的痛点、思路与解决路径
随着大数据技术的到来,企业会问自己:大数据是否是我的业务问题的正确解决方案,或者它是否为我提供了业务机会?大数据中是否隐藏着业务机会?
CIO在考虑创建大数据平台往往遇到以下问题:
● 如果我使用大数据技术,可能会获得何种洞察和业务价值?
● 它是否可以扩充我 现有的数据仓库?
● 我如何评估扩展当前环境或采用新解决方案的成本?
● 对我现有的IT治理有何影响?
● 我能否以增量方式实现大数据解决方案?
● 我需要掌握哪些具体的技能来理解和分析构建和维护大数据解决方案的需求?
● 我的现有企业数据能否用于提供业务洞察?
● 来自各种来源的数据的复杂性在不断增长。
● 大数据解决方案对我有帮助吗?
● 维度可帮助评估大数据解决方案的可行性?
为了回答这些问题,本文提出了一种依据下图中所示的维度来评估大数据解决方案的可行性的结构化方法。
对于每个维度,我们都给出了一些关键问题。依据业务上下文,为每个维度分配一个权重和优先级。评估会因业务案例和组织的不同而有所不同。
一、通过大数据技术获取何种业务价值?
许多组织想知道,他们寻找的业务洞察能否通过大数据解决方案来解决。然而事实上,没有权威的指南能够用来定义可从大数据获取的洞察。
具体场景需要由组织识别,而且这些场景在不断演变。
在确定和识别在实现后会给企业带来重大价值的业务用例和场景的过程中,数据科学家起着至关重要的作用。数据科学家必须能够理解关键绩效指标,对数据应用统计算法和复杂算法来获得一个用例列表。用例行业和业务不同而有所不同。
研究市场竞争对手的行动、发挥作用的市场力量,以及客户在寻找什么,会很有帮助。下表给出了来自各行各业的用例示例。
潜在的客户正在社交网络和评论站点上生成大量新数据。在企业内,随着客户切换到在线渠道来执行业务和与公司交互,交易数据和 Web 日志与日俱增。
二、确定数据的优先级
首先为企业内存在的数据创建一个清单,识别内部系统和应用程序中存在的数据以及从第三方传入的数据。如果业务问题可使用现有数据解决,那么有可能不需要使用来自外部来源的数据。这个时候,需考虑构建一个大数据解决方案的成本,并权衡它与带给业务部门的新洞察的价值。在有关现有客户的归档数据的上下文中分析此新数据时,业务人员将获得对新业务机会的洞察。
主要满足以下条件,大数据可提供可行的解决方案:
● 从数据中开发的洞察所生成的价值,值得在大数据解决方案中投入的资本成本
●面向客户的场景可证明来自洞察的潜在价值
评估通过大数据解决方案获取的业务价值时,企业还应考虑当前的环境是否可扩展并权衡此投资的成本。
三、我当前的环境能否扩展?
询问以下问题,确定企业能否扩充现有的数据仓库平台?
●当前的数据集是否非常大,是否达到了 TB 或 PB 数量级?
●现有的仓库环境是否包含生成或获取的所有 数据的存储库?
●是否有大量冷数据或人们很少接触的数据未分析,可以通过分析这些数据获得业务洞察?
●您是否需要丢弃数据,因为无法存储或处理它?
●您是否希望能够在复杂且大量的数据上执行数据探索?
●您是否希望能够对非操作数据执行分析?
●您是否有兴趣使用数据执行传统和新类型的分析?
●您是否试图延迟对现有数据仓库的升级?
●您是否在寻求途径降低执行分析的总体成本?
如果任何这些问题的答案是 “是”,那么企业就可以探索扩充现有数据仓库环境的方式。
四、扩展企业当前的环境的成本是多少?
扩展现有数据仓库平台或 IT 环境与实现大数据解决方案的成本和可行性取决于:
●现有工具和技术
●现有系统的可伸缩性
●现有环境的处理能力
●现有平台的存储能力
●执行的治理和策略
●现有 IT 应用程序的异构性
●组织中存在的技术和业务技能
它还依赖于将从新数据来源收集的数据量、业务用例的复杂性、处理的分析复杂性,以及获取数据和拥有恰当技能集的人员的成本。现有的资源池能否开发新的大数据技能,或者是否可从外部雇佣拥有稀缺技能的人员?
值得注意的是,大数据举措会对其他正在实施的项目产生影响。从新的来源获取数据具有很高的成本。您首先应当识别系统和应用程序内部存在的数据,以及目前收到的第三方数据,这一点很重要。如果业务问题可以使用现有数据解决,那么有可能不需要使用来自外部来源的数据。
在生成新工具和应用程序之前,请评估组织的应用程序组合。例如,一个普通的 Hadoop 平台可能无法满足您的需求,您可能必须购买专业的工具。或者相对而言,Hadoop 的商业版本对当前用例而言可能很昂贵,但可能需要用作长期投资来支持一个战略性的大数据平台。考虑大数据工具和技术需要的基础架构、硬件、软件和维护的成本。
五、对现有的 IT 治理有何影响?
在决定是否实现一个大数据平台时,组织可能会查看新数据源和新的数据元素类型,而这些信息当前的所有权尚未明确定义。一些行业制度会约束组织获取和使用的数据。例如,在医疗行业,通过访问患者数据来从中获取洞察是否合法?类似的规则约束着所有行业。除了 IT 治理问题之外,组织的业务流程可能也需要重新定义和修改,让组织能够获取、存储和访问外部数据。
还需考虑以下治理相关问题:
● 安全性和隐私:为了与当地法规一致,解决方案可以访问哪些数据?可以存储哪些数据?哪些数据应在移动过程中加密?静止数据呢?谁可以查看原始数据和洞察?
● 数据的标准化:是否有标准约束数据?数据是否具有专用的格式?是否有部分数据为非标准格式?
● 数据可用的时段:数据在一个允许及时采取操作的时段是否可用?
● 数据的所有权:谁拥有该数据?解决方案是否拥有适当的访问权和权限来使用数据?
● 允许的用法:允许如何使用该数据?
六、企业能否增量地实现大数据解决方案?
大数据解决方案可以采用增量方式实现。明确地定义业务问题的范围,并以可度量的方式设置预期的业务收入提升,这样做会很有帮助。对于基础业务案例,请仔细列出问题的范围和解决方案带来的预期收益。
如果该范围太小,业务收益将无法实现,如果范围太大,获得资金和在恰当的期限内完成项目就会很有挑战性。在项目的第一次迭代中定义核心功能,以便能够轻松地赢得利益相关者的信任。
七、组织是否具备恰当技能的技术人员?
需要特定的技能来理解和分析需求,并维护大数据解决方案。这些技能包括行业知识、领域专长,以及有关大数据工具和技术的技术知识。拥有建模、统计、分析和数学方面的专业经验的数据科学家,是任何大数据举措成功的关键。
在实施一个新的大数据项目之前,确保已安排了合适的人员:
● 是否获得利益相关者和其他愿意投资该项目的业务赞助者的支持?
● 是否拥有熟悉该领域、能分析大量数据、而且能识别从数据生成有意义且有用的洞察的途径的数据科学家?
八、是否拥有可用于获取业务洞察的现有数据?
所有组织都拥有大量未用于获取业务洞察的数据。这些数据包括日志文件、错误文件和来自应用程序的操作数据。不要忽略此数据,它是宝贵信息的潜在来源。
1. 数据复杂性是否在增长?
查找数据复杂性增长的线索,尤其是在数据量、种类、速度和真实性方面。
2. 数据量是否已增长?
如果满足以下条件,企业可以考虑大数据解决方案:
● 数据大小达到 PB 和 EB 级,而且在不久的将来,它们可能增长到 ZB 级别。
● 这一数据量给使用传统方法(比如关系数据库引擎)存储、搜索、共享、分析和可视化数据带来的技术和经济挑战。
3. 数据种类是否已增多?
如果满足以下条件,各种各样的数据可能都需要大数据解决方案:
● 数据内容和结构无法预期或预测。
● 数据格式各不相同,包括结构化、半结构化和非结构化数据。
● 用户和机器能够以任何格式生成数据,例如:Microsoft Word 文件、Microsoft Excel 电子表格、Microsoft PowerPoint 演示文稿、PDF 文件、社交媒体、Web 和软件日志、电子邮件、来自相机的照片和视频、信息感知的移动设备、空中感知技术、基因组和医疗记录。
● 以前没有为了获得洞察而被挖掘的数据来源不断地在产生新的数据类型。
● 领域实体在不同的上下文中具有不同的含义。
4. 数据的速度是否已增长或改变?
考虑您的数据是否:
● 在快速更改,必须立即响应。
● 拥有过多的传统技术和方法,它们不再足以实时处理传入的数据。
5. 您的数据是否值得信赖?
如果满足以下条件,那么请考虑使用大数据解决方案:
● 数据的真实性或准确性未知。
● 数据包含模糊不清的信息。
● 不清楚数据是否完整。
如果数据的量、种类、速度或真实性具有合理的复杂性,那么有可能会适合地采用大数据解决方案。对于更复杂的数据,需要评估与实现大数据解决方案关联的任何风险。对于不太复杂的数据,则应该评估传统的解决方案。
九、是否所有大数据都存在大数据问题?
不是所有大数据情形都需要大数据解决方案,我们需在市场中寻找线索:竞争对手在做什么?哪些市场力量在发挥作用?客户想要什么?
通过根据本文中的问题,确定大数据解决方案是否适合企业自身的业务情形和所需要的业务洞察。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析在当今信息时代发挥着重要作用。单因素方差分析(One-Way ANOVA)是一种关键的统计方法,用于比较三个或更多独立样本组 ...
2025-04-25CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-25在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-24以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《刘静:10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda ...
2025-04-23大咖简介: 刘凯,CDA大咖汇特邀讲师,DAMA中国分会理事,香港金管局特聘数据管理专家,拥有丰富的行业经验。本文将从数据要素 ...
2025-04-22CDA持证人简介 刘伟,美国 NAU 大学计算机信息技术硕士, CDA数据分析师三级持证人,现任职于江苏宝应农商银行数据治理岗。 学 ...
2025-04-21持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03