京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据与云计算相辅相成
大数据的价值开始日益受到重视,人们对数据处理的实时性和有效性的要求也在不断提高。现在对大数据的应用己经不局限于BI(商业智能)领域,在公共服务、科学研究等各方面,大数据也都在发挥着巨大的影响力,而且应用面要宽得多。比如美国国家海洋和大气管理局尝试利用大数据方法协助进行气候、生态系统、天气和商业方面的研究一谷歌流感趋势则使用经过汇总的谷歌搜索数据来估测流感疫情。数据无疑已经成为信息社会日益重要的资源。
大数据的意义并不在于大容量、多样性等特征,而在于我们如何对数据进行管理和分析,以及因此而发掘出的价值。如果在分析处理上缺少相应的技术支撑,大数据的价值将无从谈起。
具体到企业而言,处于大数据时代的经营决策过程已经具备了明显的数据驱动特点,这种特点给企业的IT系统带来的是海量待处理的历史数据、复杂的数学统计和分析模型、数据之间的强关联性以及频繁的数据更新产生的重新评估等挑战。这就要求底层的数据支撑平台具备强大的通讯(数据流动和交换)能力、存储(数据保有)能力以及计算(数据处理)能力,从而保证海量的用户访问、高效的数据采集和处理、多模式数据的准确实时共享以及面对需求变化的快速响应。
传统的处理和分析技术在这些需求面前开始遭遇瓶颈,而云计算的出现,不仅为我们提供了一种挖掘大数据价值使其得以凸显的工具,也使大数据的应用具有了更多可能性。
云计算包含两方面的内容;服务和平台,所以云计算既是商业模式,也是计荞模式。比如美国加州大学伯克利分校在一篇关于云计算的报告中,就认为云计算既指在互联网上以服务形式提供的应用。也指在数据中心里提供这些服务的硬件和软件。
就目前技术发展来看,云计算以数据为中心,以虚拟化技术为手段来整合服务器、存储、网络、应用等在内的各种资源,并利用SOA架构为用户提供安全、可靠、便捷的各种应用数据服务;它完成了系统架构从组件走向层级然后走向资源池的过程,实现IT系统不同平台(硬件、系统和应用)层面的“通用”化,打破物理设备障碍,达到集中管理、动态调配和按需使用的目的。
借助“云”的力量,可以实现对多格式、多模式的大数据的统一管理、高效流通和实时分析,挖掘大数据的价值,发挥大数据的真正意义。
大数据对技术提出高要求
大数据处理首先是获取和记录数据;其次是完成数据的抽取、清洁和标注以及数据的整合、聚集和表达等重要的预处理或处理(取决于实际问题)工作;再次需要一个完整的数据分析步骤,通常包括数据过滤、数据摘要、数据分类或聚类等预处理过权最后进入分析阶段,在这个阶段,各种算法和计算工具会施加到数据上,以求能得到分析者想要看到的或者可以进行解释的结果。
涉及到庞大的数据量,这一整套处理流程在各个不同阶段都会对传统的技术手段提出挑战。比如,海量的网络化设备、海量的在线用户、不间断的网络联接,都在时刻生成大量的、多格式的内容数据和状态信息,这些经由各种客户端(网页、应用或是传感器等)采集而来的信息数据,连同成千上万的访问和操作请求,会以高并发的方式向系统服务器施加压力。
通常为了避免由于服务能力的不足而造成服务请求排队的问题,会来用负载均衡技术将单个服务器的压力进行分摊,大幅提高服务性能;在数据采集时,也会通过在采集端部署大量的数据库来对系统性能提供支撑,然后对采集到的数据(包括各种结构化、非结构化和半结构化数据等)进行数据清理、去重、正规化以及相应的格式转换处理。在按照预定规则进行过滤后,输出到分布式数据存储系统中进行存储,为之后的分析和展示做准备。
在分析阶段,为了完成数据挖掘的目的,通常需要处理海量的历史数据,构建复杂的数学统计和分析模型(比如计算冬天的气温水平对特定厚度的羽绒服销量的影响),并针对大量的结果之间的关联性做出高效正确的处理,同时还要支持数据更新带来的重新评估;而在展示阶段,则应当隐藏诸如数据存储拓扑和数据存储结构等实现细节,对业务应用暴露规范的数据访问接口,对复杂的数据访问需求提供透明支撑,大大减小业务应用的构建难度。
这些复杂的需求对技术实现和底层计算资源提出了高要求。所以,为应对这些复杂的大数据处理工作,需要从服务器、网络、存储、软件等各个环节构建一个兼具高可用性和高可靠性的系统环境,提供端到端的全面解决方案。
大数据与云计算相辅相成
传统的单机处理模式不但成本越来越高,而且不易扩展,并且随着数据量的递增、数据处理复杂度的增加,相应的性能和扩展瓶颈将会越来越大。在这种情况下,云计算所具备的弹性伸缩和动态调配、资源的虚拟化和系统的透明性、支持多租户、支持按量计费或按需使用,以及绿色节能等基本要素正好契合了新型大数据处理技术的需求;而以云计算为典型代表的新一代计算模式,以及云计算平台这种支撑一切上层应用服务的底层基础架构,以其高可靠性、更强的处理能力和更大的存储空间、可平滑迁移、可弹性伸缩、对用户的透明性以及可统一管理和调度等特性,正在成为解决大数据问题的未来计算技术发展的重要方向。
基于云计算技术构建的大数据平台,能够提供聚合大规模分布式系统中离散的通讯、存储和处理能力,并以灵活、可靠、透明的形式提供给上层平台和应用。它同时还提供针对海量多格式、多模式数据的跨系统、跨平台、跨应用的统一管理手段和高可用、敏捷响应的机制体系来支持快速变化的功能目标、系统环境和应用配置。
比如在基于云计算平台而构建的新型企业信息系统中,在以分布式集群技术构建高性能、高延展的存储平台之后,我们可以实现对不同业务应用中不同格式、不同访问模式的海量数据的统一存储,相关的数据分析系统则构建于分布式工作流和调度系统框架之上,采用分布式计算手段面向多模式海量数据提供数据的转换、关联、提取、聚合和数据挖掘等功能。在企业信息系统中经常提到的BI的具体业务功能,比如决策支撑、销售预测等,就可以由上层业务应用通过调用数据分析系统所提供的功能附加业务逻辑来实现。
云计算使大数据应用成为可能;没有云计算的出现,大数据将仍是空中楼阁,缺乏根基和落地可能。借助云计算技术,可以提高系统整体的弹性和灵活性,降低管理成本和风险,并且改进应用服务的可用性和可靠性;云计算不仅为大数据处理打造一个高效、可靠的系统环境,而且充分发挥云计算平台的优势,为大数据应用找到更多样化的出口。
如果说大数据是一座蕴含巨大价值的矿藏,云计算则可以被看作是采矿作业的得力工具;没有云计算的处理能力,大数据的信息沉淀再丰富,或许也只能望洋兴叹,入宝山而空手回;但从另外的角度说,云计算也是为了解决大数据等“大”问题发展而来的技术趋势,没有大数据的信息沉淀,云计算的功用将得不到完全发挥。因此,从整体上看,大数据与云计算是相辅相成的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】大数据、零售商、消费者、供应链、运营、企业、产品、客户、数据模型、大数据平台、数据开发、系统运维、业务逻 ...
2026-06-26在物流配送、供应链履约、终端供货等业务场景中,送货率是衡量企业履约能力、服务质量、供应链稳定性的核心业务指标,直接关联客 ...
2026-06-26 很多数据分析师精通描述性统计,能熟练计算均值、中位数、标准差,但当被问到“用500个样本如何推断10万用户的真实满意度” ...
2026-06-26在数字化管理与数据化运营体系中,指标是连接原始数据与业务决策的核心载体。零散的原始数据只是无意义的数值堆砌,无法直接反映 ...
2026-06-25在Excel数据汇总、财务统计、业务复盘等日常办公场景中,经常需要完成逐行相乘、整体汇总求和的计算需求,最典型的场景就是:单 ...
2026-06-25 很多数据分析师沉迷于复杂的机器学习算法,却忽略了数据分析最基础也最核心的能力——描述性统计。事实上,80%的商业分析问 ...
2026-06-25【核心关键词】主数据、资产、供应商、现金流、企业、精细化、集团、数字化、中国、数据质量、数据管理、经营管理、地产行业、 ...
2026-06-24在数据分析、假设检验、AB测试、学术研究等统计场景中,显著水平(α)与P值(P-value)是判断统计结果是否具有统计学意义的两个 ...
2026-06-24小李刚入职了一家互联网公司的运营部门。第一次参加业务复盘会,运营主管问了一个看似简单的问题:“这个月新用户留存率下降了5 ...
2026-06-24在数字化转型全面渗透的产业背景下,数据分析已成为互联网、金融、零售、制造等几乎所有行业的核心岗位能力。很多初学者对数据分 ...
2026-06-23在企业并购、股权定价、投融资评估、资产核算等资本市场核心场景中,市场法是应用最广泛、市场认可度最高的企业价值评估方法。传 ...
2026-06-23 许多数据分析师精通Excel函数和SQL查询,但当面对一张上万行的销售明细表,要快速回答“哪个地区销量最高”“哪款产品增长最 ...
2026-06-23【核心关键词】运营、证书、金融、客户、产品、软件、销售额、量化、科技、数据分析、金融行业、证券类软件、业务流程、金融机 ...
2026-06-22在企业方案选型、产品迭代评审、供应商筛选、运营效果复盘等决策场景中,单一指标的优劣判断往往无法支撑科学决策。一套转化效果 ...
2026-06-22 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-06-22【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17