京公网安备 11010802034615号
经营许可证编号:京B2-20210330
如何正确看待大数据与云计算技术
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。
DT时代,未来已来——数据“大爆炸”
首先要明白大家为何从前几年开始谈大数据了?这是一个基本问题,包含着对当下数据现实的基本认识。一个不可忽视的事实是,随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。
数据“大爆炸”
对于如此巨量数据(而且单纯的增量数据都是一个巨量),与之相关的存储、分析、流转、使用到交易等等环节产生了一系列关联的问题,而在当下的时间节点,我们不得不明确面对,而不仅仅是先找个地方把数据存起来。
国家信息中心专家委员会主任宁家骏表示:大数据是指无法在一定时间内使用传统数据库软件工具对其内容进行抓取、管理和处理的数据集。大数据不仅仅是大,还有它的复杂性和沙里淘金的重要性。
以上是宁家骏从技术分析角度对数据与大数据做的区分,传统软件处理的数量主要是结构化数据,而且数量上相对小。当规模大到需要新的技术方案的时候,那正是我们重新认识它的时候。
在笔者看来,大数据有两大特点,一是数据来源多源,包括各种结构化数据和非结构化数据,如网络日志、视频、图片、地理位置信息等等,同时数量相对巨大,大数据中的‘大’本身就是一个相对的概念;二是数据处于“on line”即在线的状态,能够随时被吸取和关联,并进行分析。
一般来讲,更多智能硬件和这能设备的加入,更多数据实时产生,于是就需要大数据技术来实现对数据信息的价值挖掘。大数据技术包括了数据采集,数据存取,基础架构,数据处理,统计分析,数据挖掘,模型预测,结果呈现等八个方面。
而以上几个方面都离不开云平台和云计算能力,比如说数据采集之后的数据存储,现在很多非核心敏感数据都可以存储在云端;数据挖掘也是需要通过云计算和机器学习才能实现。那什么才是云计算呢?
云计算——低成本部署、随需使用的计算大脑
所谓云计算,非常教科书的说法是“能通过网络访问可扩展的、灵活的、可共享的物理或虚拟资源池,并按需自助获取和管理这些资源的模式。其中资源实例包括服务器、操作系统、网络、软件、应用和存储设备等。 ”
从以上概念可以看出其包括软件、硬件等资源,简单说云计算有三层云平台,第一个是Iaas(Infrastructure as a Service),基础设施即服务,以前这些资源都是企业固有资源,现在可以不再拥有,通过平台服务商提供,减轻部署成本;
第二个是Paas(Platform as a service),平台即服务,开放式的API可以由合作方提供行业和内容的服务;
第三个是SaaS(Software as a service),软件即服务。比如我们经常使用的手机APP等;
云计算有一个很重要的特点和优势就是资源池化,就是把Iaas,Paas,Saas层的资源(CPU、存储、网络等)放入到资源池中(云服务器),由云服务器进行集中管理。云计算里所有的服务都是通过资源池里的资源而提供的。
我们已经进入了新一轮技术驱动的时代
那如何理解大数据与云计算的关系?
在中国计算机学会大数据专家委员会副主任车品觉看来:人工智能、深度学习,这些都是二十年前就有的技术,但是二十年前没有大数据,没有可以关联的数据。所以大数据的故事从有了关联才真正开始。
那如何应用大数据?车品觉表示:首先要了解数据的生命周期。“布点”、“收集”、“存储”,这些是前端,之后需要对数据做“识别”、“关联”、“分析”。还有一个能把整个过程包起来的,就是“实时刷新”。这就是数据的生命周期,它是一个闭环。不管你怎么使用大数据,你首先要了解这个周期。
阿里巴巴集团首席技术官王坚在一次小型论坛上分享到:“云计算是工业时代的电,大数据就是福特生产线,云存储就是钢铁工业。也就是说,没有钢铁,就没有电,就不会有大规模工业化生产。没有云计算,大数据不会出来,如果云计算没有解决云存储的问题,也不会出来。”
如果简单来讲,我们可以通过一个图来进行标识:
中国科学院院士、西安交通大学教授徐宗本在刚刚结束的工业大数据大会·钱塘峰会上介绍,大数据是新一代信息技术的基础性技术,被普遍认为是继互联网之后,能对全球社会、经济、工业产生重大影响的技术。
面对一股面向大数据的市场狂热,徐院士讲到两点基本观点:
第一,我不认为大数据对近一两年GDP的贡献有那么大,但肯定的说对于三年、五年之后的GDP贡献巨大。换句话说,只有沉得下心,愿意扎扎实实打好基础的政府和企业,才能从大数据技术上获益。
第二,大数据技术并不是已经成熟的技术,是一个正在从应用中逐渐走向成熟的技术,目前的挑战多于成熟。
所以,要从整体视角来观察大数据和云计算,而不能因为其中一个而偏废其他,总体来讲,大数据技术与云计算都是很有效的工具手段,有待人们去不断挖掘。
我们用丛龙峰博士的话来作结:“历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的泡沫;中期又会低估它的影响,觉得不过是些概念而已;当你觉得它是概念的时候,它已经开始生根发芽,开始茁壮成长。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,商业竞争的核心已从“经验驱动”转向“数据驱动”,越来越多的企业意识到,商业分析不是简单的数据统计与报表呈现 ...
2026-05-06在Excel数据透视表的实操中,“引用”是连接透视表与公式、辅助数据的核心操作,而相对引用作为最基础、最常用的引用方式,其设 ...
2026-05-06 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-05-06在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23