京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据真是“大”吗? 并不见得
数据并不只是因为成为了“大数据”才有了价值,“小数据”就没有价值吗?而是只要是数据都是有价值的。
大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯(见百度百科)。业界将其归纳为4“V”—Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实性)。大数据的“大”,目前应该是指与计算机为代表的信息设备诞生以来这70年所产生的信息数据相比是“大”了,即与历史产生的信息数据相比是“巨量”了。但若我们将其放在纵、横两个维度上去比,大数据还“大”吗?
从数据产生的过程看。目前的大数据(从TB级别,跃升到了PB级别)与以往的MB、GB级别相比确实大了,但与未来的EB、ZB级别相比还只能称之为“小数据”。从数据以外方面看。首先与同为IT概念的IP地址的IPv6相比,即使目前定义数据量最大计量单位DB,与其相比还差近2个级别。再与信息(在此信息即为数据,下同)共同构成世界的物质、能量三要素的其他二要素物质、能量相比,地球的质量约为5.98×1027克,世界探明煤炭资源可采储量约为9.84×1017克,10TB大约等于一个人脑的存储量,全球70亿人的脑存储量约为6.52×270Byte,相对应来看目前所说的大数据也并不“大”。但我们也还没有称IPv6为“大IP地址”,没有称物质、能量为“大物质”、“大能量”等等。
在物质世界有“大”就有“小”,如物质就计量单位从小到大有克、十克、百克、千克……,从大到小有克、分克、厘克、毫克……。而数据,目前计量单位只能从小到大有bit、Byte、KB、MB……,但却不能从大到小。而我们知道数据计量单位每缩小一个级别,则数据量就可增加1024即210倍。
物质有限可分还是无限可分虽然还将争论下去,但就当今理论和实践的发展看物质是可分的,就物质的计量单位而言是具有双向性的(能大能小)。而数据似乎是不可分的,就数据的计量单位而言似乎是单向性的(只能大)。
若将物质资源的计量单位定为“克”,则煤炭储量的数值可与数据资源数值的EB对应;而若将物质资源的计量单位定为“毫克”,则煤炭储量的数值就可与数据资源数值的ZB对应。就当今理论和实践的发展看物质是可分的,则物质资源的数值相较数据资源就计量单位而言似乎是无限大的,数据资源的“大”就更待商榷了。
人类利用物质和能量资源的过程是:自然产生物质和能量资源(软件),人类发明工具开发物质和能量资源(硬件),人类改进工艺利用物质和能量资源。即先有物质和能量资源,再有开发物质和能量资源的硬、软件工具。
而人类利用数据资源的过程是:人类发明了计算机等信息设备来承载数据资源(硬件),人类设计了软件来处理数据资源(软件),数据才向人类展现出其资源的特性(资源)。即先有了开发数据资源的硬、软件工具,再有数据资源。
物质和能量资源的产生经过了亿万年自然的进化,其产生与人类没有关系,即不已人类的意志而转移。而数据资源的产生只有短短的几十年时间(该数据资源是指计算机诞生以后产生的信息数据资源),其产生与人类有直接关系,即其会随着人类的意志而转移。这种根本性的不同,对人类意味着什么?目前我们不得而知。物质不灭定律(又称“质量守恒定律”)告诉我们“物质虽然能够变化,但不能消灭或凭空产生”。数据是否也是不灭的,数据又将如何变化呢?这些,我们都是无法回答的。
目前,“大数据”的核心只是改变了人类以前的理解,即承载数据的硬件有价值,处理数据的软件有价值,而数据本身却不具有价值。由此,呈现了数据本身也是具有价值这一理念。
“大数据”一词,目前还只是IT界自说自话的技术术语,并没有体现出其价值所在,百姓并不明白它有什么用处。其实还不如称“大数据”为“数据资源”或“资源数据”。以突出“资源”一词所蕴含的价值,以体现数据的资源特性。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09