京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据的简单介绍_大数据
一、大数据的定义和特征
1.大数据的定义
对于大数据还没有一个正式的定义,目前最为普遍的定义就是“用传统方法或工具不能处理或分析的数据”。不同的定义基本是从大数据的特征出发通过这些特征的阐述和归纳试图给出其定义。在这些定义中比较有代表性的是3V定义,即认为大数据需满足3个特点:规模性(volume)多样性(variety)和高速性(velocity)。除此之外还有提出4V定义的,即尝试在3V的基础上增加一个新的特性。关于第4个V的说法并不统一,国际数据公司(International Data Corporation, IDC)认为大数据还应当具有价值性(value),大数据的价值往往呈现出稀疏性的特点。而IBM认为大数据必然具有真实性(veracity)。维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。
2.大数据的特征
3V认为大数据具有规模性、高速性和多样性三大特征,这些特征是传统数据处理方法和工具所无法胜任的。
2.1规模性(Volume)是指数据量非常庞大,主要体现在数据存储量大和计算量大。根据IDC《数字宇宙膨胀:到2010年全球信息增长预测》中统计的数据,2006年全球每年制造、复制出的数字信息量共计16.1万PB,当年信息产生量大约是历史上图书信息总量的3000倍;至2010年,数字信息总量达98.8万PB。专家指出,2020年年度数据将增加43倍。因此,大数据中的数据不再以几个GB或几个TB为单位来衡量,而是以PB(1千个T)、EB(1百万个T)或ZB(10亿个T)为计量单位。
2.2高速性(Velocity)一方面是指数据在不断更新,增长的速度快,另一方面是指数据存储、传输等处理速度很快。短短60秒,YouTube用户会上传48小时的视频;Google会收到200万次搜索请求并极快地返回结果;Twitter要处理100万条Tweets信息;网购产生27.2万美元的交易;App Store有4.7万次下载;全球新增网页571个。数据处理的速度也要求越来越快,甚至是实时处理,比如灾难的预测,需很快的对灾难发生的程度、影响的区域范围等进行量化。如日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。
2.3多样性(Variety)指数据包含结构化的数据表和半结构化、非结构化的文本、视频、图像等信息,而且数据之间的交互非常频繁和广泛。
具体包括三个方面:
一是数据来源多,企业所面对的传统数据主要是交易数据,而互联网和物联网的发展,带来了诸如微博、社交网站、传感器等多种来源。
二是数据类型多,并且以非结构化数据为主。传统的企业中,数据都是以表格的形式保存。而大数据中70%-85%的数据是如图片、音频、视频网络日志、链接信息等非结构化和半结构化的数据。
三是数据之间关联性强,频繁交互。如游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有了很强的关联性。
二、传统数据库和大数据的比较
1.最基本的区别在于数据规模、数据类型、产生模式。
2.处理对象的变化。传统的数据库中数据仅作为处理对象,而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题。
3.处理工具的改变。从以计算为中心转变到以数据处理为中心。
三、大数据的处理模式
大数据的应用类型有很多主要的处理模式可分为流处理(stream processing)和批处理(batch processing)两种。批处理是先存储后处理(store-then-process),而流处理则是直接处理(right-through processing)。
1.大数据流处理
流处理的基本理念是数据的价值会随着时间的流逝而不断减少,因此尽可能快地对最新的数据作出分析并给出结果是所有流数据处理模式的共同目标。需要采用流数据处理的大数据应用场景主要有网页点击数的实时统计、传感器网络、金融中的高频交易等。
流处理的处理模式将数据视为流,源源不断的数据组成了数据流。当新的数据到来时就立刻处理并返回所需的结果。
快且规模巨大等特点,因此通常不会对所有的数据进行永久化存储,而且数据环境处在不断的变化之中,系统很难准确掌握整个数据的全貌。
由于响应时间的要求,流处理的过程基本在内存中完成,其处理方式更多地依赖于在内存中设计巧妙的概要数据结构(synopsis data structure),内存容量是限制流处理模型的一个主要瓶颈。以PCM(相变存储器)为代表的储存级内存(storage class memory, SCM)设备的出现或许可以使内存未来不再成为流处理模型的制约。
数据流的理论数据的实时处理是一个很有挑战性的工作,数据流本身具有持续达到,速度及技术研究已经有十几年的历史,目前仍旧是研究热点。与此同时很多实际系统也已开发和得到广泛的应用,比较代表性的开源系统如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka22等.
2.大数据批处理
Google公司在2004年提出的MapReduce编程模型是最具代表性的批处理模式。
MapReduce模型首先将用户的原始数据源进行分块,然后分别交给不同的Map任务区处理。Map任务从输入中解析出健/值(Key/Value)对集合,然后对这些集合执行用户自行定义的Map函数得到中间结果,并将该结果写入本地硬盘。Reduce任务从硬盘上读取数据之后会根据Key值进行排序,将具有相同Key值的组织在一起。最后用户自定义的Reduce函数会作用于这些排好序的结果并输出最终结果。
从MapReduce的处理过程我们可以看出MapReduce的核心设计思想在于:
a)将问题分而治之
b)把计算推到数据而不是把数据推到计算,有效地避免数据传输过程中产生的大量通信开销。
MapReduce模型简单,且现实中很多问题都可用MapReduce模型来表示。因此该模型公开后立刻受到极大的关注,并在生物信息学、文本挖掘等领域得到广泛的应用。
无论是流处理还是批处理都是大数据处理的可行思路。大数据的应用类型很多,在实际的大数据处理中?常常并不是简单地只使用其中的某一种而是将二者结合起来。互联网是大数据最重要的来源之一,很多互联网公司根据处理时间的要求将自己的业务划分为在线(online)、近线(nearline)和离线(offline),比如著名的职业社交网站Linkedin的划分方式是按处理所耗时间来划分的。其中在线的处理时间一般在秒级甚至是毫秒级,因此通常采用上面所说的流处理。离线的处理时间可以以天为基本单位,基本采用批处理方式,这种方式可以最大限度地利用系统I/O。近线的处理时间一般在分钟级或者是小时级,对其处理模型并没有特别的要求,可以根据需求灵活选择,但在实际中多采用批处理模式。
3.大数据的基本处理流程
"数据分析师"整个大数据的处理流程可以定义为在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准统一存储。数据分析师利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。具体来说可以分为数据抽取与集成,数据分析以及数据解释。
四、大数据与云计算的关系
1.相同点。它们都是为数据存储和处理服务的,都需要占用大量的存储和计算资源,而且大数据用到的海量数据存储技术、海量数据管理技术、MapReduce等并行处理技术也都是云计算的关键技术。
2.不同点。
2.1云计算的目的是通过互联网更好地调用、扩展和管理计算及存储资源和能力,以节省企业的IT部署成本,其处理对象是IT资源、处理能力和各种应用。云计算从根本上改变了企业的IT架构,产业发展的主要推动力量是存储及计算设备的生产厂商和拥有计算及存储资源的企业。
2.2大数据的目的是充分挖掘海量数据中的信息,发现数据中的价值,其处理对象是各种数据。大数据使得企业从“业务驱动”转变为“数据驱动”,从而改变了企业的业务架构,其直接受益者不是?IT?部门,而是业务部门或企业CEO,产业发展的主要推动力量是从事数据存储与处理的软件厂商和拥有大量数据的企业。
因此,不难发现云计算和大数据实际上是工具与用途的关系,即云计算为大数据提供了有力的工具和途径,大数据"数据分析师"为云计算提供了很有价值的用武之地。而且,从所使用的技术来看,大数据可以理解为云计算的延伸。
大数据若与云计算相结合,将相得益彰,互相都能发挥最大的优势。云计算能为大数据提供强大的存储和计算能力,更加迅速地处理大数据的丰富信息,并更方便地提供服务;而来自大数据的业务需求,能为云计算的落地找到更多更好的实际应用。当然大数据的出现也使得云计算会面临新的考验。数据分析师培训
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【专访摘要】本次CDA持证专访邀请到拥有丰富物流供应链数据分析经验的赖尧,他结合自身在京东、华莱士、兰格赛等企业的从业经历 ...
2026-05-12在手游行业存量竞争日趋激烈、流量成本持续高企的当下,“拉新”早已不是行业核心痛点,“留存”尤其是“付费留存”,成为决定手 ...
2026-05-12 很多数据分析师掌握了Excel函数、会写SQL查询,但当被问到“数据从哪里来”“数据加工有哪些步骤”“如何使用分析工具连接数 ...
2026-05-12用户调研是企业洞察客户需求、优化产品服务、制定运营策略的核心前提,而调研数据的可靠性,直接决定了决策的科学性与有效性。在 ...
2026-05-11在市场竞争日趋激烈、流量成本持续攀升的今天,企业的核心竞争力已从“获取流量”转向“挖掘客户价值”。客户作为企业最宝贵的资 ...
2026-05-11 很多数据分析师精通Excel单元格操作,熟练应用多种公式,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质 ...
2026-05-11在互联网运营、产品优化、用户增长等领域,次日留存率是衡量产品价值、用户粘性与运营效果的核心指标,更是判断新用户是否认可产 ...
2026-05-09相关性分析是数据分析领域中用于探究两个或多个变量之间关联强度与方向的核心方法,广泛应用于科研探索、商业决策、医疗研究、社 ...
2026-05-09 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-05-09在数据驱动运营的时代,指标是连接业务目标与实际行动的核心桥梁,是企业解读业务现状、发现问题、预判趋势的“量化标尺”。一套 ...
2026-05-08在存量竞争日趋激烈的商业时代,“以客户为中心”早已从口号落地为企业运营的核心逻辑。而客户画像作为打通“了解客户”与“服务 ...
2026-05-08 很多数据分析师每天与Excel打交道,但当被问到“什么是表格结构数据”“它和表结构数据有什么区别”“表格结构数据有哪些核 ...
2026-05-08在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07在数据分析、计量研究等场景中,回归分析是探究变量间量化关系的核心方法,无论是简单的一元线性回归,还是复杂的多元线性回归、 ...
2026-05-07 很多数据分析师画过趋势图、做过业绩预测,但当被问到“这个月销售额增长20%,到底是长期趋势自然增长,还是促销活动的短期 ...
2026-05-07在数字化时代,商业竞争的核心已从“经验驱动”转向“数据驱动”,越来越多的企业意识到,商业分析不是简单的数据统计与报表呈现 ...
2026-05-06在Excel数据透视表的实操中,“引用”是连接透视表与公式、辅助数据的核心操作,而相对引用作为最基础、最常用的引用方式,其设 ...
2026-05-06 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-05-06在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30