京公网安备 11010802034615号
经营许可证编号:京B2-20210330
闲话大数据--大数据的分析技术_数据分析师
如果你还没有意识到21世纪信息爆炸的速度是何等的惊人,以下事实应该能让你有一个大致的概念:
·现在《纽约时报》一周的信息量比18世纪一个人一生所收到的资讯总量更大
·现在全世界18个月产生的信息比过去5000年的信息总和更多
·现在一部苹果手机的计算能力,已经超出人类发射第一枚人造卫星时用到的所有计算机计算能力的总和
类似的事实还有很多,在此不一一列举。但值得注意的是,信息的爆炸速度固然惊人,但如果没有对这些信息加以利用和分析,并得出对我们有意义的结论,爆炸和不爆炸就没有任何区别。为了让它们从没意义变得有意义,一个概念应运而生,那就是现今越来越流行的一个词汇:大数据(BigData)
什么是大数据?
什么是大数据?要了解这个问题,我们首先要了解:什么是数据?
广义上,对于任何事物、任何现象,以任何方式记录下来的信息,都可以称作数据(Data)。严格来说,人类从第一次在石头上刻录符号的那一天开始,就进入了数据时代。数据,本质上就是记录下来的信息。毫不夸张的说,任何事物或现象都可以被量化,或者说被数据化,换言之,在数据科学家看来,世间万事万物皆数据。而大数据,正是这一信条的坚定追随者。
一般来说,任何与大数据有关的概念,都需要在一定程度上和以下的四个V产生联系:
·Volume(容量)
·Velocity(速率)
·Variety(多样性)
·Value(价值)
这四个V,定义了数据的四个维度。而有关数据的一切活动,包括获取、记录、挖掘、分析、整合等等,在这四个维度上的拓展和延伸,都可称作是大数据行为。下面,我们分别来看看这四个V是如何在实际生活中发挥作用的。
1. Volume(容量)
提到大数据,人们最容易想到的就是“大量的数据”。虽然这样的“成见”被各路专家诟病已久,但不得不承认的是,大量的数据的确是人们进行精确量化分析的基 础。单个的数据意义不大,但大量的数据累加,就会产生重大的意义。好比在零售业,一个顾客的购买偏好不是那么重要,但一万个顾客的购买偏好就会对决策者产 生重大的影响,而一亿个顾客的偏好足以重新定义市场。从哲学上说,这就是量变到质变的转化。
关于“大容量数据”,一个有名的例子是Google于2008年推出的Google流感预测趋势(Google Flu Trends, 简称GFT)。GFT来自一个很简单的想法:在流感爆发的季节,人们在Google上搜寻流感防治相关资讯的比例会增加。通过分析海量的关键字(比如“咳嗽”、“发烧”等)搜寻记录,可准确且快速的预测流感将在哪些地区出现,以及对应的传播范围。
再比如,2014年,美国旧金山附近发生了一场6.0级的地震,地震发生时间大约是凌晨的3点20分。 第二天,有一个可穿戴式设备的制造商发布了一组大数据,他们发现通过他们的可穿戴式设备他们可以知道在地震的时候有多少人醒了,多少人翻身,并且可以明显 的看到随着离震源的距离不断变大,醒来和翻身的人数逐渐减少。在科学家看来,这件事情具有划时代的意义,因为这是人类历史上第一次能够宣称说有一天晚上我 们知道这个地区有多少人处于深度睡眠,有多少人处于浅度睡眠,有多少人醒来,并且是在什么时刻醒来,又有多少人过了多久再次睡着。如果你对数据分析有着敏 锐的嗅觉,你会发现这是一件很恐怖的事情。为什么?因为单单是这样的睡眠数据就已经能够解释太多问题了!比如,为什么第二天这个地区的交通事故增加?为什 么药店的某种药物销量剧增?为什么购买暖色服装的人数减少?为什么某个电视频道变得更受欢迎?…..心理学家或者社会学家还能用这些数据解释更多的问题,这是在十年之前不能想象的事情。
在上面这个故事中,我们不妨想想,假如是你,你为什么要戴上可穿戴式设备?你是为了收集你个人的睡眠数据,用以监控你的健康状况。然而,当有千万个和你一样 的人在做同样事情的时候,这些数据汇集到一起,能解释的事情就远超个人本身了。这叫做数据的外部性。换言之,数据的作用超出了最初收集它的目的。本来这些 数据是为个人健康服务,但事实上一旦容量足够大,它就可以在更高的层次上解释更宏观的事情。通过在不同层次上的应用,数据的作用和价值被层层放大,这就是 大容量(Volume)数据的优势。
2. Velocity(速率)
大数据的高速率特性,主要体现在数据的生成、采集和分析上。在传统的数据分析领域,数据从采集、处理到分析,要经过一段较长的时间。而在高速率的数据环境下,由于每时每刻都有大量数据产生,我们必须对数据进行实时的收集和分析,以免造成数据的流失。
还是看看Google(没办法,这是大数据分析的龙头老大)。Google地图里包含了实时路况分析功能,可以实时判断某一路段车流大小,从而为道路使用者提供最优化的交通方案。这一功能的实现,就是基于高速率数据采集与分析的技术。比如在某个路段内,Google通过带GPS功能的手机以及其他移动设备匿名收集信息,当你允许Google Maps获取你的地址时,手机会上传你移动的速度到服务器。这些移动设备会向Google的分析中心提供实时的数据,而分析中心可以利用这些数据快速推算出该路段的拥堵状况,从而实现实时路况分析。
之前提到过的Google流感预测也是一个很好的例子。Google挑选美国九个区域进行流感预测趋势的测试,发现这个技术可以比美国联邦疾病预防与控制中心提前一到两周准确预测流感的爆发。因为传统的流感监测系统要用7到14天来收集和发布监测数据,而Google对关键词搜索数据的分析可以在极短的时间内自动完成。根据Google的软件工程师的评估,这个流感预测趋势可以为流感的爆发提供一个早期的预警系统。
根据以往的资料,Google流感预测趋势的分析结果与美国联邦疾病预防与控制中心公布的结果十分相似(见图,蓝色代表Google的结果,黄色代表联邦疾病防控中心的结果)。另外,这套预测系统在其他国家也有不俗的表现。
3. Variety(多样性)
数 据的多样性,主要体现在两个方面:一是数据的来源多样,二是数据的形式多样。拿卫生保健数据举例,大致有药理学科研数据,临床数据,个人行为和情感数据, 就诊索赔记录和开销数据四类,而每一类数据的形式也千差万别(比如临床数据就包括病历的文本数据,医患的电子邮件记录,电话记录,医学仪器诊疗结果等 等)。而对于不同来源、不同形式的数据加以挖掘和整合,是让Variety产生价值的关键。
例如,北京市交通智能化分析平台数据源来自路网摄像头/传感器、地面公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业,还有问卷调查和GIS数据。这些数据从Volume和Velocity上也达到了大数据的规模:4万辆浮动车每天产生2000万条记录,交通卡刷卡记录每天1900万条,手机定位数据每天1800万条,出租车运营数据每天100万条,高速ETC数据每天50万条,针对8万户家庭的定期调查,等等。分析这类数据的重点,在于发掘这些形态各异、快慢不一的数据流之间的相关性。甚至,交通数据与其它领域的数据也存在较强的相关性。有研究发现,可以从供水系统的数据中发现晨洗的高峰时间,加上一个偏移量(通常是滞后40-45分钟)就是交通早高峰时间。同样,可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量来估计出晚上的堵车时点。之前提到的交通事故率与睡眠质量的关联,也是同一个道理。
在疾病防控领域,处理多样性数据往往会带来理想的结果。流行病的发生和传播有一定的规律性,与气温变化、环境指数、人口流动等因素密切相关,如果在数据的获取和分析中把这些因素全部考虑进去,其可靠性会比单单分析关键词搜索数据更高。和Google的GFT相比,百度的疾病预测考虑得更加周全。在关键词搜索数据的基础上,百度把微博、天气、人群迁徙、用户属性、地面环境、甚至航班起降等数据一并加入预测模型。此外,Google用的数据依赖于Google Correlation产品,而百度则是直接从原始日志中进行清洗、消岐、扩展和分析,在数据上做得更加细致,也由此可以提供更加有效的判断。
4. Value(价值)
值得注意的是,传统意义上对于大数据的理解并不包含Value。大数据分析在它的初始阶段仅仅着重于前三个V, 数据科学家们也往往只专注于数据处理的技术,却忘了用它创造价值。然而随着大数据的概念在企业中变得越来越普及,数据背后所蕴含的价值越来越受到决策者的 重视。无论任何形式的数据,如果不能为企业(或者其拥有者)带来价值,那么它对于决策者而言是没有任何意义的。反之,无论任何形式的数据,只要能创造价 值,决策者就应该加以利用和分析,即使它的容量、多样性和速度并不是十分理想。
举例来说,许多服装的零售商开始尝试一种新的数据记录与分析的方法,来提高他们的利润。他们在每件服装上都安装了一个射频识别码(RFID), 只要有顾客将衣服拿进试衣间,这个识别码就会被记录下来并传送至公司总部的数据库。换言之,每一件服装,在什么国家什么城市的哪个分店,在什么时间被顾客 带到试衣间,停留了多长时间,都被系统毫无遗漏的记录下来并加以分析。不要小看这些“试衣间数据”,它们背后的价值不可限量。比如说,假设公司总部发现某 种服装销量很低,这种产品通常会被停止生产。但如果“试衣间数据”显示这种服装虽然销量低,但被顾客带进试衣间的次数多、时间长,那就说明它具有相当的吸 引力,决策者也就不会简单粗暴的让该产品下架,因为或许一点小小的改变就可以让它的销量飙升。
小结
人类社会的今天,在种类繁多的领域里,每天都有海量数据以惊人的速率产生。而对这些数据的获取、记录、挖掘、分析与整合,使之产生巨大的价值,这就是大数据的概念。在大数据这片浩瀚的海洋里,人们驾着一叶扁舟该何去何从,这需要大数据分析技术(Big Data Analytics)加以引导。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标是所有企业都需要的”“哪些指标是因行业而异的”“北极星指标和 ...
2026-04-23在数字化时代,客户每一次点击、浏览、下单、咨询等行为,都在传递其潜在需求与决策倾向——这些按时间顺序串联的行为轨迹,构成 ...
2026-04-22数据是数据分析、建模与业务决策的核心基石,而“数据清洗”作为数据预处理的核心环节,是打通数据从“原始杂乱”到“干净可用” ...
2026-04-22