
闲话大数据--大数据的分析技术_数据分析师
如果你还没有意识到21世纪信息爆炸的速度是何等的惊人,以下事实应该能让你有一个大致的概念:
·现在《纽约时报》一周的信息量比18世纪一个人一生所收到的资讯总量更大
·现在全世界18个月产生的信息比过去5000年的信息总和更多
·现在一部苹果手机的计算能力,已经超出人类发射第一枚人造卫星时用到的所有计算机计算能力的总和
类似的事实还有很多,在此不一一列举。但值得注意的是,信息的爆炸速度固然惊人,但如果没有对这些信息加以利用和分析,并得出对我们有意义的结论,爆炸和不爆炸就没有任何区别。为了让它们从没意义变得有意义,一个概念应运而生,那就是现今越来越流行的一个词汇:大数据(BigData)
什么是大数据?
什么是大数据?要了解这个问题,我们首先要了解:什么是数据?
广义上,对于任何事物、任何现象,以任何方式记录下来的信息,都可以称作数据(Data)。严格来说,人类从第一次在石头上刻录符号的那一天开始,就进入了数据时代。数据,本质上就是记录下来的信息。毫不夸张的说,任何事物或现象都可以被量化,或者说被数据化,换言之,在数据科学家看来,世间万事万物皆数据。而大数据,正是这一信条的坚定追随者。
一般来说,任何与大数据有关的概念,都需要在一定程度上和以下的四个V产生联系:
·Volume(容量)
·Velocity(速率)
·Variety(多样性)
·Value(价值)
这四个V,定义了数据的四个维度。而有关数据的一切活动,包括获取、记录、挖掘、分析、整合等等,在这四个维度上的拓展和延伸,都可称作是大数据行为。下面,我们分别来看看这四个V是如何在实际生活中发挥作用的。
1. Volume(容量)
提到大数据,人们最容易想到的就是“大量的数据”。虽然这样的“成见”被各路专家诟病已久,但不得不承认的是,大量的数据的确是人们进行精确量化分析的基 础。单个的数据意义不大,但大量的数据累加,就会产生重大的意义。好比在零售业,一个顾客的购买偏好不是那么重要,但一万个顾客的购买偏好就会对决策者产 生重大的影响,而一亿个顾客的偏好足以重新定义市场。从哲学上说,这就是量变到质变的转化。
关于“大容量数据”,一个有名的例子是Google于2008年推出的Google流感预测趋势(Google Flu Trends, 简称GFT)。GFT来自一个很简单的想法:在流感爆发的季节,人们在Google上搜寻流感防治相关资讯的比例会增加。通过分析海量的关键字(比如“咳嗽”、“发烧”等)搜寻记录,可准确且快速的预测流感将在哪些地区出现,以及对应的传播范围。
再比如,2014年,美国旧金山附近发生了一场6.0级的地震,地震发生时间大约是凌晨的3点20分。 第二天,有一个可穿戴式设备的制造商发布了一组大数据,他们发现通过他们的可穿戴式设备他们可以知道在地震的时候有多少人醒了,多少人翻身,并且可以明显 的看到随着离震源的距离不断变大,醒来和翻身的人数逐渐减少。在科学家看来,这件事情具有划时代的意义,因为这是人类历史上第一次能够宣称说有一天晚上我 们知道这个地区有多少人处于深度睡眠,有多少人处于浅度睡眠,有多少人醒来,并且是在什么时刻醒来,又有多少人过了多久再次睡着。如果你对数据分析有着敏 锐的嗅觉,你会发现这是一件很恐怖的事情。为什么?因为单单是这样的睡眠数据就已经能够解释太多问题了!比如,为什么第二天这个地区的交通事故增加?为什 么药店的某种药物销量剧增?为什么购买暖色服装的人数减少?为什么某个电视频道变得更受欢迎?…..心理学家或者社会学家还能用这些数据解释更多的问题,这是在十年之前不能想象的事情。
在上面这个故事中,我们不妨想想,假如是你,你为什么要戴上可穿戴式设备?你是为了收集你个人的睡眠数据,用以监控你的健康状况。然而,当有千万个和你一样 的人在做同样事情的时候,这些数据汇集到一起,能解释的事情就远超个人本身了。这叫做数据的外部性。换言之,数据的作用超出了最初收集它的目的。本来这些 数据是为个人健康服务,但事实上一旦容量足够大,它就可以在更高的层次上解释更宏观的事情。通过在不同层次上的应用,数据的作用和价值被层层放大,这就是 大容量(Volume)数据的优势。
2. Velocity(速率)
大数据的高速率特性,主要体现在数据的生成、采集和分析上。在传统的数据分析领域,数据从采集、处理到分析,要经过一段较长的时间。而在高速率的数据环境下,由于每时每刻都有大量数据产生,我们必须对数据进行实时的收集和分析,以免造成数据的流失。
还是看看Google(没办法,这是大数据分析的龙头老大)。Google地图里包含了实时路况分析功能,可以实时判断某一路段车流大小,从而为道路使用者提供最优化的交通方案。这一功能的实现,就是基于高速率数据采集与分析的技术。比如在某个路段内,Google通过带GPS功能的手机以及其他移动设备匿名收集信息,当你允许Google Maps获取你的地址时,手机会上传你移动的速度到服务器。这些移动设备会向Google的分析中心提供实时的数据,而分析中心可以利用这些数据快速推算出该路段的拥堵状况,从而实现实时路况分析。
之前提到过的Google流感预测也是一个很好的例子。Google挑选美国九个区域进行流感预测趋势的测试,发现这个技术可以比美国联邦疾病预防与控制中心提前一到两周准确预测流感的爆发。因为传统的流感监测系统要用7到14天来收集和发布监测数据,而Google对关键词搜索数据的分析可以在极短的时间内自动完成。根据Google的软件工程师的评估,这个流感预测趋势可以为流感的爆发提供一个早期的预警系统。
根据以往的资料,Google流感预测趋势的分析结果与美国联邦疾病预防与控制中心公布的结果十分相似(见图,蓝色代表Google的结果,黄色代表联邦疾病防控中心的结果)。另外,这套预测系统在其他国家也有不俗的表现。
3. Variety(多样性)
数 据的多样性,主要体现在两个方面:一是数据的来源多样,二是数据的形式多样。拿卫生保健数据举例,大致有药理学科研数据,临床数据,个人行为和情感数据, 就诊索赔记录和开销数据四类,而每一类数据的形式也千差万别(比如临床数据就包括病历的文本数据,医患的电子邮件记录,电话记录,医学仪器诊疗结果等 等)。而对于不同来源、不同形式的数据加以挖掘和整合,是让Variety产生价值的关键。
例如,北京市交通智能化分析平台数据源来自路网摄像头/传感器、地面公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业,还有问卷调查和GIS数据。这些数据从Volume和Velocity上也达到了大数据的规模:4万辆浮动车每天产生2000万条记录,交通卡刷卡记录每天1900万条,手机定位数据每天1800万条,出租车运营数据每天100万条,高速ETC数据每天50万条,针对8万户家庭的定期调查,等等。分析这类数据的重点,在于发掘这些形态各异、快慢不一的数据流之间的相关性。甚至,交通数据与其它领域的数据也存在较强的相关性。有研究发现,可以从供水系统的数据中发现晨洗的高峰时间,加上一个偏移量(通常是滞后40-45分钟)就是交通早高峰时间。同样,可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量来估计出晚上的堵车时点。之前提到的交通事故率与睡眠质量的关联,也是同一个道理。
在疾病防控领域,处理多样性数据往往会带来理想的结果。流行病的发生和传播有一定的规律性,与气温变化、环境指数、人口流动等因素密切相关,如果在数据的获取和分析中把这些因素全部考虑进去,其可靠性会比单单分析关键词搜索数据更高。和Google的GFT相比,百度的疾病预测考虑得更加周全。在关键词搜索数据的基础上,百度把微博、天气、人群迁徙、用户属性、地面环境、甚至航班起降等数据一并加入预测模型。此外,Google用的数据依赖于Google Correlation产品,而百度则是直接从原始日志中进行清洗、消岐、扩展和分析,在数据上做得更加细致,也由此可以提供更加有效的判断。
4. Value(价值)
值得注意的是,传统意义上对于大数据的理解并不包含Value。大数据分析在它的初始阶段仅仅着重于前三个V, 数据科学家们也往往只专注于数据处理的技术,却忘了用它创造价值。然而随着大数据的概念在企业中变得越来越普及,数据背后所蕴含的价值越来越受到决策者的 重视。无论任何形式的数据,如果不能为企业(或者其拥有者)带来价值,那么它对于决策者而言是没有任何意义的。反之,无论任何形式的数据,只要能创造价 值,决策者就应该加以利用和分析,即使它的容量、多样性和速度并不是十分理想。
举例来说,许多服装的零售商开始尝试一种新的数据记录与分析的方法,来提高他们的利润。他们在每件服装上都安装了一个射频识别码(RFID), 只要有顾客将衣服拿进试衣间,这个识别码就会被记录下来并传送至公司总部的数据库。换言之,每一件服装,在什么国家什么城市的哪个分店,在什么时间被顾客 带到试衣间,停留了多长时间,都被系统毫无遗漏的记录下来并加以分析。不要小看这些“试衣间数据”,它们背后的价值不可限量。比如说,假设公司总部发现某 种服装销量很低,这种产品通常会被停止生产。但如果“试衣间数据”显示这种服装虽然销量低,但被顾客带进试衣间的次数多、时间长,那就说明它具有相当的吸 引力,决策者也就不会简单粗暴的让该产品下架,因为或许一点小小的改变就可以让它的销量飙升。
小结
人类社会的今天,在种类繁多的领域里,每天都有海量数据以惊人的速率产生。而对这些数据的获取、记录、挖掘、分析与整合,使之产生巨大的价值,这就是大数据的概念。在大数据这片浩瀚的海洋里,人们驾着一叶扁舟该何去何从,这需要大数据分析技术(Big Data Analytics)加以引导。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04CDA 数据分析师:驾驭数据范式,释放数据价值 在数字化转型浪潮席卷全球的当下,数据已成为企业核心生产要素。而 CDA(Certified ...
2025-09-04K-Means 聚类:无监督学习中数据分群的核心算法 在数据分析领域,当我们面对海量无标签数据(如用户行为记录、商品属性数据、图 ...
2025-09-03特征值、特征向量与主成分:数据降维背后的线性代数逻辑 在机器学习、数据分析与信号处理领域,“降维” 是破解高维数据复杂性的 ...
2025-09-03CDA 数据分析师与数据分析:解锁数据价值的关键 在数字经济高速发展的今天,数据已成为企业核心资产与社会发展的重要驱动力。无 ...
2025-09-03解析 loss.backward ():深度学习中梯度汇总与同步的自动触发核心 在深度学习模型训练流程中,loss.backward()是连接 “前向计算 ...
2025-09-02要解答 “画 K-S 图时横轴是等距还是等频” 的问题,需先明确 K-S 图的核心用途(检验样本分布与理论分布的一致性),再结合横轴 ...
2025-09-02