京公网安备 11010802034615号
经营许可证编号:京B2-20210330
闲话大数据--大数据的分析技术_数据分析师
如果你还没有意识到21世纪信息爆炸的速度是何等的惊人,以下事实应该能让你有一个大致的概念:
·现在《纽约时报》一周的信息量比18世纪一个人一生所收到的资讯总量更大
·现在全世界18个月产生的信息比过去5000年的信息总和更多
·现在一部苹果手机的计算能力,已经超出人类发射第一枚人造卫星时用到的所有计算机计算能力的总和
类似的事实还有很多,在此不一一列举。但值得注意的是,信息的爆炸速度固然惊人,但如果没有对这些信息加以利用和分析,并得出对我们有意义的结论,爆炸和不爆炸就没有任何区别。为了让它们从没意义变得有意义,一个概念应运而生,那就是现今越来越流行的一个词汇:大数据(BigData)
什么是大数据?
什么是大数据?要了解这个问题,我们首先要了解:什么是数据?
广义上,对于任何事物、任何现象,以任何方式记录下来的信息,都可以称作数据(Data)。严格来说,人类从第一次在石头上刻录符号的那一天开始,就进入了数据时代。数据,本质上就是记录下来的信息。毫不夸张的说,任何事物或现象都可以被量化,或者说被数据化,换言之,在数据科学家看来,世间万事万物皆数据。而大数据,正是这一信条的坚定追随者。
一般来说,任何与大数据有关的概念,都需要在一定程度上和以下的四个V产生联系:
·Volume(容量)
·Velocity(速率)
·Variety(多样性)
·Value(价值)
这四个V,定义了数据的四个维度。而有关数据的一切活动,包括获取、记录、挖掘、分析、整合等等,在这四个维度上的拓展和延伸,都可称作是大数据行为。下面,我们分别来看看这四个V是如何在实际生活中发挥作用的。
1. Volume(容量)
提到大数据,人们最容易想到的就是“大量的数据”。虽然这样的“成见”被各路专家诟病已久,但不得不承认的是,大量的数据的确是人们进行精确量化分析的基 础。单个的数据意义不大,但大量的数据累加,就会产生重大的意义。好比在零售业,一个顾客的购买偏好不是那么重要,但一万个顾客的购买偏好就会对决策者产 生重大的影响,而一亿个顾客的偏好足以重新定义市场。从哲学上说,这就是量变到质变的转化。
关于“大容量数据”,一个有名的例子是Google于2008年推出的Google流感预测趋势(Google Flu Trends, 简称GFT)。GFT来自一个很简单的想法:在流感爆发的季节,人们在Google上搜寻流感防治相关资讯的比例会增加。通过分析海量的关键字(比如“咳嗽”、“发烧”等)搜寻记录,可准确且快速的预测流感将在哪些地区出现,以及对应的传播范围。
再比如,2014年,美国旧金山附近发生了一场6.0级的地震,地震发生时间大约是凌晨的3点20分。 第二天,有一个可穿戴式设备的制造商发布了一组大数据,他们发现通过他们的可穿戴式设备他们可以知道在地震的时候有多少人醒了,多少人翻身,并且可以明显 的看到随着离震源的距离不断变大,醒来和翻身的人数逐渐减少。在科学家看来,这件事情具有划时代的意义,因为这是人类历史上第一次能够宣称说有一天晚上我 们知道这个地区有多少人处于深度睡眠,有多少人处于浅度睡眠,有多少人醒来,并且是在什么时刻醒来,又有多少人过了多久再次睡着。如果你对数据分析有着敏 锐的嗅觉,你会发现这是一件很恐怖的事情。为什么?因为单单是这样的睡眠数据就已经能够解释太多问题了!比如,为什么第二天这个地区的交通事故增加?为什 么药店的某种药物销量剧增?为什么购买暖色服装的人数减少?为什么某个电视频道变得更受欢迎?…..心理学家或者社会学家还能用这些数据解释更多的问题,这是在十年之前不能想象的事情。
在上面这个故事中,我们不妨想想,假如是你,你为什么要戴上可穿戴式设备?你是为了收集你个人的睡眠数据,用以监控你的健康状况。然而,当有千万个和你一样 的人在做同样事情的时候,这些数据汇集到一起,能解释的事情就远超个人本身了。这叫做数据的外部性。换言之,数据的作用超出了最初收集它的目的。本来这些 数据是为个人健康服务,但事实上一旦容量足够大,它就可以在更高的层次上解释更宏观的事情。通过在不同层次上的应用,数据的作用和价值被层层放大,这就是 大容量(Volume)数据的优势。
2. Velocity(速率)
大数据的高速率特性,主要体现在数据的生成、采集和分析上。在传统的数据分析领域,数据从采集、处理到分析,要经过一段较长的时间。而在高速率的数据环境下,由于每时每刻都有大量数据产生,我们必须对数据进行实时的收集和分析,以免造成数据的流失。
还是看看Google(没办法,这是大数据分析的龙头老大)。Google地图里包含了实时路况分析功能,可以实时判断某一路段车流大小,从而为道路使用者提供最优化的交通方案。这一功能的实现,就是基于高速率数据采集与分析的技术。比如在某个路段内,Google通过带GPS功能的手机以及其他移动设备匿名收集信息,当你允许Google Maps获取你的地址时,手机会上传你移动的速度到服务器。这些移动设备会向Google的分析中心提供实时的数据,而分析中心可以利用这些数据快速推算出该路段的拥堵状况,从而实现实时路况分析。
之前提到过的Google流感预测也是一个很好的例子。Google挑选美国九个区域进行流感预测趋势的测试,发现这个技术可以比美国联邦疾病预防与控制中心提前一到两周准确预测流感的爆发。因为传统的流感监测系统要用7到14天来收集和发布监测数据,而Google对关键词搜索数据的分析可以在极短的时间内自动完成。根据Google的软件工程师的评估,这个流感预测趋势可以为流感的爆发提供一个早期的预警系统。
根据以往的资料,Google流感预测趋势的分析结果与美国联邦疾病预防与控制中心公布的结果十分相似(见图,蓝色代表Google的结果,黄色代表联邦疾病防控中心的结果)。另外,这套预测系统在其他国家也有不俗的表现。
3. Variety(多样性)
数 据的多样性,主要体现在两个方面:一是数据的来源多样,二是数据的形式多样。拿卫生保健数据举例,大致有药理学科研数据,临床数据,个人行为和情感数据, 就诊索赔记录和开销数据四类,而每一类数据的形式也千差万别(比如临床数据就包括病历的文本数据,医患的电子邮件记录,电话记录,医学仪器诊疗结果等 等)。而对于不同来源、不同形式的数据加以挖掘和整合,是让Variety产生价值的关键。
例如,北京市交通智能化分析平台数据源来自路网摄像头/传感器、地面公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业,还有问卷调查和GIS数据。这些数据从Volume和Velocity上也达到了大数据的规模:4万辆浮动车每天产生2000万条记录,交通卡刷卡记录每天1900万条,手机定位数据每天1800万条,出租车运营数据每天100万条,高速ETC数据每天50万条,针对8万户家庭的定期调查,等等。分析这类数据的重点,在于发掘这些形态各异、快慢不一的数据流之间的相关性。甚至,交通数据与其它领域的数据也存在较强的相关性。有研究发现,可以从供水系统的数据中发现晨洗的高峰时间,加上一个偏移量(通常是滞后40-45分钟)就是交通早高峰时间。同样,可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量来估计出晚上的堵车时点。之前提到的交通事故率与睡眠质量的关联,也是同一个道理。
在疾病防控领域,处理多样性数据往往会带来理想的结果。流行病的发生和传播有一定的规律性,与气温变化、环境指数、人口流动等因素密切相关,如果在数据的获取和分析中把这些因素全部考虑进去,其可靠性会比单单分析关键词搜索数据更高。和Google的GFT相比,百度的疾病预测考虑得更加周全。在关键词搜索数据的基础上,百度把微博、天气、人群迁徙、用户属性、地面环境、甚至航班起降等数据一并加入预测模型。此外,Google用的数据依赖于Google Correlation产品,而百度则是直接从原始日志中进行清洗、消岐、扩展和分析,在数据上做得更加细致,也由此可以提供更加有效的判断。
4. Value(价值)
值得注意的是,传统意义上对于大数据的理解并不包含Value。大数据分析在它的初始阶段仅仅着重于前三个V, 数据科学家们也往往只专注于数据处理的技术,却忘了用它创造价值。然而随着大数据的概念在企业中变得越来越普及,数据背后所蕴含的价值越来越受到决策者的 重视。无论任何形式的数据,如果不能为企业(或者其拥有者)带来价值,那么它对于决策者而言是没有任何意义的。反之,无论任何形式的数据,只要能创造价 值,决策者就应该加以利用和分析,即使它的容量、多样性和速度并不是十分理想。
举例来说,许多服装的零售商开始尝试一种新的数据记录与分析的方法,来提高他们的利润。他们在每件服装上都安装了一个射频识别码(RFID), 只要有顾客将衣服拿进试衣间,这个识别码就会被记录下来并传送至公司总部的数据库。换言之,每一件服装,在什么国家什么城市的哪个分店,在什么时间被顾客 带到试衣间,停留了多长时间,都被系统毫无遗漏的记录下来并加以分析。不要小看这些“试衣间数据”,它们背后的价值不可限量。比如说,假设公司总部发现某 种服装销量很低,这种产品通常会被停止生产。但如果“试衣间数据”显示这种服装虽然销量低,但被顾客带进试衣间的次数多、时间长,那就说明它具有相当的吸 引力,决策者也就不会简单粗暴的让该产品下架,因为或许一点小小的改变就可以让它的销量飙升。
小结
人类社会的今天,在种类繁多的领域里,每天都有海量数据以惊人的速率产生。而对这些数据的获取、记录、挖掘、分析与整合,使之产生巨大的价值,这就是大数据的概念。在大数据这片浩瀚的海洋里,人们驾着一叶扁舟该何去何从,这需要大数据分析技术(Big Data Analytics)加以引导。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22