
大数据与现实生活
大数据能带来什么变化呢?里克·斯莫兰的“大数据人类面孔”项目讲述了许多故事:海象通过头顶的触角探索海洋;借助卫星击准蚊子;加纳用短信系统防止假药销售;智能手机可以预测谁正在变抑郁;信用卡在使用者离婚前两年就能预测离婚;药片直接将信息从人的身体传给医生。
通过对卫星以及全球数亿传感器、RFID标签、带GPS的相机和智能手机实时收集的数据做可视化处理,人类就可以感知、测量、理解和影响人类的生存方式,实现先辈们遥不可及的梦想。
2012年3月,里克·斯莫兰和JenniferErwitt发动全球各地100多位摄影师、编辑和作家来探索大数据的世界,以验证它是否象许多业界人士所说:代表了一种从未出现过的工具,可以帮助人类面对最大的挑战。
大数据人类面孔-通过计步器记录数据分析身体状况
2012年9月25日到10月2日,邀请全球各地参与者通过“大数据人类面孔”这一应用(五种语言的iOS和安卓版本免费下载)来“测量我们的世界”。这一应用可以让人们用手机作为传感器参与一系列活动,他们同时可以比较全球其它参与者对一些值得深思的问题给出了什么答案。参与者可以绘制出自己每天的路径,分享那些带给他们好运的物品和仪式,了解其他人想要在一生中经历的特别体验,发现自己身边以前没有意识到的秘密。参与者还能够得出自己的“数字身影”。
2012年10月2日,邀请媒体出席在纽约、伦敦和新加坡举行的“指挥控制中心”大型活动,所有参与者的数据将在活动中加以分析、视觉化处理和诠释。大数据领域的专家们和创新者们将通过互动的“大数据实验室”分享他们的工作成果。全球各地的观众可以实时在线观看活动直播。
麦肯锡全球研究机构在发布的《大数据:创新、竞争和生产力的下一个前沿领域》中表示,充分利用大数据可帮助全球个人定位服务提供商增加1000亿美元收入、帮助欧洲公共部门的管理每年提升2500亿美元产值、帮助美国医疗保健行业每年提升3000亿美元产值,并可帮助美国零售业获得 60%以上的净利润增长……
如果感觉此数据太过空泛,那么我们可以通过安防监控在大数据方面的应用来进行详细的了解。很多读者应该都看过电影《全民公敌》,威尔史密斯饰演的律师出现在各地任意位置的摄像头都会在第一时间被发现,这便是大数据的作用。从技术角度来看,从传统的海量存储监控,到实现联网智能化监控便是大数据很好的应用。在国际大都市中,每年行驶的车辆数据可能会达到百亿级,从这些海量信息提取车牌、车身颜色,就可以很快查出轨迹、违章等,而接下来的关联分析就是基于大数据的基础展开。
再比如大家经常使用的淘宝为例。天猫副总裁王文彬曾表示“我们可以得到买家的访问量、固定频率、偏好商品等浅层分析。未来将有更多,不仅能看到商家销量的高低,甚至还可以看出其原因。”商家还可以通过对点击量、跨店铺点击,订单流转量甚至旺旺聊天信息等消费者购买行为的分析,进而有针对性的进行提高,达到提高销量的目的。
从人类文明出现到2003年,人类总共才产生了5EB(ExaBytes)的数据,但是当前的人类两天内就创造出了相同的数据量,全球 90% 的数据都是在过去两年中生成的,到2020年全球数据使用量将大概需要376亿个1TB的硬盘进行存储。
大数据
当然,大数据并不等同于目前的海量数据。目前全球均比较认可IDC对“大数据”的定义:为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。此定义也可以概括为四个特点,即高容量(volume)、多样性(variety),速度(velocity),以及价值(value)四个V,包括基础架构、数据管理、分析挖掘和决策支持四个层面。当然,也有其他不同的观点,IBM对于大数据的定义便是规模性(Volume)、多样性(Variety)、高速性(Velocity)和真实性(Veracity)的“4V理论”,NetApp 大中华区总经理陈文所理解的大数据包括A、B、C三个要素:大分析(Analytic),高带宽(Bandwidth)和大内容(Content)。
大数据与云计算
物联网、移动互联网等是大数据的来源,而大数据分析则是为物联网和移动互联网提供有用的分析,获取价值。云计算又与大数据有什么关系呢?这个问题其实早在2011年,就有人分析,例如EMC World 2011的大会主题就是“当云计算遇见大数据”。
云计算与大数据两者之间有很多的交集,业界主要做云的公司有谷歌、亚马逊等都拥有大量大数据。EMC总裁基辛格强调大数据应用必须在云设施上跑,这就是两者的关系——大数据离不开云。同时,支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,这些都是底层的技术原则。因此基辛格认为大数据和云之间存在很多合力的地方。
另一方面,随着互联网信息量的激增,用户单个数据集达到数以TB计,有的客户甚至已达到Pera级(1000Tera)了,用现有的存储系统结构处理数据量级较小,而且只能处理单一数据源数据,面对大数据的压力。在处理大量级以及多数据源的数据能力非常弱。这也就是为什么EMC收购Greenplum,支持开源的Hadoop计划的目的所在。基辛格很明白,大数据的挑战不仅仅在于存储和保护,数据分析能力的强弱,将成为这个时代的关键点:我们已经解决了数据存储和保护的问题,所需要的只是时间,但是海量数据分析的问题,我们还没有在大数据到来时做好准备。
谈到大数据的特点,一是数据规模是PB级,二是多数据源,能够把半结构化、非结构化和结构化的数据很好地融合起来。同时具有实时、可迭代的特点。具体形容就是大数据环境类似于Facebook环境,随时可以添加变量。基辛格一再的支出,数据分析的历史已有30年,现在我们已进入大数据时代。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在大模型从实验室走向生产环境的过程中,“稳定性” 是决定其能否实用的关键 —— 一个在单轮测试中表现优异的模型,若在高并发 ...
2025-10-15在机器学习入门领域,“鸢尾花数据集(Iris Dataset)” 是理解 “特征值” 与 “目标值” 的最佳案例 —— 它结构清晰、维度适 ...
2025-10-15在数据驱动的业务场景中,零散的指标(如 “GMV”“复购率”)就像 “散落的零件”,无法支撑系统性决策;而科学的指标体系,则 ...
2025-10-15在神经网络模型设计中,“隐藏层层数” 是决定模型能力与效率的核心参数之一 —— 层数过少,模型可能 “欠拟合”(无法捕捉数据 ...
2025-10-14在数字化浪潮中,数据分析师已成为企业 “从数据中挖掘价值” 的核心角色 —— 他们既要能从海量数据中提取有效信息,又要能将分 ...
2025-10-14在企业数据驱动的实践中,“指标混乱” 是最常见的痛点:运营部门说 “复购率 15%”,产品部门说 “复购率 8%”,实则是两者对 ...
2025-10-14在手游行业,“次日留存率” 是衡量一款游戏生死的 “第一道关卡”—— 它不仅反映了玩家对游戏的初始接受度,更直接决定了后续 ...
2025-10-13分库分表,为何而生? 在信息技术发展的早期阶段,数据量相对较小,业务逻辑也较为简单,单库单表的数据库架构就能够满足大多数 ...
2025-10-13在企业数字化转型过程中,“数据孤岛” 是普遍面临的痛点:用户数据散落在 APP 日志、注册系统、客服记录中,订单数据分散在交易 ...
2025-10-13在数字化时代,用户的每一次行为 —— 从电商平台的 “浏览→加购→购买”,到视频 APP 的 “打开→搜索→观看→收藏”,再到银 ...
2025-10-11在机器学习建模流程中,“特征重要性分析” 是连接 “数据” 与 “业务” 的关键桥梁 —— 它不仅能帮我们筛选冗余特征、提升模 ...
2025-10-11在企业的数据体系中,未经分类的数据如同 “杂乱无章的仓库”—— 用户行为日志、订单记录、商品信息混杂存储,CDA(Certified D ...
2025-10-11在 SQL Server 数据库操作中,“数据类型转换” 是高频需求 —— 无论是将字符串格式的日期转为datetime用于筛选,还是将数值转 ...
2025-10-10在科研攻关、工业优化、产品开发中,正交试验(Orthogonal Experiment)因 “用少量试验覆盖多因素多水平组合” 的高效性,成为 ...
2025-10-10在企业数据量从 “GB 级” 迈向 “PB 级” 的过程中,“数据混乱” 的痛点逐渐从 “隐性问题” 变为 “显性瓶颈”:各部门数据口 ...
2025-10-10在深度学习中,“模型如何从错误中学习” 是最关键的问题 —— 而损失函数与反向传播正是回答这一问题的核心技术:损失函数负责 ...
2025-10-09本文将从 “检验本质” 切入,拆解两种方法的核心适用条件、场景边界与实战选择逻辑,结合医学、工业、教育领域的案例,让你明确 ...
2025-10-09在 CDA 数据分析师的日常工作中,常会遇到这样的困惑:某电商平台 11 月 GMV 同比增长 20%,但究竟是 “长期趋势自然增长”,还 ...
2025-10-09Pandas 选取特定值所在行:6 类核心方法与实战指南 在使用 pandas 处理结构化数据时,“选取特定值所在的行” 是最高频的操作之 ...
2025-09-30球面卷积神经网络(SCNN) 为解决这一痛点,球面卷积神经网络(Spherical Convolutional Neural Network, SCNN) 应运而生。它通 ...
2025-09-30