
统计报告=大数据?论玩转大数据的正确姿势
随着物联网技术的发展,各种设备数据量的增多,“大数据”和“数据分析师”的概念正逐渐走进普通人的生活。然而近期,“大数据”或“数据分析师”正沦为一种炒作概念和传播噱头。在政府和企业的各种统计报告中,不提大数据似乎便是落伍。
日前,南京交管部门本周就发布了“2015年南京交通事故大数据分析报告”。让我们来看看报告中的内容。
数据分析报告显示,2015年全年,南京新增机动车驾驶人26.2万人,其中男性16.5万,女性9.7万。在发生的全部交通事故中,驾龄1年以下的司机引发的事故占13.6%,驾龄1至2年的司机占6.5%,驾龄2至3年的司机占的8.6%,驾龄6到10年的司机占5.5%,驾龄11至15年的司机占3.3%。
在此基础上,数据分析师还在报告中做了更多分析:在驾龄3年以下司机引发的事故中,男司机占87%,女司机占13%。而从2013年至2015年,南京新增司机中男性和女性分别占60%和40%。这就是说,3年以下新手中,四成女司机引发的交通事故占一成多,而六成男司机引发的交通事故近九成。所以结论是,男性新手司机引发的事故高于女性新手司机。
看到这里,你可能会问,这个“大数据”报告仅此而已?这样的数据又说明了什么?制作这样的报告似乎只需利用简单的数据库即可。如果数据量只有几万行,甚至Excel表格都能妥妥搞定。任何学过Excel制表的新手都能完成这样的“大数据分析”。
那么,数据科学是否真的如此简单?这种数据统计报告是否就等同于大数据?很明显,答案是否定的。
1.大数据究竟有多大?
本月,雅虎公布了用户使用该公司服务,例如雅虎新闻和雅虎财经的大量数据。雅虎的计划是将这些数据开放给学术界,给大数据和机器学习研究者提供素材。那么,雅虎提供的“大数据原材料”究竟有多大?
准确数字是13.5TB。如果使用当前常见的1TB移动硬盘去保存,那么这些数据需要14块硬盘才能完全容纳。
雅虎表示,这些数据来自2015年4个月时间里的2000万用户,其中包括用户使用的设备类型、阅读文章的时间、文章主题,以及用户的位置、年龄和性别。雅虎认为,只有通过对这种规模量级的数据进行研究,才能帮助学术界更好地理解普通人的在线阅读习惯和偏好。
雅虎此前也曾开放过一些规模较小的数据集,但这些数据集的大小也要达到1TB。这远远不是电子表格工具,或是传统数据库有能力处理的。而这才是数据分析师真正的用武之地。
2.大数据应当怎么做?
大数据的一条基本理论在于,单纯的数据并不产生价值,只有通过数据分析师的计算分析,找出其中趋势,为未来的决策提供依据,这样的大数据技术才是有意义的。
在本周于上海举行的阿里云栖大会上,阿里云大数据事业部资深总监徐常亮指出,大数据技术的重要一部分是数据加工工具,这样的工具需要打通数据生产链条,包括从数据采集到计算引擎,到数据加工、数据分析,到机器学习再到数据应用,最后形成闭环又回到数据采集。
道路交通状况分析和预测就是这种大数据技术实际应用的一个简单案例。在这一分析预测系统中,输入的数据是每辆汽车的信息,包括当前时间、汽车行驶速度,以及天气状况等。这样的数据既可以来自交通监控设备,也可以来自未来的互联汽车传感器。在繁忙的城市道路上,这样的数据将是海量的。
数据分析师可根据历史数据,我们可以建模,了解不同季节、不同时间、不同天气状况下汽车行驶速度和交通拥堵状况。随后,利用这样的模型,系统可以对道路上的合理车速做出预测,判断是否会出现交通拥堵,并提前预警,以便及时疏导交通。而更进一步,这样的信息对于城市未来的交通设计和规划也有着参考意义。
在本周的阿里云栖大会上,中国天气网宣布了与阿里云的战略合作,将把气象大数据开放给开发者。对这些大数据的分析处理将给农业(气象变化对农业生产的影响)、医疗健康(天气对人体罹患疾病的影响)和零售(不同天气状况下消费者的消费模式)等行业带来重要指导。
3.研究大数据需要什么样的技能?
数据科学很明显是未来科技行业发展的一大方向,然而在全球范围内,大数据人才的缺口很大。
麦肯锡的一项研究预计,到2018年,美国在深度数据分析领域的人才缺口可能将高达50%至60%。埃森哲的大数据战略调查则显示,有90%客户表示,计划招聘更多具备数据分析技能的员工。然而在1000多家受访的客户中,有41%表示,市场上数据科学人才的匮乏造成了限制。
那么,数据科学人才需要具备什么样的技能?
首先,对数据科学家(数据分析师)来说,数学是必不可少的知识基础。统计、概率论、数学建模,这些都是数据科学研究的基础。其次,他们还需要使用计算机语言,例如R或Python去玩转这些数据。
只有通过计算机编程,数学理论才能被用于实践,而数据集也才能得到适当的分析处理。最后,数据科学家还必须对某些垂直领域,例如交通或气象,有自己的兴趣。对于这些领域的多方面影响因素,他们必须了若指掌。而这也是使用数学理论去展开实用型研究的前提。
在此基础上,许多大数据公司还在开发机器学习技术,利用机器去深挖数据的潜力。这就要求数据科学家还要去了解机器学习算法,甚至相配套的硬件设计。
这样看来,数据科学的研究有着相当高的门槛,而理想的数据科学家(数据分析师)应当是了解数据、计算机,以及其他某一专业的复合型人才。这远远不是刚学会数据库操作的新手所能胜任的工作。
结论
数据统计并不等同于大数据。这可能是数据科学发展的最初形态,但未来的大数据技术还需要从这些统计数据中得出更多具有指导意义的分析结论。
回到2015年南京交通事故大数据分析报告。如果希望这成为真正的大数据报告,并带来参考意义,那么首先可能要做的就是增大数据集,采集更多类型的司机和车辆数据,并将覆盖范围扩大至整个省,甚至全国。
另一方面,数据科学家(数据分析师)需要做进一步的数据挖掘,将目光瞄准更多有价值的点。这将给交通出行体系和汽车业的多个领域带来帮助:汽车厂商可以基于这些信息开发安全功能,而道路设计也可以据此优化以减少事故的发生。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
DBeaver 实战:实现两个库表结构同步的高效路径 在数据库管理与开发工作中,保持不同环境(如开发库与生产库、主库与从库)的表 ...
2025-08-08t 检验与卡方检验:数据分析中的两大统计利器 在数据分析领域,统计检验是验证假设、挖掘数据规律的重要手段。其中,t 检验和卡 ...
2025-08-08CDA 数据分析师:解锁数据价值的专业力量 在当今这个数据爆炸的时代,数据已成为像石油一样珍贵的战略资源。而 CDA 数据分析师, ...
2025-08-08人工智能对CDA数据分析领域的影响 人工智能对 CDA(Certified Data Analyst,注册数据分析师)数据分析领域的影响是全方位、多层 ...
2025-08-07SPSS 语法使用详解 在当今数据驱动的时代,SPSS( Statistical Package for the Social Sciences)作为一款功能强大的统计分析软 ...
2025-08-07SASEM 决策树:理论与实践应用 在复杂的决策场景中,如何从海量数据中提取有效信息并制定科学决策,是各界关注的焦点。SASEM 决 ...
2025-08-07CDA含金量分析 在数字经济与人工智能深度融合的时代,数据驱动决策已成为企业核心竞争力的关键要素。CDA(Certified Data Analys ...
2025-08-07大数据时代对定性分析的影响 在大数据时代,海量、多样、高速且低价值密度的数据充斥着我们的生活与工作。而定性分析作为一 ...
2025-08-07K-S 曲线、回归与分类:数据分析中的重要工具 在数据分析与机器学习领域,K-S 曲线、回归和分类是三个核心概念与工具,它们各 ...
2025-08-07CDA 数据分析师考试全解析 在当今数字化时代,数据已成为企业发展的核心驱动力,数据分析师这一职业也愈发受到重视。CDA 数据分 ...
2025-08-07大数据时代的隐患:繁荣背后的隐忧 当我们在电商平台浏览商品时,系统总能 “精准” 推送心仪的物品;当我们刷短视频时,算法 ...
2025-08-07解析 F 边界检验:协整分析中的实用工具 在计量经济学的时间序列分析中,判断变量之间是否存在长期稳定的均衡关系(即协整关系) ...
2025-08-07CDA 数据分析师报考条件详解:迈向专业认证的指南 在数据分析行业蓬勃发展的当下,CDA 数据分析师认证成为众多从业者提升专业 ...
2025-08-07通过 COX 回归模型诊断异常值 一、COX 回归模型概述 COX 回归模型,又称比例风险回归模型,是一种用于生存分析的统计方法。它能 ...
2025-08-07评判两组数据与初始数据准确值的方法 在数据分析与研究中,我们常常会面临这样的情况:需要对通过不同方法、不同过程得到的两组 ...
2025-08-07CDA 数据分析师行业标准:构建数据人才的能力坐标系 在数据驱动决策成为企业核心竞争力的时代,CDA(数据分析师)行业标准作为 ...
2025-08-07反向传播神经网络:突破传统算法瓶颈的革命性力量 在人工智能发展的历史长河中,传统算法曾长期主导着数据处理与模式识别领域 ...
2025-08-07MySQL 统计连续每天数据:从业务需求到技术实现 在数据分析场景中,连续日期的数据统计是衡量业务连续性的重要手段 —— 无论是 ...
2025-08-07抖音数据分析师:驱动平台增长的幕后推手 在抖音这个日活用户数以亿计的超级平台上,每一次用户的滑动、点赞、评论,每一条 ...
2025-08-07基于 SPSS 的中介效应分析结果解读:揭示变量间的隐性关联 在社会科学与自然科学研究中,变量之间的关系往往并非简单的直接作用 ...
2025-08-07