
大数据:不再仅仅是一个流行词
大数据对很多人来说意味着许多东西,但它的影响到底有多广?想象一下大数据的这些特性,以及将它拼接在一起的大师们。
不再仅仅是一个流行词
大数据,无论你如何定义它,都已经被大肆盛赞过,也被恶意中伤过。它对很多人来说意味着许多东西:对科学家和零售店主来说是一种福利,同时也是应对大量隐私和安全威胁时的一种可用技术。
无论是救世主还是骗局–甚至可能是两者的结合-,大数据仍在权威人士、预言家、营销者和安全爱好者中间成为一个流行话题。它的非官方定义也在逐渐演变。那么,它到底是什么呢?Wikipedia(维基百科)的定义开了个好头:“任何数据的收集,数据的数量如此庞大、形式如此复杂,以至于很难采用手上的数据管理工具或传统的数据处理软件进行处理”。
但是,当数据分享设备呈几何级数增长的时候,管理大批量、各式各样、高速(经典的3V定义)涌来的数据集所面临的挑战内容正在改变。这些设备,我们统称为物联网(IoT),包括机器传感器和面向消费者的设备(例如相互连接的恒温器)、电灯泡、冰箱和可穿戴的健康监测仪。IDC预测IoT(物联网)市场将在未来数年爆发式增长,从2013年底的91亿部安装设备增长到2020年的281亿部。
对大数据的有用洞察可以帮助企业获得很多潜在的好处,不仅是可以销售更多地产品和服务,还能更好地管理健康、阻止假药泛滥、追踪恐怖分子,甚至可能跟踪你的通话记录。因此我们知道,大数据并没有天生的好坏之分,重要的是你怎么用它。
具有讽刺意味的是,无论大数据在增进人类经验方面的潜力有多大,它通常还是很难收集、筛选、分析和解释来获得那些珍贵的思考和见解。这个幻灯片审视了大数据面临的挑战及其应对能力。确凿的事实会让你感到吃惊。我们该有什么样的期待?好吧,看起来Hadoop这个领先的大数据平台的未来一片光明。数据科学家和相关的大数据专家们应该在来年获得收入丰厚的工作。
业内人士已经预计热门词“大数据”将逐渐淡出。Hortonworks总裁Herb Cunitz在2012年12月的一篇博文中写道:“终究全都归于数据。大数据和对这个空间的所有预测都将瓦解,被分析师和所有那些紧随其后的人(包括很多“大”供应商)导向“数据管理””。
Cunitz可能过早地预见了“大数据”的终结,但他准确地指出:终究全都归于数据。只有用于管理的工具将要改变。现在,请深入研究我们的幻灯片,并观看一些展示的统计分析和研究报告。
有多少数据被忽视?
根据Forrester公司最近的一项研究,大多数公司都预计它们分析了大约12%的现有数据。这是好还是坏?好吧,这些公司可能会错过隐藏在它们忽视的88%数据里的洞察和思考。或许它们明智地避开了资源耗竭、试图将海水煮沸的战略。Forrester认为,分析工具的缺乏和“强制性”的数据孤岛是公司忽视自己绝大部分数据的两个原因,原因还包括一个简单的事实:对公司来说,常常很难判断哪些信息有价值,哪些信息最好是置之不理。
大数据暴增
疯狂的大数据对拥有一定技能的技术工人来说是个利好消息。按照Dice的说法,在一个技术和工程师专业人才网站上,对数据专家的需求呈猛增的态势。该网站4月份的报告中提到,NoSQL专家的职位发布数量比上年增长了54%,“大数据人才”的职位则增长了46%。类似的Hadoop和Python人才职位则分别增长了43%和16%。当然,这跟数据安全专家的职位发布比起来是小巫见大巫了,根据一项令人印象深刻的统计,后者在过去的一年里飙升了162%。
大数据到底有多大?
数字世界的体量将在仅6年内从今天的3.2ZB增长到40ZB(1ZB大致相当于10亿TB)。Hortonworks公司CEORob Bearden 在加州圣何塞2014Hadoop峰会的主题演讲中说到:“我们十分兴奋地看到身边的数据数量在爆发,企业数据的数量从现在到2020年将增长50倍。最重要的是,这些数据的85%来自全新的数据来源”。Bearden指出,这些来源包括移动设备、社交媒体和联网机器生成的数据,对全球的企业来说,既是挑战也是机遇。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04