
大数据:在信息的海洋里寻找洞见_数据分析师
什么是 「大数据」 (Big data)?研究机构 Gartner 给出了这样的定义。「大数据」是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据是数据分析的前沿技术。从各种类型的数据中,快速获得有价值信息的能力,就是大数据技术,这也正是促使大数据技术具备走向众多企业的潜力。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,通过「加工」实现数据的「增值」。
近 10 年来,政府和企业在世界范围内收集了大量互联网用户的数据,不仅仅是姓名和数字,而是一连串数据—大数据。 国际数据公司 (International Data Corporation) 最近预测大数据行业复合年增长率将达到 26.4%,在 2018 年达到 415 亿美元。这意味着越来越多的企业和组织将花费巨资研究分析大数据并获得有价值的信息。负责美国宇航局在加州帕萨迪纳市的喷气推进实验室大数据的 Chris Mattmann 表示,NASA 总共管理着几百 PB 容量的数据,几乎达到 1EB。
1 EB(Exabyte,艾可萨字节或艾字节) 是多少容量?这意味着 10 亿 GB,像这样:1000000000 GB。
这些巨大的数据扩散的速度如此之快以至于传统的数据技术跟不上它们的节奏。TNS 市场研究公司 (Taylor Nelson Sofres)亚太地区首席执行官 Chris Riquier 告诉我大数据对市场研究有非常大的影响。Riquier 表示,市场研究是建立在调研和问卷调查之上的。他讲道,在过去,调研的过程或花费数周的时间,最终用呈现的数据来分析企业规模和相关信息,通过整合社交媒体数据、搜索数据以及其他形式的大数据来做成报告,而现在我们有机会来「重新思考研究是如何完成的。」Riquier 表示,由于大数据,我们对「市场和决策力的反应已经发生了很大的变化。」
在今天的数字世界里,大数据通过跨行业、政府、科学、公共健康和学术界来发现相关性。在过去,从信息里的海洋里获得有用的数据信息对大多数人来说一直是可望而不可即的事情。直到去年,哈佛杂志在 2014 年刊登的一篇文章,标题为「为什么大数据是一桩大买卖?」( Why「Big Data」is a Big Deal ),文中表示通过改进的统计和计算方法, 包括关联数据集、可视化数据以及创建「大算法」等这些关键的创新,能使我们快速处理这些数据并为我们所用。从物理学家到文天学家,他们长期与大数据打交道,数据科学家和社会学家通过结合定量与定性的方法来从大数据中获得有用的信息。实际上,大数据正在创造一个新领域,哈佛大学工程与应用科学学院为此开设数据科学硕士学位。
在《大数据-一场改变我们生活、工作和思考的革命》一书中,Viktor Mayer-Schonberger 和 Kenneth Cukier 谈到企业是如何改变方式来做出决策—基于对大数据的分析。例如,谷歌通过其收集的大数据来预测预测禽流感的散布,其反应速度比美国疾病控制中心还要迅速。
据 华尔街日报 最近的一篇文章,加拿大银行使用由开源软件开发商 Apache 开发的 Hadoop 来储存和处理大数据,并能识别洗钱和欺诈等犯罪行为。
大数据之于普通人
哈佛、NASA、谷歌和 Apache 利用大数据的分析能力在世界范围内带来先进的技术,但就像我之前提到的,这并不意味着科学家们能很快从大数据中受益。让我们来看一看一些企业和公司在收集和管理大数据的几个方面。
其中大数据最主要的一个用途就是在市场中的搜索引擎优化(SEO)。公司和企业能利用搜索引擎公司如谷歌和必应提供的工具,结合不同的社交媒体数据,收集有用的信息来进行网络营销。咨询公司 Hall Analysis 的研究员 Joe Hall 主要研究搜索引擎优化和大数据,他表示有两种方法能使用大数据来处理搜索引擎优化。
他说:「第一种是处理与大数据集有关联的业务。在大多数情况下这意昧着大品牌和大企业能获得非常多的数据。」Hall 引用一个例子,一个客户有 1600 万个反向链接,或者从其他网站链接指向客户的网站。这些链接对谷歌和其他搜索引擎来说是一个非常重要的排名因素。他解释说,数据集的大小需要像模式分析那样有强大的处理各种任务的能力,并在这种水准下为反向链接分析改变规则。
Hall 表示,第二种方法是公司能利用大数据使搜索引擎优化变得更具态势感知能力。这表明使用相关性研究能更好了解排名因素以及用户点击率、排名结果页面等用户行为分析。这两种分析类型都需要大数据分析来达到最终的目的,并能有效帮助 SEO 专家开阔一个「更大的局面」。
另一方面是大数据在商业活动中能获得用户的忠诚度。举个例子,比如我是一个创业公司的创始人,在我成功运作公司的第一年后,公司业绩蒸蒸日上,于是我给自己放个大假,去夏威夷度假。但在机场安检的时候,检票员告知我由于我的箱子超重,我需要付额外的费用。但是检票员可能不知道,作为一个成功创业公司的创始人和 CEO,我和我的员工将会在全世界各大城市奔波,为航空公司贡献更多的里程。如果航空公司使用大数据整合来自信用卡公司、社交媒体源、博客、酒店等相关信息,他们会可能取消这样的额外收费还能获得一个忠诚的客户。
无论是大公司的 CEO 或是研究癌症的医生,或是一个淘宝店老板,使用大数据分析都将会为他们带来有价值的信息。当我们进入到这样一个时代:基于大数据分析来作出决策,这将不可避免地改变我们思考世界的方式。
今天这一代人出生在数字化时代。而下一代人将进入大数据时代。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04