
大数据的三个思维变换_数据分析师
维克托·尔耶·舍恩伯格在《大数据时代:生活、工作与思维的大变革》中最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
知名IT研究机构Gartner以它对专业IT市场的“魔力象限图”发布作为一种评价方式,在其二维矩阵里,横轴是前瞻的完整性,纵轴是执行力,如果用此分析方法来评价《大数据时代》这本书,它大概位于右下角靠近纵轴中间点的位置。
2012年,笔者看过的3本有关大数据的中文书,它们分别是《证析》、《大数据》和维克托·迈尔·舍恩伯格的《大数据时代》。与其他两本相比,舍恩伯格这本书的特点重在“Impact Analysis”的前瞻分析,在大数据时代的思维变迁方面有启发价值。也说是说,此书对于企业高管和CIO的价值更大,它基本没有太多讨论技术,而偏重于观念转移(Paradigm Shift)。www.yunmar.com.cn
简单说来,这本书的价值可以用两个“三”、一个“一”来概括:第1个“三”是3个关于大数据的思维变换,重在大数据变革时代的价值与观念变化;第2个 “三”是关于大数据影响商业变革的3个要素:即数据、技术与创新思维之间的互动;一个“一”是关于大数据泛化下的治理与隐私。
关于大数据本身的价值已无需赘述,此处重点讨论关于大数据的3个思维变化:1.不是随机样本,而是全体数据;2.不是精确性,而是混杂性,尤其是大数据的简单算法比小数据的复杂算法有效;3.不是因果关系,而是相互关系。
《大数据时代》一书提醒读者,大数据是全数据,至少维度要全,这带来了观察和分析事物的角度变化,尤其相对于传统IT系统数据,大数据强调了数据的外部性和实时性,这两个特性也使得“证析”提到的基于事实(Evidence)的分析成为可能,不过此书忽略了外部数据与企业内部数据结合的分析价值。比如,对于政府来说,分析大范围的公共卫生事件、传染病可以更快地利用大数据(比如微博)发现目前的情况,但具体要调度资源,还是需要结合“小数据”的精确决策。
第2点的核心观念关于大数据的简单算法来自谷歌的洞见,也来自于Hadoop(一个分布式系统基础架构,由Apache基金会开发)这类算法的核心理念。大数据的简单算法是一种统计学的逻辑,这个如同热力学的分析模式,热力学并不关心具体的分子运动,而是关心温度、体积、压强之间的宏观联系,关于这种理念的内在理解,建议读者从吴军的《数学之美》一书中获得,只有真正理解了大数据基于统计学的思维方式,才能理解它的独特优势和局限。这种方式可以解决以往技术无法解决的大范围、实时性和并行处理等问题,并带来新的洞见,它用概率说话,并不是和人就细节较真。这个来自互联网公司的观念是,希望先解决80%的趋势问题,然后慢慢精细化。
第3点,大数据关注“是什么”,而不是“为什么”,经常网购的人会更容易体会。很多电商网站的推荐引擎具备这种能力,它能够在顾客买书的时候,推荐顾客刚好喜欢的其他书籍,顾客可能不知道“为什么”,其实网站也不在乎“为什么”,(“为什么”可以由学术专家慢慢分析)。但是网站根据成千上万甚至上亿人的统计学分析,就可以发现“关联物”,或者说大数据更擅长通过统计分析人类所不能感知的关联,并建议人采取行动。这个革命式的思维非同小可,以前“啤酒+尿布”的数据仓库故事需要数据整理、清洗转换和专家建模挖掘,其采购行为的关联性可能被Hadoop等算法轻易的发现。上述方式由于分析门槛低,已经成为一种常见的工具,并衍生大数据的云服务的商业模式,成为企业可以购买的“分析即服务”(Analytics as a Services),国内阿里系正致力于这种模式的建立。
第2部分关于大数据商业模式方面,最有价值的是关于大数据商业生态的分析,除了大家熟知的数据、技术,作者认为还有第3种基于思维的大数据公司,包括数据中间商等等,这对于国内过于关注技术本身的趋势是个很好的提醒。一个有趣的话题是,作者认为基于统计的数据科学家会逐步取代行业专家,因为大数据发现的新的真实联系,可能会颠覆传统行业专家,这个话题学术界可能很感兴趣。一个耐人寻味的例子是,基于大数据统计分析的自然语言翻译几年前就胜过了基于语义理解的语言学家派别,书中提到的一个从事语言翻译的算法小组甚至开玩笑地说,“每次我们组走了一个语言专家,我们的翻译精确度就提高一些”。
第3部分是关于大数据成为乔治·奥威尔《一九八四》里的“老大哥”,即通过技术手段实现了无处不在的监控以后,隐私和滥用的问题最为让人担心。笔者认为这个话题过于公共,而且已有很多文章在讨论,并不是本书的特质,况且大数据的兴起是一个渐进的过程,各个行业的实用案例尚在兴起,行业内部应专注于行业创新,关于公共的话题的讨论还是留给学者、政府和未来。
西方作者有一类是理念的鼓吹者,最著名是《失控》的作者KK(凯文·凯利),此类被读者推崇为传教士的作者,喜欢推广颠覆式的观念,产生一种前世今生(Before/After)比较的震撼力。本书作者也是如此,如此颠覆,强力的大数据时代似乎正在到来,然而,此类作者也会被人指责为“管杀不管埋” ——提出理念,不对具体的可行性负责。回到前文提到的Gartner的“魔力象限图”,渐进的执行力才是大数据这种趋势逐步在各个行业开花的关键。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09CDA 数据分析师:驾驭商业数据分析流程的核心力量 在商业决策从 “经验驱动” 向 “数据驱动” 转型的过程中,商业数据分析总体 ...
2025-09-09R 语言:数据科学与科研领域的核心工具及优势解析 一、引言 在数据驱动决策的时代,无论是科研人员验证实验假设(如前文中的 T ...
2025-09-08T 检验在假设检验中的应用与实践 一、引言 在科研数据分析、医学实验验证、经济指标对比等领域,常常需要判断 “样本间的差异是 ...
2025-09-08在商业竞争日益激烈的当下,“用数据说话” 已从企业的 “加分项” 变为 “生存必需”。然而,零散的数据分析无法持续为业务赋能 ...
2025-09-08随机森林算法的核心特点:原理、优势与应用解析 在机器学习领域,随机森林(Random Forest)作为集成学习(Ensemble Learning) ...
2025-09-05Excel 区域名定义:从基础到进阶的高效应用指南 在 Excel 数据处理中,频繁引用单元格区域(如A2:A100、B3:D20)不仅容易出错, ...
2025-09-05CDA 数据分析师:以六大分析方法构建数据驱动业务的核心能力 在数据驱动决策成为企业共识的当下,CDA(Certified Data Analyst) ...
2025-09-05SQL 日期截取:从基础方法到业务实战的全维度解析 在数据处理与业务分析中,日期数据是连接 “业务行为” 与 “时间维度” 的核 ...
2025-09-04在卷积神经网络(CNN)的发展历程中,解决 “梯度消失”“特征复用不足”“模型参数冗余” 一直是核心命题。2017 年提出的密集连 ...
2025-09-04