京公网安备 11010802034615号
经营许可证编号:京B2-20210330
为何大数据让人开始怀疑人生
一年多前听说了“大数据”这个词,以为就是“数据大”的意思,随着媒体不断地曝光,以及今年阿尔法狗升级版横扫当今围棋第一人年轻的柯洁之后,对“大数据”的好奇油然而生。
于是从书橱里翻出来这本由舍恩伯格写的“大数据时代”,不指望自己能够读懂读通,但是读总比不读要强,遵循“开卷有益”的传统吧。
今天读的是引言部分。这本书号称“一场生活、工作与思维的大变革”。本书开门见山地说明,大数据在变革公共卫生,变革商业以及变革思维方面,已经出现在我们的生活当中了。大数据开启时代转型。
“大数据时代”举了一个在流行疾病防控的例子。说谷歌公司通过5000万条最频繁检索的词条,与流行病流行传播时期的数据进行了比较,通过分析人们搜索的记录来判断这些人是否患上了流感。
谷歌的研究人员去找到这些特定的检索词条,至于这些词条是否必须是“咳嗽”“发热药物”不是关注重点,这同我们寻找事发原因的常用手法不同,他们关心的是这些特定检索词条的被使用频率与流感在时间与空间上的传播之间的联系。
谷歌公司正好是一个其他公司都无法具备拥有的庞大数据源以及处理能力和统计技术的公司,他们找到了这45个检索词条组合,他们的预测结果的相关性高达97%,同疾控中心一样也能判断它从哪里传播出来,关键是相当及时,可比疾控中心早一两周,这一两周时间的金贵可想而知。
另一个是在商业运用的例子。一位计算机工程师在网上预订机票,坐上飞机后,他发现他的左邻右舍机票都比他订的晚,却比他便宜。
颠覆了他的“机票订的愈早愈便宜”的概念。下了飞机后,他开发了一个预测机票价格的系统。这个系统不需要知道哪些因素导致了机票价格的波动。
比如“周六晚上不出门”之类的原因,比如季节性原因,比如还有很多座位没卖掉的原因。这个系统只是通过其他航班的数据来预测未来机票价格的趋势。
帮助消费者抓住最佳购买时机。它拥有每一条航线每一架飞机内的每一个座位一年内的综合票价的记录的数据,海量的数据支持,为消费者节省了一大笔钱。
这些例子告诉我们都需要海量的数据支持以及存储与处理能力,在五年前或十年前“这都是不可能的”,从这个角度讲,我的理解大数据就是数据大。
大数据的意义并不仅在于此,它是有生命力的。通常数据使用之后就结束了他的使命,比如,飞机降落后,票价数据就没有用了。
但它被收集起来,用于机票预测系统。死了的,没用的数据,可以被巧妙地用来激发新产品和新型服务。
可见只要你改变思维,了解数据的奥秘,而数据只为那些愿意聆听的人所掌握。所以,大数据真正的含义,就是从那些从“静止的,陈旧的”数据中获得新的认知,并创造出新价值。
从信息爆炸的二十世纪以来,随着数据处理能力的爆发式增长,大数据时代的到来已经无可回避。
大数据的核心是什么?作者告诉我们是预测。它有点类似人工智能(机器学习),在书中,预测被定义为把算法运用到海量的数据上来预测事情发生的可能性。
好吧,在之后的章节或许会解释得更清楚。但从人机大战的情况来看,阿尔法狗每一步棋的海量运算后都会给出一个胜率,自动找出一个最好的下法。
没读这本书前,我会把大数据与人工智能当做两个事情,现在看来人工智能只是大数据这顶王冠上的一颗明珠,二而一。
引言的最后一部分讲的是“大数据是大挑战”。大挑战,挑战的是什么?我看就是挑战我们过去的传统思维,固有思维,只有变革思维才能适应大数据时代的到来。
书中说到三个转变,第一个转变随机采样趋于死亡;第二个转变数据之大追求精确度失去意义;第三个转变不再热衷寻找因果关系。
前两个转变依赖于高度发展的数据储存能力与处理能力,我们尚能理解并主动地去适应,但第三个转变却想当头棒喝,我脑海里只有一个词“第三只眼看世界”,已经不是换角度看世界那么简单了。
书中举了两个例子来说明,大数据只告诉我们“是什么”而不是“为什么”。比如机票的例子,你只要知道什么时候买最便宜,无须知道价格涨跌背后的原因;比如有几百万条医疗记录显示“橙汁+阿司匹林”的组合能治疗癌症,找出具体的药理机制就没有这种治疗方法本身来得重要。
可怕就在于不必知道现象背后的原因,只要让数据发声。让数据发声,意味着数据成了主导,然而我们不一定了解自己的数据,即便有了数据,有了数据商业资本,它还会让我们陷入一种寻宝的游戏。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,商业竞争的核心已从“经验驱动”转向“数据驱动”,越来越多的企业意识到,商业分析不是简单的数据统计与报表呈现 ...
2026-05-06在Excel数据透视表的实操中,“引用”是连接透视表与公式、辅助数据的核心操作,而相对引用作为最基础、最常用的引用方式,其设 ...
2026-05-06 很多数据分析师做过按月份的销售额趋势图,画过按天的流量折线图,但当被问到“时间序列和普通数据有什么本质区别”“季节性 ...
2026-05-06在Excel数据分析中,数据透视表是汇总、整理海量数据的高效工具,而公式则是实现数据二次计算、逻辑判断的核心功能。实际操作中 ...
2026-04-30Excel透视图是数据分析中不可或缺的工具,它能将透视表中的数据快速可视化,帮助我们直观捕捉数据规律、呈现分析结果。但在实际 ...
2026-04-30 很多数据分析师能熟练地计算指标、搭建标签体系,但当被问到“画像到底在解决什么问题”“画像和标签是什么关系”“画像如何 ...
2026-04-30在中介效应分析中,人口统计学变量(如年龄、性别、学历、收入、职业等)是常见的控制变量或调节变量,其处理方式直接影响分析结 ...
2026-04-29在SQL数据库实操中,日期数据的存储与显示是高频需求,而“数字日期”(如20240520、20241231、45321)是很多开发者、数据分析师 ...
2026-04-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-04-29在手游行业竞争日趋白热化的当下,“流量为王”早已升级为“留存为王”,而付费用户留存率更是衡量一款手游盈利能力、运营质量的 ...
2026-04-28在日常MySQL数据库运维与开发中,经常会遇到“同一台服务器上,两个不同数据库(以下简称“源库”“目标库”)的表数据需要保持 ...
2026-04-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-04-28箱线图(Box Plot)作为一种经典的数据可视化工具,广泛应用于统计学、数据分析、科研实证等领域,核心价值在于直观呈现数据的集 ...
2026-04-27实证分析是社会科学、自然科学、经济管理等领域开展研究的核心范式,其核心逻辑是通过对多维度数据的收集、分析与解读,揭示变量 ...
2026-04-27 很多数据分析师精通Excel函数和数据透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么 ...
2026-04-27在大数据技术飞速迭代、数字营销竞争日趋激烈的今天,“精准触达、高效转化、成本可控”已成为企业营销的核心诉求。传统广告投放 ...
2026-04-24在游戏行业竞争白热化的当下,用户流失已成为制约游戏生命周期、影响营收增长的核心痛点。据行业报告显示,2024年移动游戏平均次 ...
2026-04-24 很多业务负责人开会常说“我们要数据驱动”,最后却变成“看哪张报表数据多就用哪个”,往往因为缺乏一套结构性的方法去搭建 ...
2026-04-24在Power BI数据可视化分析中,切片器是连接用户与数据的核心交互工具,其核心价值在于帮助使用者快速筛选目标数据、聚焦分析重点 ...
2026-04-23以数为据,以析促优——数据分析结果指导临床技术改进的实践路径 临床技术是医疗服务的核心载体,其水平直接决定患者诊疗效果、 ...
2026-04-23