京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据时代的利与弊_数据分析师培训
虽然早已听说过舍恩伯格的《大数据时代》,但直到前不久才浏览本书的内容,看完之后还是有点震撼的,主要是大数据对我们日常生活和思维的影响太大了。下面摘取部分原文表述或案例来梳理一下这本书,其中有我本人的部分总结和评述。
有三个案例比较有意思,一是福特的名言,“如果当年去问顾客他们想要什么,他们肯定会告诉我:一匹更快的马。”
乔布斯多年来持续不断地改善Mac笔记本依赖的可能是行业分析,但是他发行的iPod、iPhone和iPad靠的不是数据,而是直觉,第六感。
谷歌公司内部的研究表明工作表现与大学毕业时的平均绩点没有关系,但其创始人依然要应聘者提供分数。
前两个例子(福特和苹果)说明大数据有时候是无效的,后面谷歌的例子则说明管理层对数据过度的执着。
大数据对人类生活的破坏莫过于它过于强大的预测功能,如通过一个人过去的表现可以准确预测到他在特定环境下一定会犯罪,那么,社会保障机制就会惩罚一个从来没有犯错的人。如书中所述:
“因为预测的结果几乎不可辩驳,人们也就无法为自己开脱。但这种基于预测得出的惩罚不仅违背自由意志的原则,同时也否定了人们会突然改变选择的可能性。”
以上弊多些,下面谈利。
聪明的公司会从人们与信息交互中收集数据废气,以用来改善现有的服务或推出全新的服务。
“拥有知识曾意味着掌握过去,现在则更意味着能够预测未来。”-----这句话很精辟。
“情报分析员结合实地考察报告和过去IED袭击地点、时间和人员伤亡的详细信息,据此预测一天中最安全的运送路线。”类似的,我也听说过美国建立的爆炸物碎片博物馆的事情,基于爆炸物的各种信息追踪恐怖分子武器弹药的生产基地和储存地点。
“为了促进大数据平台的良性竞争,政府必须运用反垄断条例。”
谷歌对量化数据的极致追求可能过头了,因此激起了员工的反抗。(弊)
通过大数据预测来判断和惩罚人类的潜在行为是对公平公正和自由意志的一种亵渎。(弊)
过去是要成为一个优秀的生物学家就需要认识很多生物学家,但现在可能是,要解决一个生物难题或许和天体物理学家或数据视图设计师联系即可。
由于大数据的功劳,微软机器翻译部门的统计学家在茶余饭后的谈资就是每次一有语言学家离开他们的团队,翻译质量就会好一点。
当亚马逊的贝索斯发现算法推荐能促进销量增加的时候,他就不再需要书籍评论员了。
“有风险才有回报。”
更明智的选择是让自己受益,汽车制造商与供货商的例子十分精彩,感兴趣的可以参见原书p171.
上班高峰期交通状况的变好说明失业率增加,即经济状况变差。
谷歌和亚马逊:数据、技能和思维三者兼备的优秀公司。
数据的拥有者可能没有使用数据的动机和强制要求。
外行人的思维不受专业限制,可能做出有更有价值的发现。
数据科学家是统计学家、软件程序员、图形设计师和作家的结合体。
谷歌首席经济学家范里安认为统计学家是世界上最棒的职业,“如果你想成功,你不应该成为一个普通的、可被随意替代的人,你应该成为稀缺的、不可替代的那类人。”“数据非常之多,但是真正缺乏的是从数据提取价值的能力。”
DataMarket向人们提供其他机构(如联合国、世界银行和欧盟统计局等)的免费数据,真的吗??
无形资产,如数据占到美国上市公司价值的75%。
政府才是大数据的原始采集者,因此奥巴马说的很好,“面对怀疑,公开优先”,就是政府应该承担的责任。
丹麦癌症协会的案例:手机是否增加致癌率。他们使用的数据集原本根本不是用来研究这个问题的,基于“样本=总体”,做出了重大发现:使用移动电话与癌症风险增加不存在任何关联。这项研究彰显了“重组数据(二次利用)”的魅力。
思维的转换案例:零售商在店内安装监控摄像头不仅能认出商店扒手,还能跟踪在商店购物的顾客和他们停留的位置。零售商利用后面的信息可以设计店面的最佳布局并判断营销活动的有效性。在此之前,监控摄像头仅用于安保,现在则变成的一种可以增加收入的投资。
同样是亚马逊和谷歌的案例,AOL和Nuance与他们合作简直亏死了,大公司真可怕!
同样是震撼的案例:
“数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。”
1)Farecast利用机票销售数据来预测未来的机票价格;2)谷歌重复使用搜索关键词来预测流感的传播;3)麦格雷戈博士用婴儿的生命体征预测传染病的发生;4)莫里重新利用老船长的日志而发现了洋流。
几十年的试验和错误才实现现有加油站的有效分配,但电动汽车的充电站的需求和设置点目前还不得而知。
哈哈,“鱼不知道自己是湿的”,真的吗??
验证码的发明人路易斯27岁时获得了50万美元的麦克阿瑟的“天才奖”。(题外话:2012年美国的最低工资是7.25美元/小时,一天工作八小时的话,则是348元人民币。)
一点点的不精确比完全精确更有效。
当地板数据化的时候,它能滋生无穷无尽的用途。
大数据分析表明:个人偿还债务的可能性和其朋友偿还债务的可能性正相关,物以类聚,人以群分啊!
UPS最佳行车路径:尽量少左转,因为左转要求货车在交叉路口穿过去,所以更容易出事故。货车往往需要等待一会才能左转,因此更耗油,减少左转使得行车的安全性和效率都得到了大幅提升。
莱维斯:“预测给我们知识,而知识赋予我们智慧和洞见。”
iPhone本身就是一个“移动间谍”,同样包括安卓的和微软的手机。
谷歌,一个喜欢跨界的叛逆的大数据公司。亚马逊深谙数字化内容的意义,而谷歌触及了数据化内容的价值。
哈佛大学的研究人员发现5000亿个单词中有一半以上在字典中无法找到,真的吗?
1900年以前,“因果关系(causality)”这个词比“相关关系”(correlation)使用频率高,但在1900年之后,情况相反。(Google Ngram Viewer)
“Data”这个词在拉丁文里是“已知”的意思。
邓肯说:一旦你知道了结果,一切都很容易。
感冒与穿戴之间没有直接关系。
“数据表明,早产儿的稳定不但不是疾病好转的标志,反而是暴风雨前的宁静,就像是身体要它的器官做好抵抗困难的准备。”类似于回光返照啊!
“一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。”冰冻三尺非一日之寒!
达尔文的表弟费朗西斯-高尔顿爵士就注意到了人的身高与前臂长度的关系,达尔文家族真是厉害,好像每个人都是科学家!
相关关系的核心是量化两个数据值之间的数理关系。
印象派的画风:近看每一笔都是混乱的,退后一步看却是一副伟大的作品。
快速获得事物的一个大概的轮廓和发展脉络,就要比严格的精确性要重要的多。
伟大的物理学家开尔文男爵:测量就是认知。
一个在关系网内有着众多好友的人的重要性不如一个与很多关系网外的人有联系的人,说明多样性的额外价值。------Structureand tie strengths in mobile communication networks.
拥有全部或几乎全部的数据,我们就能够从不同的角度,更细致地观察和研究数据的方方面面。
大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。
异常值也是很有用的信息,如甄别信用卡诈骗。
我们不能满足于正态分布一般中庸平凡的景象,生活中真正有趣的事情经常藏匿在细节之中,而采样分析法无法捕捉到这些细节。
“采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。当样本数量达到某个值后,我们从个体身上得到的信息越来越少。”---p33,但这只是传统的数据收集方法,且必须保证“随机性”才是成立的!
“宝贝不止一个,每个数据集内部都隐藏着某些未被发觉的价值。”
“相关关系也许不能准确地告知我们某件事情为何发生,但是它会提醒我们这个事情正在发生。”
“大数据的核心就是预测。”
“物理学和生物学都告诉我们,当我们改变规模时,事物的状态也有也会发生改变。”
“数据的奥妙只为谦逊、愿意聆听且掌握聆听手段的人所知。”
谷歌为测试检索词条,总共处理了4.5亿个不同的数学模型,惊叹!
“越是万能的,就越是空洞的。”----至理名言!
大数据时代处理数据理念上的三大转变:要全体不要抽样、要效率不要绝对精确、要相关不要因果。
“最重要的是人们可以在很大程度上从对于因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上,只要发现两个现象之间存在的显著相关性,就可以创造巨大的经济和社会效益,而弄清二者为什么相关可以留待学者们慢慢研究。”---谢文
大数据在公共卫生、商业服务领域的应用:不再追求精确性,不再追求因果关系,而是承认混杂性,探索相关关系。
我觉得可以以下面一小段话结束全文:关于大数据,我们或许还不能完全适应,因为我们脑海里一种根深蒂固的对因果关系和精准数据的追求。而我们的下一代,一群被“大数据观念”陶冶长大的家伙,会发自肺腑地认为“量化一切”并从中学习对于社会是至关重要的。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10 很多数据分析师每天都在计算指标、制作报表,但当被问到“什么叫指标数据元”“指标数据标准包含哪些核心维度”“指标数据质 ...
2026-06-10在MySQL数据库日常查询、数据统计、后台接口开发、数据导出等场景中,开发者经常需要查询数据表除某几列之外的所有字段。例如查 ...
2026-06-09在Python网络请求、爬虫开发、接口测试、数据抓取等实操场景中,requests库是最常用的第三方请求工具,而content属性是requests ...
2026-06-09 数据分析正在重塑每一个行业。CDA认证的三本官方教材,分别对应Level I、Level II、Level III,为你铺就从业务数据分析到数 ...
2026-06-09在数字财务、智慧财税、业财融合深度推进的当下,传统财务模式下数据标准混乱、业务流程碎片化、知识无法沉淀、系统互通性差等问 ...
2026-06-08随着数字经济深度渗透各行各业,数据正式成为继土地、劳动力、资本、技术之后的第五大生产要素,是企业数字化转型、精细化运营、 ...
2026-06-08 很多数据分析师能熟练写SQL、做透视表,但当被问到“数据是从哪里来的?经过哪些加工才进入数据仓库?ETL具体做了什么?”时 ...
2026-06-08【核心关键词】贷款、报表、课程、专业、建模、缺失值、营销、互联网、银行、办公自动化、数据分析、数据预处理、特征工程、贷 ...
2026-06-05在数据库数据查询、业务报表统计、多表关联分析中,LEFT JOIN左连接是使用率最高的SQL关联查询语句。其核心特性是保留左表全部数 ...
2026-06-05 很多数据分析师能熟练地写SQL、做透视表、算描述性统计,但当被问到“如何预测用户流失概率”“如何归因销量下滑的关键因素 ...
2026-06-05任何一款产品从诞生、普及到最终退出市场,都会遵循一套固定的发展规律,这就是产品生命周期理论。在市场竞争日益激烈、产品迭代 ...
2026-06-04在Excel数据分析、办公统计、业务报表制作场景中,数据透视表是数据汇总、分类统计、快速复盘的核心工具,能够高效完成海量原始 ...
2026-06-04