京公网安备 11010802034615号
经营许可证编号:京B2-20210330
不关注人性的大数据,只是大忽悠_数据分析师培训
斯大林曾说:一个人的死是悲剧,一百万个人的死就是数据。如果拿医学界的术语,这是一种共情疲劳,如果换成时下最流行的术语,就是我们还无法处理大数据。
上周参加腾讯思享会,主题就是“大数据将如何影响社会变革”。场间针对大数据,提出了不同的声音,有“数据孤岛论”:现有的大数据是断裂而封闭的,比如腾讯说自己有某方面的全数据,但是否有百度,有阿里的?有“数据阴谋论”:现在在用大数据做事的就是大企业和政府机构,如果我们普通人不能掌握,那就是被一个无形的网所束缚、所监控。有从经济安全角度来看待大数据处理“黑箱”问题时的作用。也有从实践角度来谈论大数据在商界中的应用。但最触动我的是下面两个观点。这里简单摘编下以飧读者。
不关注人性的大数据是大忽悠---刘德寰
现在主流对大数据的理解是基于维克托的《大数据时代》进行二次改良。但这其中有两个十分值得商榷的观点,一是对抽样的极端蔑视,二是无原则的推崇相关。大数据是一种抛弃随机分析法(抽样调查)而对所有数据进行处理,那么这其中就存在一个由斯坦福Trevor Hastie提出的问题,如何在稻草里找一根针,前提是很多稻草长得和针一样。这是我们所有大数据研究面临的最大风险,数据太大之后带来的实际上是一个规律的丧失和失真,千万不要忽视了抽样。
抛开这两个观点,更为可怕的是现在的大数据鲜有关注人性。先举个生活中大家都遇到过的问题,一个人去网上买了5升的洗衣液,整个流程花费了不到1分钟。第二天浏览网页,他发现旁边的广告就是各种各样的洗衣液。这是什么?基于大数据的精准营销? 这恐怕是基于大忽悠的精准骚扰吧。 有点常识的人都知道,5升的洗衣液就算家里人再多也要用一个月,而且那个人流程这么短,肯定就是品牌忠诚者,推广的应该是什么时候那个品牌的洗衣液会打折之类的,这才是大数据。人类早期研究问题的方法就是靠体会、知觉、体验、内省等,这些看起来跟大数据无关的东西可能恰恰是大数据的核心,因为它是思想。
谷歌2008年弄了一个非常厉害的东西叫流感趋势预测,它预测的结果比美国疾病控制中心还准,当时轰动了全球。结果后来里面东西越来越乱,严重的高估了流感的状态。为什么?这就是刚刚说的维克多流派谈大数据的时候重相关不重因果。流感跟发病的时间点,跟美国比如中学生篮球赛那个时间点是完全一致的,这俩概念能有关系吗?问题是只要搜索中学生的篮球赛,就构成了流感预测的一个主要的词之一。类似的东西太多了,为什么?因为在谷歌预测的时候,没有找疾控公共卫生的专家,这些东西才是进行大数据预测的一个很重要的前提。
基因工程才是真正的大数据
人有多少细胞?量级为10的14次方。 其中一个细胞癌变就能导致你生命的完结。难道这不是大数据?真正的大数据是生命大数据,基因筛查可以消灭先天性疾病和预防癌症,人类想在千年之后复活亦不是难事。可是这样的基因科技发展却遭遇了无数现实瓶颈和伦理挑战。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-10在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-10在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09在数据可视化领域,折线图是展示时序数据、趋势变化的核心图表类型之一,其简洁的线条的能够清晰呈现数据的起伏规律。Python ECh ...
2026-04-09在数据驱动的时代,数据分析早已不是“凭经验、靠感觉”的零散操作,而是一套具备固定逻辑、标准化流程的系统方法——这就是数据 ...
2026-04-09长短期记忆网络(LSTM)作为循环神经网络(RNN)的重要改进模型,凭借其独特的门控机制(遗忘门、输入门、输出门),有效解决了 ...
2026-04-08在数据分析全流程中,数据质量是决定分析结论可靠性的核心前提,而异常值作为数据集中的“异类”,往往会干扰统计检验、模型训练 ...
2026-04-08在数字经济飞速发展的今天,数据已渗透到各行各业的核心场景,成为解读趋势、优化决策、创造价值的核心载体。而数据分析,作为挖 ...
2026-04-08在数据分析全流程中,数据处理是基础,图形可视化是核心呈现手段——前者负责将杂乱无章的原始数据转化为干净、规范、可分析的格 ...
2026-04-07在数据分析与统计推断中,p值是衡量假设检验结果显著性的核心指标,其本质是在原假设(通常为“无效应”“无差异”)成立的前提 ...
2026-04-07在数字经济深度渗透的今天,数据已成为企业生存发展的核心资产,企业的竞争本质已转变为数据利用能力的竞争。然而,大量来自生产 ...
2026-04-07Python凭借简洁的语法、丰富的生态库,成为算法开发、数据处理、机器学习等领域的首选语言。但受限于动态类型、解释性执行的特性 ...
2026-04-03在深度学习神经网络中,卷积操作是实现数据特征提取的核心引擎,更是让模型“看懂”数据、“解读”数据的关键所在。不同于传统机 ...
2026-04-03当数字化转型从企业的“战略口号”落地为“生存之战”,越来越多的企业意识到,转型的核心并非技术的堆砌,而是数据价值的深度挖 ...
2026-04-03在日常办公数据分析中,数据透视表凭借高效的汇总、分组功能,成为Excel、WPS等办公软件中最常用的数据分析工具之一。其中,“计 ...
2026-04-02在数字化交互的全场景中,用户的每一次操作都在生成动态的行为轨迹——电商用户的“浏览商品→点击详情→加入购物车”,内容APP ...
2026-04-02在数字化转型深度推进的今天,企业数据已成为驱动业务增长、构建核心竞争力的战略资产,而数据安全则是守护这份资产的“生命线” ...
2026-04-02在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01