京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据技术存在局限 经验直觉不可或缺
大数据将(Erik Brynjolfsson)称,大数据将取代想法、范例、组织以及人们思考世界的方式。
这些前卫的预测的前提是:Web浏览记录、传感器信号、GPS跟踪和社交网络信息等数据能够以前所未有的程度面向衡量和监控人类及设备的行为敞开大门。通过计算机算法,可以预测出人类的许多事情,如购物、约会或投票等。
业内专家预计,最终的结果就是:世界变得越来越智能,企业的工作效率越来越高,消费者获得的服务质量越来越高,人们所做出的决定也越来越合理。
我之前写过不少关于大数据的文章,但在2012年底这个特殊的时刻,我想应该是反思、 提问和质疑大数据的时刻。
从商业评估中挖掘实用启示并非新鲜事物。100多年前,弗雷德里克温斯洛泰勒(Frederick Winslow Taylor)的名著《科学管理原理》就是大数据的前身。泰勒的评估工具是秒表,为员工的每一个行动进行定时和监测。泰勒及其助手利用这种时间和动作研究模式来重新设计最有效的工作方式。
但如果这种方法被过度夸大,就成为了卓别林《摩登时代》(Modern Times)所讽刺的对象。此后,人们对于这种量化方法的热情也开始跌宕起伏。
通常,互联网被大数据倡导者作为成功的数据业务的范例,这其中以谷歌为代表。而如今,许多大数据技术,如数学模型、预测算法和人工智能软件等已被华尔街所广泛应用。
在本月的麻省理工学院大会上,当被问及大数据领域一些重大失败案例时,几乎没有人能够说出这样的失败案例。后来,麻省理工学院斯隆管理学院(Sloan School of Management)教授罗伯特莱格伯恩(Roberto Rigobon)称,金融危机毫无疑问影响了数据业务。他说:对冲基金在全球都是失败的。
问题是,数学模型是一种简化。这种模型源自自然科学,根据物理定律,流体中的粒子行为是可以预测的。
在如此众多的大数据应用中,一个数学模型通常附带关于人类行为、兴趣和偏好的精确数据。这种方法在金融等领域的危险性也是有目共睹,美国哥伦亚亚大学金融工程学系主任曼纽尔德曼(Emanuel Derman)在他的书中《Models. Behaving. Badly》中就详细阐述了其危险性。
纽约创业公司Media6Degrees首席科学家克劳迪娅珀利彻(Claudia Perlich)称:你可以用数据来欺骗自己,我担心大数据出现泡沫。珀利彻担心许多人将自己称为数据科学家,但并未做足功课,反而给该领域抹黑。
珀利彻认为,大数据似乎将面临劳动力瓶颈。她说:我们的技能提升速度还远不够。麦肯锡全球学会(McKinsey Global Institute)去年发布的一份报告显示,美国需要14万名至19万名具有深度分析经验的工作者,以及150万名更加精通数据的经理人,无论是已退休人士还是已受聘人士。
哈佛商学研客座教授托马斯达文波特(Thomas H. Davenport)正在写一本名为《Keeping Up With the Quants》的新书,旨在帮助经理人来应对大数据挑战。达文波特认为,管理大数据项目的一个重要部分是要问正确的问题:如何定义问题?你需要哪些数据?来自哪里?等等。
谷歌调研(Google Research)高级统计师雷切尔查特(Rachel Schutt)称,如果建模人员能够思考伦理维度(ethical dimensions)等问题,那就会更好地服务于社会。查特说:模型不仅仅是预测,它们还可以让事情真正发生。
模型能够创建数据科学家所谓的行为循环(behavioral loop),如果一个人被提供足够的数据,都能对自己的行为进行指导。
以Facebook为例,将个人数据上传到自己的Facebook页面,Facebook的软件就会跟踪你的点击和搜索。通过算法来评估这些数据,然后再提供好友的建议。
但这种通过软件跟踪用户的行为却引发了隐私担忧,难道大数据将迎来数字监控的到来?
我个人最大的担忧是,当前确定我们个人数字世界的算法过于简单,不够智能。这也是艾利帕里瑟(Eli Pariser)所著《The Filter Bubble: What the Internet Is Hiding From You》所探讨的问题之一。
令人鼓舞的是,像珀利彻和查特这些有思想的数据科学家意识到了大数据技术的局限和不足。他们认为,听取数据是重要的,但经验和直觉同样重要。
在麻省理工学院大会上,查特被问及如何才能成为一名优秀的数据科学家,她说,需要计算机科学和数学技能,拥有好奇心,具有创新意识,以数据和经验为行动准则。她说:我不会把机器神化。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28在数据可视化领域,单一图表往往难以承载多维度信息 —— 力导向图擅长展现节点间的关联结构与空间分布,却无法直观呈现 “流量 ...
2025-10-27这个问题问到了 Tableau 中两个核心行级函数的经典组合,理解它能帮你快速实现 “相对位置占比” 的分析需求。“index ()/size ( ...
2025-10-27对 CDA(Certified Data Analyst)数据分析师而言,“假设检验” 绝非 “套用统计公式的机械操作”,而是 “将模糊的业务猜想转 ...
2025-10-27在数字化运营中,“凭感觉做决策” 早已成为过去式 —— 运营指标作为业务增长的 “晴雨表” 与 “导航仪”,直接决定了运营动作 ...
2025-10-24在卷积神经网络(CNN)的训练中,“卷积层(Conv)后是否添加归一化(如 BN、LN)和激活函数(如 ReLU、GELU)” 是每个开发者都 ...
2025-10-24在数据决策链条中,“统计分析” 是挖掘数据规律的核心,“可视化” 是呈现规律的桥梁 ——CDA(Certified Data Analyst)数据分 ...
2025-10-24在 “神经网络与卡尔曼滤波融合” 的理论基础上,Python 凭借其丰富的科学计算库(NumPy、FilterPy)、深度学习框架(PyTorch、T ...
2025-10-23在工业控制、自动驾驶、机器人导航、气象预测等领域,“状态估计” 是核心任务 —— 即从含噪声的观测数据中,精准推断系统的真 ...
2025-10-23在数据分析全流程中,“数据清洗” 恰似烹饪前的食材处理:若食材(数据)腐烂变质、混杂异物(脏数据),即便拥有精湛的烹饪技 ...
2025-10-23在人工智能领域,“大模型” 已成为近年来的热点标签:从参数超 1750 亿的 GPT-3,到万亿级参数的 PaLM,再到多模态大模型 GPT-4 ...
2025-10-22在 MySQL 数据库的日常运维与开发中,“更新数据是否会影响读数据” 是一个高频疑问。这个问题的答案并非简单的 “是” 或 “否 ...
2025-10-22