京公网安备 11010802034615号
经营许可证编号:京B2-20210330
大数据带来的大影响_数据分析师考试
如果把“数据化”视为信息社会的初级阶段,则名不见经传的英国科学家维克托·迈尔-舍恩伯格,用他别具洞见的天才新著《大数据时代》首次告诉我们:人类正在进入“数据颠覆传统”的信息社会中级阶段。
在此阶段,信息无所不在无所不包,其无限膨胀的天文海量催生了“统计+分类-推理分析=决策”的计算机处理程序(有点像刷卡消费一步到位,节省了算账找补等繁琐环节),悄然挑战“去粗取精、去伪存真、由表及里、由此及彼”的传统认识论模式,冥冥之中潜移默化,对我们的生活、工作与思维,对人类“阶级斗争、生产斗争、科学试验”三大实践活动产生着重大而深刻的影响。
大数据点燃
美国政府曾为定期公布消费物价指数CPI以监控通胀率,雇用了大量人员向全美90个城市的商店、办公室进行电话、传真拜访,耗资2.5亿美元搜集反馈8万种商品价格的延时信息。然而麻省理工学院两位经济学家采取“大数据”方案,通过一个软件在互联网上每天搜集50万种商品价格即时信息。2008年9月雷曼兄弟公司破产后,该软件马上发现了通胀转为通缩的趋势,而官方数据直到11月才发现。之后该软件被畅销到70多个国家。这一案例充分体现出“大数据”颠覆传统的力量和变革思维的智慧。
“小数据”时代追求精准,竭力避免不精准信息误导误判。然而95%被传统数据库拒绝接受的非结构化(非标准)数据,在“大数据”时代的模糊化数据库中发挥了重要的作用,因为数据越模糊越全面,才能有效避免误导误判。
从因果关系到相关关系的思维变革,是“大数据”颠覆传统认识论模式的关键。电脑毕竟不是人脑,电脑永远搞不懂气候与机票价格之间有什么因果关系。公鸡打鸣和天亮之间虽无因果关系,但古人通过公鸡打鸣来预报天亮却很少失败。“如果数百万条医疗记录显示橙汁和阿司匹林的特定组合对癌症治疗有效果,那就用不着通过一次次实验来探索其具体的药理机制了”。“苹果之父”乔布斯就主动试用过一些医疗记录有效但未经临床验证的疗法同癌症抗争。你可以嘲笑乔布斯“不讲科学”,但他却因此多活了好几年。
从根本上说,所谓“大数据挑战传统认识论”,其实是人类把复杂的认识过程“全部打包”给了电脑,而电脑懒得分析推理验证,只通过统计分类对比,交出“最终答案”就OK了。大数据的精髓在于变“少而精”为“多而全”,变“因果”为“相关”。当实地调研开始被数据采集所替代,当严密的实验开始被非线性逻辑所替代,当“唯一真理”开始被多项选择所替代,“大数据”就用事实向人类宣告:“知其然不知其所以然”,既是电脑望尘人脑的劣势,也是电脑超越人脑的优势!
大数据渗透大世界
不要以为“大数据”只是科幻故事或政府与科学家的“专利”。环顾四周,“大数据”早已渗透我们生活和工作的方方面面,衍生出形形色色的数据超市、数据易趣、数据交友、数据联谊、数据作坊、数据课堂、数据IB等传奇版本。从治安管理、交通运输、医疗卫生、商业贸易、批发零售、公益救援直到政治、军事、经济、金融、社会、环境、文艺、体育。
UPS国际快运公司从2000年开始通过“大数据”检测其遍布全美的6万辆货车车队,统计出各损耗零部件的生命周期,改“备份携带”为提前更换,有效预防了半路抛锚造成的严重麻烦和巨大损失,每年节省数百万美元。UPS还依靠“大数据”优化行车路线(例如尽量右转弯,避免左转弯),2011年全公司车辆少跑4828万公里,节省燃料300万加仑,减少碳排放3万公吨。
为纽约提供电力支持的爱迪生电力公司,针对每年多起电缆沙井盖爆炸造成严重事故,采取“大数据”手段统计出106种预警先兆,预测2009年可能出事的沙井盖并严加监控。结果位列前十分之一的高危井盖中,预测准确率达44%。
美国里士满市警察当局凭经验认定枪击事件往往导致犯罪高峰期,“大数据”证明这种高峰期往往出现在枪击事件后2周左右。孟菲斯市2006年启动“大数据”系统锁定了更容易发生犯罪的地点和更容易抓捕罪犯的时间,使重大犯罪发生率下降26%。
沃尔玛2004年依靠“大数据”发现了飓风前夕销量增加的各类商品,进而每逢预报便及时设立飓风用品专区,并将手电筒、早餐零食蛋挞等摆放于专区附近,明显增加了“顺便购买”的销量。
至于“大数据”的经济价值,仅需略举数例:2006年微软以1.1亿美元购买了埃齐奥尼的Farecast公司,2008年谷歌以7亿美元购买了为Farecast提供数据的ITA Software公司。同年在冰岛成立的DataMarket网站干脆专靠搜集提供联合国、世界银行、欧盟统计局等权威机构的免费信息来获利生存,包括倒卖各类研究机构公开发布的研究数据——只要找到买主,往往愿出高价!
大数据创造大金融
金融领域当然是“大数据”的主战场之一。程序化交易也许是现今最主要的“大数据”新式武器。美国股市每天成交量高达70亿股,但其中三分之二的交易量并非由人操作,而是由建立在数学模型和算法之上的计算机程序自动完成。日新月异的程序化交易只能运用海量数据来预测收益、降低风险。几乎所有银行、券商、保险、期货、QFII和投资公司都开发了自己的程序化交易工具。谁的武器更先进?竞争到最后恐怕还是比谁搜集处理的数据更海量。
一家投资基金通过统计大商场周边停车场及路口交通拥挤状况,来预测商场经营及当地经济状况,进而预测相关股价走势,最后居然拿数据统计资料换得了该商场的部分股权。
不少对冲基金通过搜集统计社交网站推特上的市场心情等信息来预测股市的表现。伦敦和加利福尼亚的两家对冲基金,利用“大数据”形成119份表情图和18864项独立的指数,向许多客户推销股市每分钟的“动态表情”:乐观、忧郁、镇静、惊恐、呆滞、害怕、生气、激愤等,以帮助和带动投资决策。
在金融机构竞相拉客理财的今天,如果能及时搜集处理海量的微博、微信、短信,自然也能从茫茫人海中及时发现怦然心动打算开户的,或一气之下打算“跳槽”的投资者。
当然,如果投资者都能通过“大数据”直接决策,将“刷卡消费”拓展成“刷卡投资”,那藏龙卧虎的分析师群体和争雄斗妍的研究报告未来还有市场吗?
大数据暗藏大隐患
像所有新生事物一样,大数据也是一把双刃剑。宏观上看,“大数据”在各个不同的领域将人类虚拟分割为“数据化”与“被数据化”两大阵营。持续发酵的“棱镜门”事件披露了美国政府长期监控全世界的“最高机密”,但美国总统、国会和政府都认定这种监控“天经地义”,是“维护国家核心利益”。虽然社会早已建立起庞大的法律法规体系来保障个人信息安全,但在“大数据”时代,这些体系正蜕变为固若金汤但可以随意绕过的“马其诺防线”。
“大数据”导致个人信息被交易、个人隐私被外泄还不算,更大的危险在于“个人行为被预测”。正如作者预言——“这些能预测我们可能生病、拖欠还款甚至犯罪的算法程序,会让我们无法购买保险、无法贷款,甚至在犯罪实施前就预先被逮捕”——也许你认为这对全社会来说无疑是好事。可是如果预测系统不完善、软硬件出差错、数据搜集处理不当、临时数据未经检验、黑客攻击、有人恶意或善意开玩笑制造假信息……导致你、你的家庭、你的亲朋好友、你的所在单位甚至你的祖国被冤枉被制裁,你还能无动于衷吗?
微观上看,即使是出于正当目的采集的“大数据”,仍可能在“扩展开发”过程中产生无法想象的副作用。例如谷歌的街景拍摄和GPS数据为卫星定位和自动驾驶仪提供了关键的支持,但同时因其有助于黑帮盗贼便捷挑选有利目标而引发了多国民众的强烈抗议。当谷歌对图像背景上的业主房屋、花园等目标进行模糊化处理后,反而引起盗贼更加注意。
无论你惊奇还是恐惧,欢迎还是躲避,关注还是漠视,理解还是拒绝,“大数据”都在加快步伐向我们走来。我们只有顺势而为,趋利避害,才不至于被这个充满机遇和挑战的新时代提前淘汰。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21 很多数据分析师每天盯着几十个指标,但当被问到“这套指标要支撑什么业务目标”“指标之间是什么逻辑关系”“业务变化时如何 ...
2026-05-21在数据驱动决策的时代,数据质量直接决定分析结果的可靠性与准确性,而异常值作为数据清洗中的核心痛点,往往会扭曲分析结论、误 ...
2026-05-20 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“哪些指标在所有行业都适用”“哪些指标只对电商有意义”“二者如何搭 ...
2026-05-20Agent的能力边界,很大程度上取决于其掌握的Skill质量和数量。传统做法是靠人工编写和维护Skill,但这条路很快会遇到瓶颈。业务 ...
2026-05-20在统计分析中,方差分析(ANOVA)是一种常用的假设检验方法,核心用于分析“一个或多个自变量对单个因变量的影响”,广泛应用于 ...
2026-05-19 很多数据分析师每天盯着GMV、DAU、转化率,但当被问到“什么是指标”“指标和维度有什么区别”“如何定义指标值的计算规则和 ...
2026-05-19想高效备考 CDA 一级,拒绝盲目刷题、冗余学习?《CDA 一级教材知识手册》重磅来袭!以官方教材为核心,浓缩 13 章 103 个核心考 ...
2026-05-19在数据统计分析中,卡方检验是一种常用的非参数检验方法,核心用于判断两个或多个分类变量之间是否存在显著关联,广泛应用于市场 ...
2026-05-18在企业数字化转型的浪潮中,很多企业陷入了“技术堆砌”的误区——上线了ERP、CRM、BI等各类系统,积累了海量数据,却依然面临“ ...
2026-05-18