京公网安备 11010802034615号
经营许可证编号:京B2-20210330
盘点10个有趣的奇葩大数据
大数据早已成了我们耳熟能详的词汇,大数据也逐渐得到的政府,企业和个人的重视。基于此,大数据究竟在如何影响着我们的生活?
因为他,我们的生活是否变得更舒适?亦或,从此我们的生活细节都要暴露在数据的分析之下?我们该如何正确认识大数据?现在,先让我们了解一些真实的大数据的例子。
从地球到月球的距离
如果我们将一天内产生的数据全部烧录进DVD光碟内,那这些光碟叠起来可以搭成地表到月球的DVD高塔,而且还是双塔。
大数据与星星
根据IDC的分析,2008年时数码数据量就超过了目前已知的宇宙内星星数量,而且以数据成长的速度,2023年时全球数据量将会超过亚佛加厥常数(Avogadro's number)--也就是6.022×10^23。
亚佛加厥常数
男性内裤销量反映经济形势
已故美联储前主席格林斯潘(Alan Greenspan)曾提出过一个著名的"男性内裤销量反映经济形势"的理论。即经济形势良好,内裤销量会平稳上升,反之则下降。
原因很简单,经济萧条时,男性会节俭开支,少买内裤。。。
啤酒与尿布
这是个经典的商场数据分析案例。在上世纪90年代,美国沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,"啤酒"与"尿布"两件看上去毫无关系的商品会经常出现在同一个购物篮中。
啤酒与尿布
在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。
第2页:女性头发与经济波动,手纸与肥皂
女性头发与经济波动
据日本最大日用品制造公司"花王",于1987年开始在东京银座对1000名,二十至三十岁女性进行的年度民调后汇编的"发型统计"显示,他们偏好蓄长发时显示经济在复苏中,反之则经济仍在恶化。
比如,1997年,留短发的比蓄长发的人多,那年为日本经济"最差"的一年,2008年经济有所起色,超过八成受访女性头发都很长。
手纸与肥皂
双十一海报
去年“双十一”(11.11)这一天,京东商城卖出了80万块香皂,重量约115吨,相当于23头大象;基情无限的同时,手纸卖出900万卷,8亿多抽手纸,按一秒钟扯一抽的话,至少要扯3年,按一卷纸30米算,900万卷至少可绕地球7圈。
处女座与小龙虾
根据"首届小龙虾美食节"的"小云WiFi美食大数据"显示,女性对美食喜欢程度超过男性,66%的女性喜欢吃小龙虾;而在年龄统计中发现,20-25岁的美食达人最多,处女座是所有星座中最爱食用小龙虾的人群。
一位美食大V不无严肃的认为,从一个侧面说明现在商家的小龙虾的制作工艺、烹饪方式已经达到了一定的高水准,"毕竟处女座的追毛求疵的性格是不争的事实"。
女服务员与股市
在这个刷脸的时代,容貌早已成了求职的隐形标准(不过凤姐当上凤凰客户端主笔,理当另说)。据纽约观察员的解读,当美艳的女服务员随店可见时,经济必陷困境,反之则显示经济兴旺,换句话说,当你到处碰见美女服务员,便可考虑抛售股票。
服务员与股市
该观察员的解释是,当经济红火,颇有点"资本"的女性很容易找到工作环境舒适的工作,诸如商品模特、推销员等。此外,男性经济宽裕后也更容易"金屋藏娇"。
大数据遇到爱情
美国波士顿数学家克里斯·麦金利(Chris McKinlay)注册一个婚恋网站后,认为他们的配对模式不合适,于是他自己写程序,只花了不到90天时间就在茫茫人海中找到了心仪的对象。
这位克里斯开设了12个账户,利用计算机程序随意作答网站的配对问卷,从2万名用户中收集到600万条问题的答案,然后利用演算程序筛选出5000名住在美国的活跃用户,从中按性格分类又选出最符合择偶条件的2组女子。
第3页:看完速7,去速8;大数据遇上爱情
之后克里斯又创建了两个账号,诚实地回答这两类姑娘们最关注的500个问题。回答完问题后,他发现和自己匹配度在90%以上的超过10000人,最高匹配度达到了99%。
克里斯·麦金利
为了获得这些姑娘们的关注。克里斯编了一个新程序,自动访问与他匹配度高的对象,对方回访他的页面时,就会给他留言。
在经过不少尝试后,克里斯终于约到一名亚裔女孩。他见面时主动披露破解网站的秘诀,对方极为欣赏,二人开始恋爱关系。并在恋爱一周年后克里斯求婚成功,二人终成眷属。如此"用心",也是醉了。
食色性也 "看完速7,去速8"
《速度与激情7》
食色性也:凡是人的生命,不离两件大事:饮食、男女。《速度与激情7》上映时,"看完速7,去速8"一度成为相互调侃的流行语。而日前,猫眼电影整合了2015年上半年的售票数据,做了一个有意思的数据报告。报告根据用户购买电影票的习惯,结合用户在美团上的相关消费行为,发现了有意思的现象。
数据显示,用户在购买电影票的同时,有79%会进行餐饮消费,10%会选择唱K、桌游、足疗等休闲活动,还有11%会选择酒店消费。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析与建模中,“显性特征”(如用户年龄、订单金额、商品类别)是直接可获取的基础数据,但真正驱动业务突破的往往是 “ ...
2025-11-07在大模型(LLM)商业化落地过程中,“结果稳定性” 是比 “单次输出质量” 更关键的指标 —— 对客服对话而言,相同问题需给出一 ...
2025-11-07在数据驱动与合规监管双重压力下,企业数据安全已从 “技术防护” 升级为 “战略刚需”—— 既要应对《个人信息保护法》《数据安 ...
2025-11-07在机器学习领域,“分类模型” 是解决 “类别预测” 问题的核心工具 —— 从 “垃圾邮件识别(是 / 否)” 到 “疾病诊断(良性 ...
2025-11-06在数据分析中,面对 “性别与购物偏好”“年龄段与消费频次”“职业与 APP 使用习惯” 这类成对的分类变量,我们常常需要回答: ...
2025-11-06在 CDA(Certified Data Analyst)数据分析师的工作中,“可解释性建模” 与 “业务规则提取” 是核心需求 —— 例如 “预测用户 ...
2025-11-06在分类变量关联分析中(如 “吸烟与肺癌的关系”“性别与疾病发病率的关联”),卡方检验 P 值与 OR 值(比值比,Odds Ratio)是 ...
2025-11-05CDA 数据分析师的核心价值,不在于复杂的模型公式,而在于将数据转化为可落地的商业行动。脱离业务场景的分析只是 “纸上谈兵” ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-05教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-04【2025最新版】CDA考试教材:CDA教材一级:商业数据分析(2025)__商业数据分析_cda教材_考试教材 (cdaglobal.com) ...
2025-11-04在数字化时代,数据挖掘不再是实验室里的技术探索,而是驱动商业决策的核心能力 —— 它能从海量数据中挖掘出 “降低成本、提升 ...
2025-11-04在 DDPM(Denoising Diffusion Probabilistic Models)训练过程中,开发者最常困惑的问题莫过于:“我的模型 loss 降到多少才算 ...
2025-11-04在 CDA(Certified Data Analyst)数据分析师的工作中,“无监督样本分组” 是高频需求 —— 例如 “将用户按行为特征分为高价值 ...
2025-11-04当沃尔玛数据分析师首次发现 “啤酒与尿布” 的高频共现规律时,他们揭开了数据挖掘最迷人的面纱 —— 那些隐藏在消费行为背后 ...
2025-11-03这个问题精准切中了配对样本统计检验的核心差异点,理解二者区别是避免统计方法误用的关键。核心结论是:stats.ttest_rel(配对 ...
2025-11-03在 CDA(Certified Data Analyst)数据分析师的工作中,“高维数据的潜在规律挖掘” 是进阶需求 —— 例如用户行为包含 “浏览次 ...
2025-11-03在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31