京公网安备 11010802034615号
			经营许可证编号:京B2-20210330
		R语言-妹子被追后的选择分析
	前提假设
妹子们一生中可以遇到100个追求者,追求者的优秀程度符合正态分布;
每个妹子都具备判断并比较追求者优秀程度的能力;
接受或拒绝一个追求者后永远无法后悔。
那么,问题来了
当遇到追求者时,如何选择才能获得最优结果?
如果人的优秀程度符合均值为80,方差20的正态分布,随机产生100个追求者,其优秀程度分布情况见下图:
p=rnorm(100,80,20)
hist(p,main="追求者--统计", ylab="数量", xlab="优秀程度",
     col=rainbow(50))
boxplot(p,col="red",lwd=2)


条形图显示了追求者的初始状态,盒装图显示的是大多数妹子所接受的追求者的能力情况。通过分布图可以看出,大多数理性人只能选择那些优秀程度在80左右的追求者。
下面介绍选择方法
首先,为了不错过在未来可以接受更优秀的追求者,理性的妹子会拒绝最早的一批追求者,并且采用第一批追求者做样本量k,理性地判断出追求者中最优秀的一位,其优秀程度记作y。然后,当遇到新追求者的时候,将追求者的优秀程度与y进行比较,优于y则选择接受,否则继续等待新的追求者;若新追求者的优秀程度始终小于y,则选择做剩女。
如何求出最优的样本量k?
如果最优秀的追求者出现在第i个位置(k < i ≤n),其中k、n为大于0的固定值。要想让第i个出现的他成功被妹子接受,就必须得满足前 i-1 任意一个位置出现的追求者被拒绝,这有
的可能。考虑所有可能的i,我们便得到了试探前 k 个追求者之后能选中最佳追求者的总概率 P(k):

用 x 来表示 k/n 的值,并且假设 n 充分大,则上述公式可以写成:

对-xlnx求导,并令这个导数为0,可以解出x的最优值,它就是欧拉研究的神秘常数的倒数e−1e−1,则样本k=n⋅x=e−1k=n⋅x=e−1。即当预计总追求者人数为100的时候,应先拒绝掉前100e−1=37100e−1=37个人,用来做追求者样本。
sIdo=N=numeric()
for (i in 1:100){
  p=rnorm(100, 80, 20)
  pm=max(p[1:37])
  for(i in seq(37,100)){  
    if(p[i]>pm){   
      Ido=p[i]    
      n=i    
      break}  
    else Ido=0;n=101}
  sIdo=c(sIdo,Ido)
  N=c(N,n)}
sum(N==101)/100  #剩女比例


图3、图4代表按照此种选择方法,重复100次实验(100个妹子)得到的追求者分布状态,通过条形图可以看出,60%的妹子成功找到如意郎君,被接受的追求者优秀程度在100以上;其余40%的妹子们,由于在第一批追求者当中拒绝掉了最优秀的那位,无奈选择做剩女。
plot(N,sIdo,pch=20,main="追求者散点图", ylab="优秀程度", xlab="接受时机",col=rainbow(80),cex = 1.5)
points(101,0,pch=20,col="#32CD32",cex = 2)
text(95, 1, "剩女101",cex = .8)

追求者散点图可以看出,比较优秀的追求者且被接受时,其排位在100位当中的50位左右的概率最大,即追妹子的最好时机不是越早越好。
综上所诉,可以得出如下结论:数据分析培训
样本人数最优值为样本总量的37%;
比较优秀的追求者成功追到妹子的概率在60%左右;
优秀者的最佳出现时机为中间偏后位置。
                  数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
教材入口:https://edu.cda.cn/goods/show/3151 “纲举目张,执本末从。” 若想在数据分析领域有所收获,一套合适的学习教材至 ...
2025-11-04【2025最新版】CDA考试教材:CDA教材一级:商业数据分析(2025)__商业数据分析_cda教材_考试教材 (cdaglobal.com) ...
2025-11-04在数字化时代,数据挖掘不再是实验室里的技术探索,而是驱动商业决策的核心能力 —— 它能从海量数据中挖掘出 “降低成本、提升 ...
2025-11-04在 DDPM(Denoising Diffusion Probabilistic Models)训练过程中,开发者最常困惑的问题莫过于:“我的模型 loss 降到多少才算 ...
2025-11-04在 CDA(Certified Data Analyst)数据分析师的工作中,“无监督样本分组” 是高频需求 —— 例如 “将用户按行为特征分为高价值 ...
2025-11-04当沃尔玛数据分析师首次发现 “啤酒与尿布” 的高频共现规律时,他们揭开了数据挖掘最迷人的面纱 —— 那些隐藏在消费行为背后 ...
2025-11-03这个问题精准切中了配对样本统计检验的核心差异点,理解二者区别是避免统计方法误用的关键。核心结论是:stats.ttest_rel(配对 ...
2025-11-03在 CDA(Certified Data Analyst)数据分析师的工作中,“高维数据的潜在规律挖掘” 是进阶需求 —— 例如用户行为包含 “浏览次 ...
2025-11-03在 MySQL 数据查询中,“按顺序计数” 是高频需求 —— 例如 “统计近 7 天每日订单量”“按用户 ID 顺序展示消费记录”“按产品 ...
2025-10-31在数据分析中,“累计百分比” 是衡量 “部分与整体关系” 的核心指标 —— 它通过 “逐步累加的占比”,直观呈现数据的分布特征 ...
2025-10-31在 CDA(Certified Data Analyst)数据分析师的工作中,“二分类预测” 是高频需求 —— 例如 “预测用户是否会流失”“判断客户 ...
2025-10-31在 MySQL 实际应用中,“频繁写入同一表” 是常见场景 —— 如实时日志存储(用户操作日志、系统运行日志)、高频交易记录(支付 ...
2025-10-30为帮助教育工作者、研究者科学分析 “班级规模” 与 “平均成绩” 的关联关系,我将从相关系数的核心定义与类型切入,详解 “数 ...
2025-10-30对 CDA(Certified Data Analyst)数据分析师而言,“相关系数” 不是简单的数字计算,而是 “从业务问题出发,量化变量间关联强 ...
2025-10-30在构建前向神经网络(Feedforward Neural Network,简称 FNN)时,“隐藏层数目设多少?每个隐藏层该放多少个神经元?” 是每个 ...
2025-10-29这个问题切中了 Excel 用户的常见困惑 —— 将 “数据可视化工具” 与 “数据挖掘算法” 的功能边界混淆。核心结论是:Excel 透 ...
2025-10-29在 CDA(Certified Data Analyst)数据分析师的工作中,“多组数据差异验证” 是高频需求 —— 例如 “3 家门店的销售额是否有显 ...
2025-10-29在数据分析中,“正态分布” 是许多统计方法(如 t 检验、方差分析、线性回归)的核心假设 —— 数据符合正态分布时,统计检验的 ...
2025-10-28箱线图(Box Plot)作为展示数据分布的核心统计图表,能直观呈现数据的中位数、四分位数、离散程度与异常值,是质量控制、实验分 ...
2025-10-28在 CDA(Certified Data Analyst)数据分析师的工作中,“分类变量关联分析” 是高频需求 —— 例如 “用户性别是否影响支付方式 ...
2025-10-28