京公网安备 11010802034615号
经营许可证编号:京B2-20210330
数据分析|微信红包金额分配的秘密
“微信红包”是腾讯公司开发的社交软件——微信的一个附加功能。它可以在一对一聊天当中发送,也可以在群聊中发送。在群聊当中,可以一次性发送多于1个的红包,每个群成员可以领取至多1个,先领先得,发完为止(如果红包数多于群成员数,则会有剩余)。腾讯公司宣称,在这一情况下,每个红包的金额是随机分配的;也即,在红包数目足够的情况下,每位群成员得到的金额的期望值相等。
领红包与教授共进午餐——引出的问题
北京大学-普林斯顿大学“当代中国社会”研讨课7月11日-8月19日在北大举办,有12名北大本科生和15名普林斯顿大学本科生。作为课程的一个插曲,授课教师谢宇(普林斯顿大学教授、美国科学院院士)会不时地邀请一名学员共进午餐;邀请方式,就是在课程群中发放若干红包(红包数目多于课程人数),学员自愿领取,领到金额最高者与老师共进午餐。
这样的活动进行若干次之后,出现了一个有趣的现象:领到金额最高者绝大多数都是北大学生;此外,只有两位普林斯顿大学的学生领到过最高金额,这两位的共同点是注册微信账号的时间都较早。针对这一现象,谢宇教授提出一个猜想:“参与者领到的红包金额可能并非完全随机,而是与用户经历(注册账号早晚)有一定的关联”。因为大多数北大学生注册微信账号的时间较早,而大部分普林斯顿学生都是7月初抵达北京之后才注册微信账号。为此,谢宇教授在课程的微信群中做了若干次重复实验,并让我对相关数据进行记录和分析,试图考察微信红包金额与用户经历之间的关系。
两个变量:用户经历长短,是否使用“苹果”
这些数据都来自于上述课程微信群中的红包记录。共进行了10次红包领取活动,每次发放的总金额固定为5元,但是每次的红包个数在27-32个之间。由于领取红包的学生为27人,且在单次活动中并非每一个学生都会领取,因而每一次的红包数目,相对于学生人数而言都是足够的。每次红包领取活动中每位参与者得到的金额,是我们所关注的因变量。经过标准化之后,这些金额彼此之间具有可比性,我们称其为“标准化金额”,计量单位是人民币分。而我们的核心解释变量是用户经历,也就是从注册微信账号之日起至2016年8月1日这中间经历的时间(计量单位为月)。此外,我们还将“领取红包时是否使用的是苹果设备”作为控制变量。这两个解释变量,我们通过调查表的方式获得数据。
使用该微信群聊作为数据源有一个优势在于,在这一群聊中,红包领取活动的参与者的用户经历差异很大:最短的只有0.5月,最长的有58.5月(其注册账号的时间已经接近腾讯公司推出微信软件的时间)。这有助于我们发现其中可能存在的规律。(详见表1.)
我们注意到,每次红包领取活动中,发放的红包数目都是过量的,也即存在尚未被领取的红包。我们使用了一个简单的假设检验,证明了未被领取的红包与被领取的红包在金额分布上没有系统性差异,从而保证了之后的分析在这个意义上是无偏的。
转折点:约35个月
首先我们使用LOWESS方法绘制出领取到的“标准化金额”与用户经历之间的趋势线,如下图所示。由这条趋势线可以看出,标准化金额与用户经历之间是一个先增后减的关系,大致以35个月为转折点。转折点之前,用户经历越长,领到的红包金额倾向于变多;转折点之后,用户经历越长,领到的红包金额倾向于变少。
为了更为严格地验证这种关系,我们做了回归分析。在回归模型中,用户经历以一次项和平方项的形式出现,而“是否使用苹果设备”作为控制变量。我们分别使用普通最小二乘法和tau=0.25, 0.5, 0.75的分位数回归对模型的参数进行了估计。得到的结果较为一致:无论是否加入控制变量,“用户经历”平方项的系数都显著为负,而“用户经历”项的系数都显著为正。也就是说,红包金额与用户经历之间的关系可以用一个开口向下的抛物线去拟合。而在这8个回归中,我们估算出的这条抛物线的对称轴都落在31-38个月之间,与之前所说的转折点在35个月附近也是吻合的。有趣的是,我们的结果还发现,“是否使用苹果设备”对于领到的红包金额没有显著影响,详见下表。
得到极端金额的可能性
以上分析关注的重点,是领到的红包金额本身,而我们还想探究用户经历是否影响领到极端金额的可能性。所谓极端金额,我们定义:如果领到的标准化金额小于5分,则算作领到极端低值;如果领到的标准化金额大于或等于28分,则算作领到极端高值。我们使用了logistic回归去分别估计用户经历对于出现这两种情况的可能性的影响。结果表明,用户经历对于领到极端低值的可能性没有显著影响;但对于领到极端高值的可能性存在显著性影响,而且影响的模式同样是先增后减,可以拟合为一条开口向下的抛物线;转折点的位置也落在35个月附近。(详见表3.)
以上是对统计分析结果的简单描述,对细节感兴趣的读者可以参看文末正式的统计报告。
◆ ◆ ◆
总结一下
总结起来,领取的红包金额与用户经历之间存在先增后减的关系。对于使用微信账号时间较短的用户,其在红包领取活动中得到的金额随着其用户经历的增加而增加;但在经过一个拐点之后,随着用户经历的增加,其在红包领取活动中得到的金额会减少。这一拐点落在30-40个月之间(用户经历)。与此同时,得到极端高金额的可能性与用户经历之间也存在着同样的关系和类似的拐点位置。但得到极端低金额的可能性与用户经历之间并无显著关系。这些结果在加入了控制变量(是否使用苹果设备)之后没有受到影响。
因此,对于最近注册微信的用户和使用年限很长的微信用户,其在红包领取活动中得到的金额相对更低;而用户经历在30-40个月之间的用户,平均而言其在红包领取活动中得到的金额最高。
由此可以推测,在微信群聊中发放多个微信红包的情形下,各个红包的金额并非完全随机分配。但是由于微信红包背后的程序未知,所以我们只能够注意到这一现象;其原因可能需要从腾讯公司的程序设计中寻找。
附:正式统计报告
1.数据与变量
1.1 数据来源
我们使用的数据主要来自于上述的课程微信群中的红包记录。该群聊总共进行了10次红包领取活动,每次发放的总金额固定为5元,但是每次的红包个数在27-32个之间。由于领取红包的学生为27人,且在单次活动中并非每一个学生都会领取,因而每一次的红包数目相对于学生人数而言都是足够的。为了得到用户经历等信息,我们使用调查表对27名学生进行了调查,采集了微信账号、注册时间和手机类型等信息。在每次活动中,每位参与者的表现作为一个观测;通过这10次活动的记录,我们总共得到了217个有效观测。
1.2 变量
1.2.1 因变量
因变量为在每次活动中每位参与者得到的红包金额。虽然每次活动的总金额都固定为5元,但是由于红包数目有变化,因此在不同的活动中,每位参与者领取到金额的期望会有差异。为了消除这一差异带来的偏误,我们对领到的红包金额做了标准化。标准化的方法如下。
其中yij为第i次活动中参与者j得到的金额,ni为第i次活动中的红包个数revenueij代表标准化金额,是我们最终使用的因变量,其度量单位为人民币分(1分=0.01元)。经过这样的标准化,我们将每次活动中发放的红包个数统一为了30个,也即每次活动中每个红包的金额期望值为1/6元(约为16.667分);这样,我们的217个观测中的因变量具有可比性。
在后一阶段的分析中,为了探求领取金额的极端值与用户经历之间可能存在的关系,我们使用了另外2个因变量:lower-tail和upper-tail,它们都是二分变量。
1.2.2 解释变量
核心解释变量是用户经历experience,也即每个用户从注册微信账号之日起至2016年8月1日所经历的时间,以月作为度量单位,精度为0.5月。
由于微信账号本身不能识别国籍(个人信息中的“所在地区”可以任意填写),而所有学员微信绑定的手机号都是中国大陆的号码,加之绝大多数红包领取活动都在同一间教室进行,因而我们能够考察到的唯一的可以对领取金额造成影响的解释变量是手机类型。因此我们选择手机类型作为控制变量iphone。它也是二分变量,如果使用iPhone或者iPad等苹果产品参与领取红包活动,则变量iphone=1;如果使用其它品牌的移动设备,则变量iphone=0。
1.2.3 变量的描述性统计
以上因变量与解释变量的描述性统计结果参见表1。
1.3 一个说明
需要说明的问题是,由于在每一次红包领取活动中,发放的红包个数都是过量的,因此我们的217个观测中没有包含未领取的红包。从表1中可以看出,217次观测中的标准化领取金额为16.516分。在虚拟假设H0:“revenue的均值=16.667”之下做假设检验,得到,因此不能拒绝虚拟假设H0。我们有理由认为,领取的红包与未领取的红包在金额分布上没有显著的系统性差异,从而我们的观测在这种意义上是无偏的。
2.统计分析结果
2.1 LOWESS结果
为了考察因变量(revenue)随着核心解释变量(experience)大致的变化趋势,我们首先绘制了散点图,并使用局部加权散点拟合方法(Locally Weighted Scatterplot Smoothing, LOWESS)添加了拟合曲线。其结果显示在图1中。
由拟合曲线可以看出,revenue与experience之间的关系可以大致以experience=35为界分为两段:在分界点以左,revenue随着experience递增;在分界点以右,revenue随着experience递减。也即如果用户使用时长小于35月,则用户经历越长,平均而言领取的金额数越高;如果用户时长大于35月,则用户经历越长,平均而言领取的金额数越低。
2.2 回归分析结果
LOWESS拟合的曲线显示revenue与experience之间存在一个先增后减的凹函数关系,为了更为准确地研究这一关系,我们考虑添加平方项experience2,进行回归分析。基本回归的方程如下。
在该模型当中,我们只考察experience及其平方项对于revenue的影响。
为了研究手机类型对revenue可能造成的干扰,我们在第2个回归模型中增加了控制变量iphone,模型如下。
表2的第(1)列和第(2)列分别显示了使用最小二乘方法(OLS)对这两个模型的回归结果。Experience平方项的系数为负且在统计上显著,experience项系数为正且在统计上显著,控制变量iphone的加入没有改变这一结果,且控制变量iphone的系数在统计上不显著。这表明revenue与experience之间可能存在一个二次函数关系。根据平方项与一次项的系数,可以估算出由增转为减的拐点位置在experience=33.91(回归(1))或experience=34.28(回归(2)),这与LOWESS的图形也基本吻合。
为了进一步验证这种二次函数关系,我们使用了分位数回归方法(quantile regression),分别取tau=0.25,0.5,0.75。回归结果显示在表2的第(3)列至第(8)列。这6个分位数回归的结果显示,experience平方项系数为负且显著,experience项系数为正且显著,控制变量iphone的加入不改变它们系数的符号和显著性,且iphone的系数本身不显著。由平方项和一次项估算出的拐点位置依次为experience=36.33, 37.88, 30.90, 31.09, 33.17, 33.71。这与OLS的结果以及LOWESS的结果吻合。
2.3 对极端值的分析结果
以上分析主要针对各个解释变量对于标准化领取金额的影响。下面,我们想考察这些解释变量是否会影响在红包领取活动中得到极端金额的可能性。为此,我们引入了2个因变量:lower-tail和upper-tail,它们都是二分变量。如果标准化领取金额小于5分,则lower-tail取1,否则取0;如果标准化领取金额大于或等于28分,则upper-tail取1,否则取0。由于因变量为二分变量,我们使用了Logistic回归方法;回归结果中各解释变量的系数代表了该变量对机会比率(odds ratio)的自然对数的边际影响率。
表3的第(1)列和第(2)列显示了以lower-tail为因变量的logistic回归结果;可以发现,experience及其平方项的系数在统计上与0没有显著性差异,控制变量iphone的系数也不显著。因此这些解释变量对领到极端低值金额的可能性没有显著性影响。
表3的第(3)列和第(4)列显示了以upper-tail为因变量的logistic回归结果;可以发现,experience平方项的系数为负且显著,experience项的系数为正且显著。也即,在用户经历较短的时候,随着experience的增加,在领取红包活动中得到极端高金额的可能性会增加;但是在一个拐点之后,随着experience增加,在领取红包活动中得到极端高金额的可能性会减低。根据系数可以估算出这个拐点的位置是experience=32.60(回归(3))或experience=32.07(回归(4))。控制变量iphone的加入不改变这一结果,而且是否使用苹果设备对于领到极端高金额的可能性没有显著的影响。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
数据分析的核心价值在于用数据驱动决策,而指标作为数据的“载体”,其选取的合理性直接决定分析结果的有效性。选对指标能精准定 ...
2026-01-23在MySQL查询编写中,我们习惯按“SELECT → FROM → WHERE → ORDER BY”的语法顺序组织语句,直觉上认为代码顺序即执行顺序。但 ...
2026-01-23数字化转型已从企业“可选项”升级为“必答题”,其核心本质是通过数据驱动业务重构、流程优化与模式创新,实现从传统运营向智能 ...
2026-01-23CDA持证人已遍布在世界范围各行各业,包括世界500强企业、顶尖科技独角兽、大型金融机构、国企事业单位、国家行政机关等等,“CDA数据分析师”人才队伍遵守着CDA职业道德准则,发挥着专业技能,已成为支撑科技发展的核心力量。 ...
2026-01-22在数字化时代,企业积累的海量数据如同散落的珍珠,而数据模型就是串联这些珍珠的线——它并非简单的数据集合,而是对现实业务场 ...
2026-01-22在数字化运营场景中,用户每一次点击、浏览、交互都构成了行为轨迹,这些轨迹交织成海量的用户行为路径。但并非所有路径都具备业 ...
2026-01-22在数字化时代,企业数据资产的价值持续攀升,数据安全已从“合规底线”升级为“生存红线”。企业数据安全管理方法论以“战略引领 ...
2026-01-22在SQL数据分析与业务查询中,日期数据是高频处理对象——订单创建时间、用户注册日期、数据统计周期等场景,都需对日期进行格式 ...
2026-01-21在实际业务数据分析中,单一数据表往往无法满足需求——用户信息存储在用户表、消费记录在订单表、商品详情在商品表,想要挖掘“ ...
2026-01-21在数字化转型浪潮中,企业数据已从“辅助资源”升级为“核心资产”,而高效的数据管理则是释放数据价值的前提。企业数据管理方法 ...
2026-01-21在数字化商业环境中,数据已成为企业优化运营、抢占市场、规避风险的核心资产。但商业数据分析绝非“堆砌数据、生成报表”的简单 ...
2026-01-20定量报告的核心价值是传递数据洞察,但密密麻麻的表格、复杂的计算公式、晦涩的数值罗列,往往让读者望而却步,导致核心信息被淹 ...
2026-01-20在CDA(Certified Data Analyst)数据分析师的工作场景中,“精准分类与回归预测”是高频核心需求——比如预测用户是否流失、判 ...
2026-01-20在建筑工程造价工作中,清单汇总分类是核心环节之一,尤其是针对楼梯、楼梯间这类包含多个分项工程(如混凝土浇筑、钢筋制作、扶 ...
2026-01-19数据清洗是数据分析的“前置必修课”,其核心目标是剔除无效信息、修正错误数据,让原始数据具备准确性、一致性与可用性。在实际 ...
2026-01-19在CDA(Certified Data Analyst)数据分析师的日常工作中,常面临“无标签高维数据难以归类、群体规律模糊”的痛点——比如海量 ...
2026-01-19在数据仓库与数据分析体系中,维度表与事实表是构建结构化数据模型的核心组件,二者如同“骨架”与“血肉”,协同支撑起各类业务 ...
2026-01-16在游戏行业“存量竞争”的当下,玩家留存率直接决定游戏的生命周期与商业价值。一款游戏即便拥有出色的画面与玩法,若无法精准识 ...
2026-01-16为配合CDA考试中心的 2025 版 CDA Level III 认证新大纲落地,CDA 网校正式推出新大纲更新后的第一套官方模拟题。该模拟题严格遵 ...
2026-01-16在数据驱动决策的时代,数据分析已成为企业运营、产品优化、业务增长的核心工具。但实际工作中,很多数据分析项目看似流程完整, ...
2026-01-15