R语言之纵向数据分析:多级增长模
上一次,我们讨论了如何对长型数据转换成长型的数据,同时还是用了一个随机创建的对照实验数据集来对其增长趋势进行可视化。但是,我们是否能够进一步的分析并预测结果的增长趋势与时间之间的关系。
是的,当然可以!我们可以使用多级增长模型(也称之为层次模型或者混合模型)进行估计。
产生一个水平数据集并把它转成宽格式
下面,我们先从我之前的一篇文章的实例进行讲解:
这里有很多R语言包可以帮助你进行多级分析,其中,我发现lme4包是最好的一个,因为它使用比较简单,而且建模能力也很强(尤其是输出二进制结果或者计数结果)。当然,nlme包也是相当不错的,它可以给连续型结果提供了类似的结果(正态/高斯分布)。
如果你之前做过回归分析,你应该对这样的语法结构比较熟悉了。通常来说,它就是lm()函数当中含有额外的随即效应公式。
随即效应,如果你对这个术语不熟悉的话,其实可以这么理解,通常来说,它就是一个实验所无法控制的误差,即变化。因此,比方来说,一个志愿者所收到的治疗效果就是一种混合的效应,因为,假设我们是实验人员,我们会决定哪些人接受A治疗方案,哪些接受B治疗方案。然而,抑郁症评分的基线在治疗的初始阶段会因人而异,一些人可能会更加抑郁,一些其实并没有这么忧郁。由于这是无法控制的,我们会把它看成是随即效应。
尤其是,抑郁评分基线的差异可以看作是一个随机区间(即,不同的志愿者参与不同等级的治疗)。我们也可以在建模的时候,对它们的斜率进行随机设置:例如,如果我们有理由相信尽管大家接受的治疗是一样的,一些参与治疗的人可以收到很好的疗效,而其它人则收效甚微。
结果的随机效应部分陈述了数据的方差结构。在这个模型中,存在两种方差结构:残差(通常用在线性模型)和个体之间的差异(即,每一个主体的id)。量化个体差异程度的一种常用方法就是研究同类相关系数(ICC)。我们可能可以从多级模型那里计算ICC,而且,这意味着,24.3%的抑郁平分变化可以由个体差异程度来解释。
现在,我们把目光转到修正效应。嗯…,那些p值在哪里呢?这,尽管SAS和其它统计软件有给多级模型的修正效应计算提供p值方面的信息,其实,很多统计学家的计算结果并不一致。举个简单的例子,我们对自由度与这些t检验的关联程度了解的不深,而且没有自由度的话,我们比不知道t检验的具体分布,因此,我们无法得到p值方面的信息。SAS和其它软件都有相应的工作区来处理估计值,这时lme4包开发人员感到不舒服的地方。结果,lmer包并没有刻意的汇报p值的信息(所以,不要害怕你得不到p值!或许有其它的方法在显著性的测量上比我们的模型做的还好)。
这么说,如果你绝对需要p值,我们可以使用基于lme4包所产生的lmerTest包来估算p值。
下面大部分的代码和上面的类似,除非我们要使用lmerTest包。
其结果很相似,但现在,我们可以得到自由度和p的估计值。所以,我们可以很自信的说普通RCT参与治疗的人,现在,随着时间的推移,他们的抑郁症得分在下降,其速度为每下降1分,下降的量为2.24。
有时,我们想在单个轨迹的均值进行作图。如果要展示均值里的一些不确定因素,我们需要使用拟合好的模型,利用拟合值进行计算,算出95%置信区间和95%预测区间。
第一行代码指出我们想要求出均值的一个点,它们一般来说是在我们这个案例的前三次预测的时候。第二行代码使用了predict()函数来得到模型的均值,它不考虑条件随机效应(re.form=NA)。第三第四行计算了均值的方差,一般来说是矩阵交叉与随机效应截距相加。第五行计算了单个观测值的方差,它的方差等于方差均值假设残差方差。第六到第九行则按普通方法,并假设它是正态分布来计算95%置信区间和预测区间。最后所给的代码是:
最后,我们要作它的95%置信区间和95%预测区间的图像了。注意,预测区间的图像要宽于置信区间。也就是说,预测均值的结果比用单个值预测要好。
如果你和我一样,对数据也很敏感,你应该能观察到图线的拟合效果并不太好。这里,有两种办法可以得到更好的结果,而这个我们在后面将会讲到。保持关注。
数据分析咨询请扫描二维码
CDA数据分析师在中国航信高科技产业园进行了面向测试度量的数据分析培训课程,培训人数近2 ...
2024-05-01CDA数据分析师走进深圳迈瑞生物医疗电子股份有限公司,在迈瑞总部展开了为期两天的培训,本次课程参训人员线上及线下近百人, ...
2024-05-01CDA数据分析师在合肥市对合肥阳光新能源科技有限公司开展了为期8天的企业内训。 合肥阳光新能源科技 ...
2024-05-01CDA数据分析师走进海尔大学,进行了《数据治理与数据中台建设的道与术》专题培训,培训现场爆满,近百人参加了此次培训。 ...
2024-05-01在中国银行苏州分行培训中心开始数据分析师培训,此次培训课程共10天内容,包括Excel、MySQL、概率论与数理统计、SPSS等内容, ...
2024-05-01从实际的业务需求出发,结合行业的典型应用特点,围绕实际的商业问题,探讨数据挖掘、机器学习模型在金融领域的应用,包括获客、信用评分、细分画像、交叉销售、反欺诈、违规识别、时序预测、运筹优化、流程挖掘九个方面,形成 ...
2024-05-01本次培训课程为线上+线下的模式,由于学员编程能力不一、部分学员没有编程基础,故提供统计学、python基 ...
2024-05-01华夏银行信用卡中心-机器学习培训 1、课程亮点 取材于业界一流企业和顶级咨询公司的行业实践;已经被证明是人人 ...
2024-05-01主 题:数据中台建设及数据分析应用主题分享 1. 数据中台市场洞察 2. 主流数据中台产品比较 3. 某企业数据中 ...
2024-05-01围绕“数据驱动”战略,全力打造我行 300 人数字化人才梯队,着力培养数字化管理人才、大数据专业团队 ...
2024-05-01在当今数据驱动的商业环境中,数据分析成为了企业决策的重要依据。通过对大量数据的收集、处理和分析,企业能够更好地理解市场 ...
2024-04-29在人工智能(AI)的世界里,提示词(Prompt)是一种强大的工具,它能够引导AI按照用户的需求产生特定的输出。本文将深入探讨AI ...
2024-04-29CDA立足未来职场,拓展前沿视野——对外经贸大学保险学院举办“三全育人大讲堂”分享行业最新动态。 ...
2024-04-294月2日,CDA数据分析师创始发起人兼协会理事长赵坚毅博士受邀在浙江万里学院举办了一场以“数字化能力在职场中的作用” ...
2024-04-29随机森林(Random Forests)现在机器学习中比较火的一个算法,是一种基于Bagging的集成学习方法,能够很好地处理分类和回归的问 ...
2022-12-23方差分析是数据分析中常用的一种统计分析方法,接下来让我们简单了解一下方差分析的基本思想和原理吧。 方差分析(Analysis ...
2022-12-23来源:关于数据分析与可视化 关于streamlit-aggrid 数据排序 表格样式的调整 数据 ...
2022-08-03作者:麦叔 定义 「把上面晦涩的概念汇成一句话就是:」 ❝ 回调函数就是一个被作为参 ...
2022-08-03现今,高学历人群日益增多,物以稀为贵的高学历光环淡去。无论本科生还是研究生,甚至博士生,求职竞争力都大不如前,就业压力越来越大。
2022-06-01某家企业10个人面试,有9个本科生……如何脱颖而出,除得体的举止和良好的沟通力外,证书成重要筹码,这也是很多人考证的关键所在。
2022-04-14