Python线性混合效应回归LMER分析大鼠幼崽体重数据、假设检验可视化

2025-07-23 19:45:55

Python线性混合效应回归LMER分析大鼠幼崽体重数据、假设检验可视化全文链接：/?p=8816在数据分析领域，当数据呈现出层次结构时，传统的一般线性模型（GLM）可能无法充分捕捉数据的特征。混合效应回归作为GLM的扩展，能够有效处理这类具有层次结构的数据，如聚类数据、重复测量数据和纵向数据等。本文将深入探讨混合效应回归的基本原理、关键概念、不同模型类型的差异，以及如何使用Python进行建

Python线性混合效应回归LMER分析大鼠幼崽体重数据、假设检验可视化

全文链接：/?p=8816

在数据分析领域，当数据呈现出层次结构时，传统的一般线性模型（GLM）可能无法充分捕捉数据的特征。混合效应回归作为GLM的扩展，能够有效处理这类具有层次结构的数据，如聚类数据、重复测量数据和纵向数据等。本文将深入探讨混合效应回归的基本原理、关键概念、不同模型类型的差异，以及如何使用Python进行建模和分析（点击文末“阅读原文”获取完整代码数据）。

混合效应回归基础

（一）定义与模型公式

混合效应回归是对一般线性模型的扩展，它考虑了数据的层次结构。一般线性回归方程为：

其中，XX 是一个 ×p×p 的设计矩阵，包含每个个体（）对于模型中每个自变量（pp）的观测值；ββ 是一个 p×1p×1 的列向量，包含模型中每个自变量的回归系数；ϵϵ 是一个 ×1×1 的列向量，包含模型的误差（残差）。而混合效应模型方程为：

其中，ZZ 是一个 ×q×q 的设计矩阵，包含每个个体（）对于随机效应的每个协变量（qq）的观测值；uu 是一个 q×1q×1 的向量，包含矩阵 ZZ 中 qq 个协变量的随机效应。

（二）层次结构

在混合效应模型中，数据的层次结构通常用“层级”或“聚类”来描述。例如，在研究学生标准化考试成绩时，假设没有统一的课程和指导方针，数据是从不同学区的不同学校随机抽取的，每个数据行代表一个学生。这里，第1层是分析的基本单位，即学生；第2层是学校，将第1层的所有学生聚类到不同学校；第层是学区，将第2层的学校进一步聚类。第2层及以上层级是被建模的随机效应。图1展示了这种层次结构：

图1 数据层次结构可视化

（三）固定因素与随机因素

固定效应参数描述了整个总体中协变量与因变量之间的关系，而随机效应则特定于总体中的主体聚类。固定因素是研究感兴趣的自变量，如类别、性别等；随机因素是分析单位所属的分类变量，通常定义了第2层、第层或更高层级。例如，在上述学校研究中，学校（第2层）是随机因素，因为它是学生（第1层）的聚类变量。变量被定义为固定效应还是随机效应，取决于研究目标和分析方法。

（四）混合效应模型类型差异

混合效应模型主要有随机截距模型、随机斜率模型和随机截距与斜率模型。随机截距模型允许基于聚类变量有不同的截距；随机斜率模型允许基于某个变量有不同的斜率；随机截距与斜率模型则同时允许基于聚类变量有不同的截距和基于某个变量有不同的斜率。如图2所示，展示了随机截距模型和随机截距与斜率模型的差异：

图2 随机截距模型和随机截距与斜率模型差异

混合效应回归的假设与检验

（一）假设条件

误差独立性：各观测值的误差之间相互独立。
误差方差齐性：不同观测值的误差方差相等。
误差正态性：误差服从正态分布。

（二）假设检验

固定效应假设检验：
多个固定效应检验：

单个固定效应检验：

协方差参数似然比检验：假设嵌套模型和参考模型具有相同的固定效应，但协方差参数不同。计算参考模型和嵌套模型的 -2 REML对数似然的正差值，然后根据适当的 χ2χ2 分布查 pp 值。

当计算的检验统计量小于指定显著 pp 值的临界值时，拒绝原假设。

Python实现混合效应回归

（一）数据准备

本研究使用的数据集，旨在比较不同窝中大鼠幼崽的出生体重（查看文末了解数据免费获取方式）。在这些窝中，一些雌性母鼠接受了“高剂量”“低剂量”和“对照”的实验处理。原设计中每个处理条件分配了10只雌性大鼠，但“高剂量”处理中有只死亡，导致研究设计不平衡。在本研究中，窝将作为聚类变量（第2层），大鼠幼崽作为分析单位（第1层）。

代码语言：javascript代码运行次数：0运行复制

import pandas as pd
import researchpy as rp

（二）数据探索

查看数据集中的变量信息：

分析大鼠幼崽体重基于性别和处理组的情况：

可视化体重按处理组和性别的分布：

代码语言：javascript代码运行次数：0运行复制

boxplot = data.boxplot

图体重按处理组和性别的箱线图

（三）模型构建

随机截距模型

代码语言：javascript代码运行次数：0运行复制

import statsmodels.formula.api as smf

model.summary()

点击标题查阅往期内容

R语言用Rshiny探索lme4广义线性混合模型（GLMM）和线性混合模型（LMM）

移除不显著的交互项后重新建模：

代码语言：javascript代码运行次数：0运行复制

"weight ~ litsize + C(treatment) + C(, Treatment('Male'))", data,

计算组内相关系数（ICC）：

这表明同一窝中体重之间存在中等程度的相关性。

随机斜率模型

随机截距和斜率不相关

代码语言：javascript代码运行次数：0运行复制

"weight ~ litsize + C(treatment) + C()", data, groups= "litter",
 vc_formula = {"" : "0 + C()"}).fit()

随机截距和斜率相关

代码语言：javascript代码运行次数：0运行复制

"weight ~ litsize + C(treatment) + C()", data, groups= "litter",
 re_formula = "1 + C()").fit()

计算随机截距和随机斜率之间的估计相关系数：

这表明体重较高的窝中，雄性大鼠幼崽往往体重也较高。

（四）假设检验

正态性检验
可视化残差的核密度估计图和Q-Q图：

图4 模型残差的KDE图

图5 模型残差的Q-Q图

正式的Shapiro-Wilk正态性检验：

结果显示残差的正态性假设被违反。

方差齐性检验
可视化残差与拟合值的散点图（RVF图）和残差按窝的箱线图：

代码语言：javascript代码运行次数：0运行复制

fig = plt.figure(figsize = (16, 9))
ax = sns.scatterplot(y = model.resid,

图6 RVF图

图7 残差按窝的箱线图

正式的White’s拉格朗日乘数异方差检验：

代码语言：javascript代码运行次数：0运行复制

t p-value"\]
for key, val in dict(zip(labels, het\_white\_res)).items():
 print(key, val)

正式检验表明方差齐性假设被违反。

结论

本文全面介绍了混合效应回归模型，从理论基础到Python实现，包括模型的构建、假设检验以及结果分析。通过对大鼠幼崽体重数据的分析，展示了混合效应回归在处理具有层次结构数据时的有效性。在实际应用中，需根据数据特点和研究目的选择合适的混合效应模型类型，并严格检验模型假设，以确保分析结果的可靠性。未来的研究可以进一步探索如何更好地处理假设违反的情况，以及将混合效应回归应用于更复杂的数据场景。

本文参与腾讯云自媒体同步曝光计划，分享自。原始发表：2025-01-14，如有侵权请联系 cloudcommunity@tencent 删除可视化模型数据python变量

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可，转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址：http://www.dnpztj.cn/biancheng/1176091.html

本站网友五月一日	22分钟前发表
第2层及以上层级是被建模的随机效应
本站网友青海柴达木盆地	17分钟前发表
groups= "litter"
本站网友兰州房屋出租	0秒前发表
导致研究设计不平衡
本站网友东航网站	8分钟前发表
展示了混合效应回归在处理具有层次结构数据时的有效性
本站网友魔兽真三改建	10分钟前发表
原设计中每个处理条件分配了10只雌性大鼠
本站网友天纵网络	18分钟前发表
第2层及以上层级是被建模的随机效应
本站网友公主岭租房信息	3分钟前发表
未来的研究可以进一步探索如何更好地处理假设违反的情况
本站网友寿险公司	30分钟前发表
窝将作为聚类变量（第2层）
本站网友临沧美食	5分钟前发表
假设检验可视化全文链接：/?p=8816在数据分析领域
本站网友可口可乐公司企业文化	8分钟前发表
如有侵权请联系 cloudcommunity@tencent 删除可视化模型数据python变量
本站网友夜光时钟屏保	20分钟前发表
变量被定义为固定效应还是随机效应
本站网友在这世界的角落	30分钟前发表
拒绝原假设
本站网友接活网	0秒前发表
包含每个个体（）对于随机效应的每个协变量（qq）的观测值；uu 是一个 q×1q×1 的向量
本站网友牛皮鲜治疗	19分钟前发表
因为它是学生（第1层）的聚类变量
本站网友阿帕奇服务器	12分钟前发表
计算参考模型和嵌套模型的 -2 REML对数似然的正差值
本站网友行医资格证	29分钟前发表
因为它是学生（第1层）的聚类变量
本站网友维亚	30分钟前发表
（四）混合效应模型类型差异混合效应模型主要有随机截距模型
本站网友半山半岛	20分钟前发表
并严格检验模型假设
本站网友大兴房价	29分钟前发表
需根据数据特点和研究目的选择合适的混合效应模型类型

Python线性混合效应回归LMER分析大鼠幼崽体重数据、假设检验可视化