今天我有一个关于二项式/逻辑回归的问题,它基于我部门的一个小组已经完成并正在征求意见的分析。我编造了下面的例子来保护他们的匿名性,但他们很想看到回应。
首先,分析从简单的 1 或 0 二项式响应(例如从一个繁殖季节到下一个繁殖季节的存活率)开始,目标是将这种响应建模为一些协变量的函数。
然而,一些协变量的多次测量可用于某些个体,但不适用于其他个体。例如,假设变量 x 是分娩期间代谢率的量度,个体的后代数量会有所不同(例如,变量 x 对个体 A 测量了 3 次,但对个体 B 仅测量了一次)。这种不平衡不是由于研究人员本身的抽样策略,而是反映了他们抽样的人群的特征;有些人的后代比其他人多。
我还应该指出,测量分娩事件之间的二项式 0\1 响应是不可能的,因为这些事件之间的间隔非常短。再一次,想象一下有问题的物种的繁殖季节很短,但在这个季节可以生出不止一个后代。
研究人员选择运行一个模型,在该模型中,他们使用变量 x 的平均值作为一个协变量,将个体生育的后代数量作为另一个协变量。
现在,由于多种原因,我不热衷于这种方法
1)取 x 的平均值意味着在 x 的个体内可变性中丢失信息。
2)均值本身就是一个统计量,因此通过将其放入模型中,我们最终可以对统计量进行统计。
3)一个人的后代数量在模型中,但它也用于计算变量x的平均值,我认为这可能会造成麻烦。
所以,我的问题是人们将如何对这种类型的数据进行建模?
目前,我可能会为有一个后代的个体运行单独的模型,然后为有两个后代的个体等运行单独的模型。此外,我不会使用变量 x 的平均值,而只使用每次出生的原始数据,但我是也不相信这会好得多。
感谢您的时间
(PS:对不起,这是一个很长的问题,我希望这个例子很清楚)