我正在运行带有 3 个数值变量的二元逻辑回归。我正在抑制模型中的截距,因为如果所有输入变量都为零,则概率应该为零。
我应该使用的最少观察次数是多少?
我正在运行带有 3 个数值变量的二元逻辑回归。我正在抑制模型中的截距,因为如果所有输入变量都为零,则概率应该为零。
我应该使用的最少观察次数是多少?
有一种方法可以找到一个坚实的起点。假设没有协变量,因此模型中的唯一参数是截距。当真实截距在零附近时,要使截距的估计足够精确,以使预测概率在 95% 置信度的真实概率的 0.1 以内,所需的样本量是多少?答案是 n=96。如果有一个协变量,并且它是二元的,患病率为 0.5,该怎么办?需要 96 个 x=0 的受试者和 96 个 x=1 的受试者,才能在估计 Prob[Y=1 | X=x] 不超过 0.1。实现误差幅度所需样本量的一般公式在估计真实概率在 0.95 的置信水平是. 放对于最坏的情况。
实际上并没有最少的观察次数。本质上,您拥有的观察值越多,模型的参数就越受数据约束,模型就越有信心。您需要多少次观察取决于问题的性质以及您对模型的信心程度。我认为在这类事情上过分依赖“经验法则”并不是一个好主意,而是使用您可以获得的所有数据并检查模型参数和预测的置信度/可信区间。
更新:我没有看到@David Harris 的上述评论,这和我的很像。对此感到抱歉。如果我的答案太相似,你们可以删除我的答案。
我会第二次 Dikran Marsupail 帖子并加上我的两分钱。
考虑您对自变量的预期影响的先验知识。如果您期望小的影响,那么您将需要大量样本。如果预期效果很大,那么小样本就可以完成这项工作。
您可能知道,标准误是样本量的函数,因此样本量越大,标准误越小。因此,如果影响很小,即接近于零,则只有很小的标准误差才能检测到这种影响,即表明它与零有显着差异。另一方面,如果影响很大(远非零),那么即使是大的标准误差也会产生显着的结果。
如果您需要一些参考资料,请查看 Andrew Gelmans 的博客。
似乎为了得到一个可接受的估计,我们必须应用其他研究人员已经检查过的规则。我同意上面的两个经验法则(每个变量 10 个 obs。和 Harrell 的公式)。在这里,还有另一个问题是数据被揭示或陈述偏好。Hosmer 和 Lemeshow 在他们的书中为显式数据提供了规则,而 Louviere 和 Hensher 在他们的书(陈述偏好的方法)中为陈述偏好数据提供了规则