我指的是 Frank Harrell 博士等人 1996 年在医学统计学中发表的以下评论:
除非使用正式的惩罚估计技术,否则必须消除因“窥视”结果变量而产生的多重比较问题;必须使用不利用结果变量的数据缩减方法。
我认为这意味着以下两个:
- 不应使用图形或非正式分析来指导分析。因此,不建议查看结果变量与协变量的图形图并使用结果来告知模型的选择。
- 不应仅仅因为这些变量的 p 值不显着而从模型中删除变量。
但是,我在 Harrell 博士的讲稿 ( http://biostat.mc.vanderbilt.edu/wiki/pub/Main/RmS/rms.pdf ) 的案例研究中看到的内容似乎表明我的理解是不正确的。尤其是,
- 他使用结果变量(生存与否)对一些变量进行了一些非参数回归估计。然后得出结论:“sibsp、parch 的变化不足以适应复杂的相互作用或非线性。” (p.260)这似乎与我的理解#1直接矛盾,或者这可能是从其他一些信息中得出的,而不是情节本身?我们可以从图形或其他非正式分析中安全地提取哪些信息,而不会引入偏见的风险?
- 在 p.262 上,在拟合了一个饱和模型后,他发表了“parch 显然微不足道,所以 drop”的评论。这似乎违背了我的理解#2。我在阅读中缺少什么?何时可以使用回归结果(或任何其他利用结果变量的数据缩减方法)来决定删除变量/简化?
非常感谢!