使用 Hosmer 等人的模型构建和选择。2013. R 中的应用逻辑回归

机器算法验证 r 物流 模型选择 回归策略
2022-02-05 14:38:17

这是我在 StackExchange 上的第一篇文章,但我已经将它作为资源使用了很长一段时间,我会尽力使用适当的格式并进行适当的编辑。此外,这是一个多部分的问题。我不确定是否应该将问题分成几个不同的帖子或一个。由于这些问题都来自同一文本中的一个部分,我认为将其作为一个问题发布会更相关。

我正在为硕士论文研究大型哺乳动物物种的栖息地利用。该项目的目标是为森林管理者(他们很可能不是统计学家)提供一个实用的框架,以评估他们管理的土地上与该物种有关的栖息地质量。这种动物相对难以捉摸,是栖息地专家,通常位于偏远地区。关于物种分布的研究相对较少,特别是季节性的。几只动物佩戴了为期一年的 GPS 项圈。从每只动物的 GPS 项圈数据中随机选择 100 个位置(50 个夏季和 50 个冬季)。此外,在每只动物的家庭范围内随机生成 50 个点,作为“可用”或“假缺席”位置。

对于每个位置,在野外采集了几个栖息地变量(树木直径、水平覆盖、粗木屑等),并通过 GIS 远程采样了几个变量(海拔、到道路的距离、崎岖不平等)。除了 1 个具有 7 个水平的分类变量外,这些变量大多是连续的。

我的目标是使用回归建模来构建资源选择函数 (RSF),以对资源单位使用的相对概率进行建模。我想为动物种群(设计类型 I)以及每个个体动物(设计类型 III)建立一个季节性(冬季和夏季)RSF。

我正在使用 R 进行统计分析。

我一直在使用主要文本是……

  • “Hosmer, DW, Lemeshow, S., & Sturdivant, RX 2013。应用逻辑回归。威利,奇斯特”。

Hosmer 等人的大多数例子。使用 STATA,我也一直在使用以下 2 个文本作为 R 参考

  • “克劳利,MJ 2005。统计:使用 RJ Wiley 的介绍,奇切斯特,西萨塞克斯郡,英格兰。”
  • “植物,RE 2012。使用 R. CRC Press 进行生态和农业空间数据分析,伦敦,GBR。”

我目前正在遵循Hosmer 等人的第 4 章中的步骤。对于“有目的地选择协变量”,并对该过程有一些疑问。我在下面的文本中概述了前几个步骤,以帮助解决我的问题。

  1. 第 1 步:对每个自变量进行单变量分析(我使用了单变量逻辑回归)。任何单变量检验的 p 值小于 0.25 的变量都应包含在第一个多变量模型中。
  2. 第 2 步:拟合包含在第 1 步中确定包含的所有协变量的多变量模型,并使用其 Wald 统计量的 p 值评估每个协变量的重要性。应消除在传统显着性水平上没有贡献的变量并拟合新模型。应该使用偏似然比检验将新的、更小的模型与旧的、更大的模型进行比较。
  3. 步骤 3:将较小模型中的估计系数值与大模型中的相应值进行比较。任何系数在幅度上发生显着变化的变量都应重新添加到模型中,因为它在对模型中保留的变量的影响进行所需调整的意义上很重要。循环执行步骤 2 和 3,直到模型中包含所有重要变量,而排除的变量在临床和/或统计学上不重要。霍斯默等人。使用“ delta-beta-hat-percent ”作为系数大小变化的量度。他们提出了一个显着的变化,即大于 20% 的delta-beta-hat-percent霍斯默等人。delta-beta-hat-percent定义为 Δβ^%=100θ^1β^1β^1其中是来自较小模型的系数,而是来自较大模型的系数。θ^1β^1
  4. 第 4 步:将第 1 步中未选择的每个变量添加到第 3 步结束时获得的模型中,一次一个,并通过 Wald 统计 p 值或偏似然比检验(如果它是分类变量)检查其显着性2 级以上的变量。这一步对于识别本身与结果没有显着相关性但在存在其他变量时做出重要贡献的变量至关重要。我们将步骤 4 末尾的模型称为初步主效应模型
  5. 步骤 5-7:我还没有进展到这一点,所以我暂时不考虑这些步骤,或者将它们留到另一个问题。

我的问题:

  1. 在第 2 步中,作为传统的显着性水平,p 值 <0.05 或更大,例如 <.25,什么是合适的?
  2. 再次在第 2 步中,我想确保我一直用于部分似然检验的 R 代码是正确的,并且我想确保我正确地解释了结果。这是我一直在做anova(smallmodel,largemodel,test='Chisq')的……如果 p 值显着(<0.05)我将变量添加回模型,如果它不显着我继续删除?
  3. 在第 3 步中,我有一个关于delta-beta-hat-percent以及何时将排除变量添加回模型的问题。例如,我从模型中排除了一个变量,它会将另一个变量的更改>20%。中变化 >20% 的变量似乎微不足道,并且看起来好像在接下来的步骤 2 和 3 的几个周期中将被排除在模型之外。我该如何确定是否应从模型中包含或排除这两个变量?因为我通过首先删除最不重要的变量来一次排除 1 个变量,所以我不愿无序地排除一个变量。Δβ^%Δβ^%
  4. 最后,我想确保我用来计算的代码是正确的。我一直在使用以下代码。如果有一个包可以为我做这个或更简单的方法,我愿意接受建议。 Δβ^%

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])

3个回答

这些提议的方法都没有被模拟研究证明是可行的。花你的努力制定一个完整的模型,然后拟合它。单变量筛选是一种糟糕的模型制定方法,您希望使用的逐步变量选择的其他组件同样应避免使用。这已在本网站上进行了详细讨论。是什么让你首先想到变量有时应该从模型中删除,因为它们不是“重要的”?不要使用值或中的更改来指导任何模型规范。Pβ

应不惜一切代价避免使用经典文本 Hosmer 等人中的 P 等统计量指定变量选择的方法,逐步回归。

最近,我偶然发现了一篇发表在国际预测杂志上的题为“可预测性的幻觉”的文章,以及Keith ord对这篇文章的评论我强烈推荐这两篇文章,因为它们清楚地表明使用回归统计通常会产生误导。以下是 Keith Ord 文章的屏幕截图,该文章通过模拟显示了为什么逐步回归(使用 p 统计量)用于变量选择是不好的。

在此处输入图像描述

Scott Armstrong发表在同一期杂志上的另一篇精彩文章说明了为什么在案例研究中对非实验数据使用回归分析时应该非常谨慎。自从我阅读这些文章后,我就避免使用回归分析来对非实验数据进行因果推论。作为一名从业者,我希望我能读这么多年的文章,这些文章可以使我免于做出错误的决定并避免代价高昂的错误。

关于您的具体问题,我认为在您的情况下不可能进行随机实验,因此我建议您使用交叉验证来选择变量。这本免费的在线书籍中提供了一个很好的示例,说明如何使用预测准确性来选择变量。它还有许多其他变量选择方法,但我会限制交叉验证。

我个人喜欢阿姆斯特朗的话“在某个地方,我遇到了统计数据应该有助于沟通的想法。复杂的回归方法和大量诊断统计数据将我们引向了另一个方向”

下面是我个人的看法。我不是统计学家。

  • 作为生物学家,我认为您会欣赏这一点。自然是非常复杂的,假设逻辑函数和变量之间没有相互作用,自然不会发生。此外,逻辑回归有以下假设

  • 真正的条件概率是自变量的逻辑函数。

  • 没有省略重要的变量。不包括无关变量。

  • 自变量的测量没有误差。
  • 观察是独立的。
  • 自变量不是彼此的线性组合。

我会推荐分类和回归树(CART(r))作为这种类型分析的逻辑回归的替代方案,因为它是免费的假设:

  1. 非参数/数据驱动/不假设您的输出概率遵循逻辑函数。
  2. 非线性
  3. 允许复杂的变量交互。
  4. 提供高度可解释的视觉树,像森林管理者这样的非统计学家会喜欢的。
  5. 轻松处理缺失值。
  6. 无需成为统计学家即可使用 CART!
  7. 使用交叉验证自动选择变量。

CART 是 Salford Systems 的商标。有关 CART 的介绍和历史,请参阅此视频在同一网站上还有其他视频,例如购物车 - 逻辑回归混合。我会检查一下。R 中的一个开源实现称为Tree,R 中还有许多其他包,例如 Ratch 可用。如果我有时间,我将使用 CART 在 Homser 的文本中发布第一个示例。如果你坚持使用逻辑回归,那么我至少会使用 CART 之类的方法来选择变量,然后应用逻辑回归。

由于上述优势,我个人更喜欢 CART 而不是逻辑回归。但是,我仍然会尝试逻辑回归和 CART 或 CART-Logistc 回归混合,看看哪个可以提供更好的预测准确性,更重要的是更好的可解释性,然后选择你认为可以更清楚地“传达”数据的那个。

此外,FYI CART 被主要统计期刊拒绝,最终 CART 的发明者推出了专着。CART 为现代和非常成功的机器学习算法铺平了道路,例如随机森林 (r)、梯度提升机 (GBM)、多元自适应回归样条曲线都诞生了。Randomforest 和 GBM 比 CART 更准确,但比 CART 更难解释(类似黑盒)。

希望这会有所帮助。如果您觉得这篇文章有用,请告诉我?

我认为您正在尝试使用存在/背景方法来预测物种的存在,这在诸如生态学和进化方法、生态学等期刊中都有很好的记录。也许 R 包 dismo 对您的问题很有用。它包括一个漂亮的小插图。使用 dismo 或其他类似的包意味着改变你解决问题的方法,但我相信值得一看。