这是我在 StackExchange 上的第一篇文章,但我已经将它作为资源使用了很长一段时间,我会尽力使用适当的格式并进行适当的编辑。此外,这是一个多部分的问题。我不确定是否应该将问题分成几个不同的帖子或一个。由于这些问题都来自同一文本中的一个部分,我认为将其作为一个问题发布会更相关。
我正在为硕士论文研究大型哺乳动物物种的栖息地利用。该项目的目标是为森林管理者(他们很可能不是统计学家)提供一个实用的框架,以评估他们管理的土地上与该物种有关的栖息地质量。这种动物相对难以捉摸,是栖息地专家,通常位于偏远地区。关于物种分布的研究相对较少,特别是季节性的。几只动物佩戴了为期一年的 GPS 项圈。从每只动物的 GPS 项圈数据中随机选择 100 个位置(50 个夏季和 50 个冬季)。此外,在每只动物的家庭范围内随机生成 50 个点,作为“可用”或“假缺席”位置。
对于每个位置,在野外采集了几个栖息地变量(树木直径、水平覆盖、粗木屑等),并通过 GIS 远程采样了几个变量(海拔、到道路的距离、崎岖不平等)。除了 1 个具有 7 个水平的分类变量外,这些变量大多是连续的。
我的目标是使用回归建模来构建资源选择函数 (RSF),以对资源单位使用的相对概率进行建模。我想为动物种群(设计类型 I)以及每个个体动物(设计类型 III)建立一个季节性(冬季和夏季)RSF。
我正在使用 R 进行统计分析。
我一直在使用的主要文本是……
- “Hosmer, DW, Lemeshow, S., & Sturdivant, RX 2013。应用逻辑回归。威利,奇斯特”。
Hosmer 等人的大多数例子。使用 STATA,我也一直在使用以下 2 个文本作为 R 参考。
- “克劳利,MJ 2005。统计:使用 RJ Wiley 的介绍,奇切斯特,西萨塞克斯郡,英格兰。”
- “植物,RE 2012。使用 R. CRC Press 进行生态和农业空间数据分析,伦敦,GBR。”
我目前正在遵循Hosmer 等人的第 4 章中的步骤。对于“有目的地选择协变量”,并对该过程有一些疑问。我在下面的文本中概述了前几个步骤,以帮助解决我的问题。
- 第 1 步:对每个自变量进行单变量分析(我使用了单变量逻辑回归)。任何单变量检验的 p 值小于 0.25 的变量都应包含在第一个多变量模型中。
- 第 2 步:拟合包含在第 1 步中确定包含的所有协变量的多变量模型,并使用其 Wald 统计量的 p 值评估每个协变量的重要性。应消除在传统显着性水平上没有贡献的变量并拟合新模型。应该使用偏似然比检验将新的、更小的模型与旧的、更大的模型进行比较。
- 步骤 3:将较小模型中的估计系数值与大模型中的相应值进行比较。任何系数在幅度上发生显着变化的变量都应重新添加到模型中,因为它在对模型中保留的变量的影响进行所需调整的意义上很重要。循环执行步骤 2 和 3,直到模型中包含所有重要变量,而排除的变量在临床和/或统计学上不重要。霍斯默等人。使用“ delta-beta-hat-percent ”作为系数大小变化的量度。他们提出了一个显着的变化,即大于 20% 的delta-beta-hat-percent。霍斯默等人。将delta-beta-hat-percent定义为 。其中是来自较小模型的系数,而是来自较大模型的系数。
- 第 4 步:将第 1 步中未选择的每个变量添加到第 3 步结束时获得的模型中,一次一个,并通过 Wald 统计 p 值或偏似然比检验(如果它是分类变量)检查其显着性2 级以上的变量。这一步对于识别本身与结果没有显着相关性但在存在其他变量时做出重要贡献的变量至关重要。我们将步骤 4 末尾的模型称为初步主效应模型。
- 步骤 5-7:我还没有进展到这一点,所以我暂时不考虑这些步骤,或者将它们留到另一个问题。
我的问题:
- 在第 2 步中,作为传统的显着性水平,p 值 <0.05 或更大,例如 <.25,什么是合适的?
- 再次在第 2 步中,我想确保我一直用于部分似然检验的 R 代码是正确的,并且我想确保我正确地解释了结果。这是我一直在做
anova(smallmodel,largemodel,test='Chisq')
的……如果 p 值显着(<0.05)我将变量添加回模型,如果它不显着我继续删除? - 在第 3 步中,我有一个关于delta-beta-hat-percent以及何时将排除变量添加回模型的问题。例如,我从模型中排除了一个变量,它会将另一个变量的更改>20%。中变化 >20% 的变量似乎微不足道,并且看起来好像在接下来的步骤 2 和 3 的几个周期中将被排除在模型之外。我该如何确定是否应从模型中包含或排除这两个变量?因为我通过首先删除最不重要的变量来一次排除 1 个变量,所以我不愿无序地排除一个变量。
最后,我想确保我用来计算的代码是正确的。我一直在使用以下代码。如果有一个包可以为我做这个或更简单的方法,我愿意接受建议。
100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])