比较不同预测变量集的重要性

机器算法验证 回归 预测器 重要性
2022-03-03 02:28:45

我正在为一个有特定问题的研究生提供建议,我很想在这个网站上获得其他人的意见。

语境:

研究人员有三种类型的预测变量。每种类型都包含不同数量的预测变量。每个预测变量都是一个连续变量:

  • 社交:S1、S2、S3、S4(即四个预测变量)
  • 认知:C1、C2(即两个预测变量)
  • 行为:B1、B2、B3(即三个预测变量)

结果变量也是连续的。样本包括大约 60 名参与者。

研究人员想评论哪种类型的预测变量在解释结果变量时更重要。这与对这些类型预测变量的相对重要性的更广泛的理论担忧有关。

问题

  • 评估一组预测变量相对于另一组的相对重要性的好方法是什么?
  • 什么是处理每组中预测变量数量不同这一事实的好策略?
  • 您可能会在解释中提出哪些警告?

任何对示例或技术讨论的引用也将受到欢迎。

4个回答

建议

  • 您可以对每种类型的预测变量执行单独的多重回归,并在多重回归、调整 r 平方、广义 r 平方或解释的其他一些简约调整方差测量之间进行比较。
  • 您也可以探索有关变量重要性的一般文献(请参阅此处的链接讨论)。这将鼓励关注个体预测因素的重要性。
  • 在某些情况下,层次回归可以提供有用的框架。您将在一个块中输入一种类型的变量(例如,认知变量),在第二个块中输入另一种类型的变量(例如,社会变量)。这将有助于回答一种类型的变量是否预测超过另一种类型的问题。
  • 作为附带检查,您可以对预测变量进行因子分析,以检查预测变量之间的相关性是否映射到变量到类型的分配。

注意事项

  • 诸如认知、社会和行为等变量类型是广泛的变量类别。给定的研究将始终仅包括可能变量的子集,并且通常这样的子集相对于可能的变量来说很小。此外,测量变量可能不是测量预期构造的最可靠或最有效的方法。因此,在更广泛地推断给定类型变量的相对重要性超出实际测量值时,您需要小心。
  • 您还需要考虑测量因变量的方式中的任何偏差。特别是在心理学研究中,自我报告测量值与自我报告、能力与能力、其他报告与其他报告等具有良好相关性的趋势。问题是测量模式对实际感兴趣的结构有很大的影响。因此,如果因变量是以特定方式测量的(例如,自我报告),那么如果该类型也使用自我报告,则不要过度解释与一种类型的预测变量的更大相关性。

假设第一组预测变量需要自由度(允许非线性项),第二组需要,第三组需要 ( ) 允许非线性项。计算每个集合的组合偏效应的似然比自由度随机变量的期望值,因此减去以平衡竞争环境。即计算aa4bcc3χ2L1,L2,L3χ2dddL1a,L2b,L3c. 如果使用 F 检验,将 F 乘以其分子 df 得到标度。χ2

重要性

首先要做的是操作“预测变量的重要性”。我假设它的意思是“平均结果对预测值变化的敏感性”。由于您的预测变量是分组的,因此平均结果对预测变量组的敏感性比变量分析的变量更有趣。我将它保持开放是否敏感是否被因果理解。这个问题稍后再讨论。

三个版本的重要性

解释了很多方差:我猜心理学家的第一个停靠点可能是方差分解,从而衡量每组预测变量中的方差 - 协方差结构解释了多少结果方差。作为一个实验主义者,我在这里不能提出太多建议,除了要注意整个“解释方差”的概念对我的口味来说有点没有根据,即使没有“哪个平方和”的问题。欢迎其他人不同意并进一步发展。

大标准化系数:SPSS 提供(错误命名的)beta 以跨变量可比的方式测量影响。有几个不使用它的原因,在 Fox 的回归教科书、here和其他地方进行了讨论。都适用于此。它也忽略了组结构。

另一方面,我想人们可以标准化组中的预测变量,并使用协方差信息来判断一个标准偏差运动对所有变量的影响。就我个人而言,座右铭:“如果一件事不值得做,那就不值得做好”抑制了我这样做的兴趣。

大边际效应:另一种方法是保持在测量范围内并计算仔细选择的样本点之间的边际效应。因为您对组感兴趣,所以选择点来改变变量组而不是单个变量是有用的,例如同时操纵两个认知变量。(这里有很多很酷的情节的机会)。基本论文在这里R 中的effects包可以很好地做到这一点。

这里有两个警告:

  1. 如果您这样做,您将需要注意您没有选择两个认知变量,这些变量虽然单独合理,例如中位数,但共同远离任何主题观察。

  2. 有些变量甚至在理论上是不可操纵的,因此将边际效应解释为因果关系更加微妙,尽管仍然有用。

不同数量的预测变量

问题是由于分组变量协方差结构引起的,我们通常尽量不担心,但对于这个任务应该。

特别是在计算组而不是单个变量的边际效应(或就此而言的标准化系数)时,较大组的维度诅咒将使比较更容易误入没有案例的区域。一组中的更多预测变量会导致空间更稀疏,因此任何重要性度量都将更多地取决于模型假设,而不是观察(但不会告诉你......)但这些问题与模型拟合阶段相同真的。当然,与基于模型的因果影响评估中会出现的情况相同。

一种方法是将变量集组合成层变量。这种方法已广泛用于社会学和相关领域。

参考:

Whitt, Hugh P. 1986。“捆系数:一种简化和扩展的方法”。社会科学研究 15:174-189。