多元线性回归的最小观测数

机器算法验证 回归 t检验 多重回归
2022-03-20 23:14:59

我正在做多元线性回归。我有 21 个观察值和 5 个变量。我的目标只是找到变量之间的关系

  1. 我的数据集是否足以进行多元回归?
  2. t 检验结果显示我的 3 个变量不显着。我是否需要对重要变量再次进行回归(或者我的第一次回归足以得出结论)?我的相关矩阵如下

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
    

var 1 和 var 2 是连续变量,var 3 到 5 是分类变量,y 是我的因变量。

应该提到的是,由于我的数据限制,在文献中被认为是对我的因变量影响最大的重要变量不在我的回归变量中。如果没有这个重要变量,做回归仍然有意义吗?

这是我的置信区间

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**
2个回答

一般的经验法则(基于 Frank Harrell 的书Regression Modeling Strategies中的内容)是,如果您希望能够以合理的功效检测合理大小的效应,则每个估计的参数(协变量)需要 10-20 个观察值。Harrell 讨论了许多“降维”选项(将协变量的数量降低到更合理的大小),例如 PCA,但最重要的是,为了对结果有信心,必须进行降维不看响应变量正如您上面建议的那样,仅使用重要变量再次进行回归几乎在所有情况下都是一个坏主意。

但是,由于您被困在一个数据集和一组您感兴趣的协变量上,我不认为以这种方式运行多元回归本质上是错误的。我认为最好的办法是接受来自完整模型的结果(不要忘记查看点估计和置信区间,以了解在某些实际情况下显着影响是否被估计为“大”-世界意义,以及非显着影响是否实际估计小于显着影响)。

至于在没有您所在领域认为重要的预测变量的情况下进行分析是否有意义:我不知道。这取决于您要根据模型做出什么样的推断。从狭义上讲,回归模型仍然是明确定义的(“这些预测变量对这种响应的边际效应是什么?”),但您所在领域的某个人可能非常正确地说分析没有意义。如果您知道您拥有的预测变量与众所周知的预测变量(无论它是什么)不相关,或者该众所周知的预测变量对于您的数据是恒定的或几乎恒定的,这将有所帮助:那么至少您可以说众所周知的预测变量以外的其他因素确实对响应产生影响。

一般问题的答案是它取决于许多因素,主要因素是(1)协变量的数量(2)估计和残差的方差。对于一个小样本,你没有太多的能力来检测与 0 的差异。所以我会看看回归参数的估计方差。根据我对 5 个变量的回归 21 次观察的经验,数据不足以排除变量。所以我不会这么快就扔掉变量,也不会太迷恋那些看起来很重要的变量。最好的答案是等到你有更多的数据。有时候说起来容易做起来难。我会看逐步回归、前向和后向回归,只是为了看看选择了哪些变量。如果协变量高度相关,这可能表明选择的变量集非常不同。引导模型选择过程,因为这将揭示变量选择对​​数据变化的敏感性。您应该计算协变量的相关矩阵。也许弗兰克哈雷尔会对此表示赞同。他是变量选择方面的真正专家。我认为他至少会同意我的观点,即您不应该仅根据这 21 个数据点来选择最终模型。