为主成分回归选择最佳特征向量集

机器算法验证 主成分分析 岭回归
2022-04-05 13:23:45

我正在测试用于处理回归问题中的强多重共线性 (MC) 的各种技术。

在诸如岭回归 (RR) 和主成分回归 (PCR) 等竞争技术之间已经有各种比较论文。尽管最好的技术似乎是针对特定问题的,但似乎没有明确的赢家。然而,PCR 方法困扰我的一件事是有点武断的方式,即简单地排除最小的特征向量,正如在 Hadi 和 Ling 中所证明的那样,即使最小的特征向量也可能具有很强的预测能力,而最大的特征向量可能没有。

Hadi 和 Ling 的“关于使用主成分回归的一些注意事项”。( PDF )

他们还表明,通过添加看似微不足道的特征向量,可以极大地改进 SSE。

在他们的讨论中,他们强调了两篇试图解决第二个缺陷的论文——Lott(1973)和 Gunst 和 Mason(1973)——但是已经表明 Lott 技术在存在强大的 MC,而我的问题有强大的 MC。

您是否知道即使在存在强 MC 的情况下也可以选择最佳特征值集的论文?或者最近比较 PCR 和 RR 的论文?

1个回答

这一般是不可能的。如果是一个多元输入,而是一个对应的输出。没有先验理由说明之间的最佳线性关系应该是前个PC 的函数。xiRNyiyxk

一个反例是假设的标准基向量。假设数据构造为其中是标准法线,在任何体面的样本大小都不会是选择某些的主要基向量之一。因此,PCR 会丢弃有用的信息,因为它基于一种不关注的方法(即关注您试图回归的事物)。ejRNx=i=1Nziieiziyi=ziβeNeNk<Nyi

另一方面,岭回归实际上是一种回归技术。