机器算法验证 - 在 k-最近邻中使用来自 PCA 的特征值 - 吾爱随笔录

我对这个 StackExchange 很陌生，到目前为止只是一个潜伏者，但我的 StackOverflow 伙伴说你会是最好的人问这个问题。

无论如何，足够的介绍。我正在使用加权 k-Nearest-Neighbours 算法。我的原始数据集有 37 个特征。我已经研究过使用 PCA 来降低维度，我将遵循这种方法。

为简单起见，让我们假设创建的两个新特性占方差的 90%，我将只使用这两个新特性。让我们称它们为特征 1 和特征 2 ( , )。假设占方差的 60%，占方差的 30%。我知道希望为这两个特征我最初的直觉是，我们可以将考虑的方差与特征的权重相关联。因此，我会在我的 k-Nearest-Neighbours 算法中和 $f_1$ $f_2$ $f_1$ $f_2%$ $w_1 , w_2$ $w_1 = 0.6$ $w_2 = 0.3$

我很清楚有很多文献表明选择权重的最佳方法是使用格型方法，我们选择不同的权重组合，然后按照产生最佳结果的组合进行。我只是想知道权重的直觉是否与总方差有关。此外，由于我的数据集实际上需要使用 11 个特征来解释 90% 的方差，因此我希望有一个确定权重组合的起点。

摘要：当使用 PCA 作为 kNN 的前体时，是否可以将 k-NN 中特征的权重基于所述特征在数据中占的总方差？

抱歉，如果有任何格式错误或我破坏了任何协议。如果有请告诉我，我会更新帖子。