在 PCA 中,是否有系统的方法来删除变量以最大化两个群体的隔离?

机器算法验证 分类 主成分分析 多元分析 特征选择 考古学
2022-03-28 06:38:07

我正在尝试使用主成分分析来调查是否有可能充满信心地猜测新数据点来自哪个人群(“Aurignacian”或“Gravettian”)。一个数据点由 28 个变量描述,其中大部分是考古文物的相对频率。其余变量计算为其他变量的比率。

使用所有变量,种群部分分离(子图(a)),但它们的分布仍然存在一些重叠(90% t 分布预测椭圆,尽管我不确定我是否可以假设种群的正态分布)。因此,我认为不可能有把握地预测新数据点的来源:

在此处输入图像描述

去除一个变量 (r-BEs),重叠变得更加重要,(子图 (d)、(e) 和 (f)),因为种群不会在任何配对的 PCA 图中分离:1-2、3- 4、...、25-26 和 1-27。我认为这意味着 r-BE 对于分离两个群体至关重要,因为我认为这些 PCA 图综合起来代表了数据集中 100% 的“信息”(方差)。

因此,我非常惊讶地发现,如果我删除了除少数几个变量之外的所有变量,人群实际上确实几乎完全隔离:

在此处输入图像描述 为什么当我对所有变量执行 PCA 时这种模式不可见?有 28 个变量,有268,435,427 种方法可以丢弃一堆变量。怎样才能找到那些将最大限度地隔离人口并最好地允许猜测新数据点的起源人口的人?更一般地说,是否有一种系统的方法可以找到像这样的“隐藏”模式?

编辑:根据变形虫的要求,这是缩放 PC 时的图。图案更清晰。(我意识到我继续淘汰变量是很顽皮的,但是这次的模式抵制了 r-BE 的淘汰,这意味着缩放会拾取“隐藏”模式):

在此处输入图像描述

1个回答

主成分 (PC) 基于预测变量/特征的方差。无法保证最具可变性的特征将是与您的分类高度相关的特征。这是对您的结果的一种可能解释。此外,当您像在绘图中那样将自己限制为一次投影到 2 台 PC 上时,您可能会错过更高维模式中存在的更好的分离。

由于您已经将预测变量作为线性组合合并到 PC 图中,因此您可以考虑将其设置为逻辑或多项回归模型。只有 2 个类别(例如,“Aurignacian”与“Gravettian”),逻辑回归将类别成员的概率描述为预测变量的线性组合的函数。多项回归可以推广到多个类别。

这些方法为结果/分类变量和预测变量提供了重要的灵活性。就分类结果而言,您对类别成员的概率进行建模,而不是在模型本身中做出不可撤销的全有或全无选择。因此,您可以例如允许基于相同的逻辑/多项模型的不同类型的分类错误的不同权重。

特别是当您开始从模型中删除预测变量时(正如您在示例中所做的那样),最终模型可能会变得过于依赖手头的特定数据样本。对于逻辑回归或多项回归中的预测变量,您可以使用标准惩罚方法(如 LASSO 或岭回归)来潜在地提高模型在新数据样本上的性能。岭回归逻辑或多项模型与您在示例中似乎试图完成的模型很接近。它基本上基于特征集的主成分,但它根据 PC 与分类的关系而不是它们包含的特征集方差的分数来对 PC 进行加权。