PCA 将降低原始数据的维数并构建由特征向量生成的子空间,每个特征向量代表(下一个)最高方差来解释数据。
让我们从这个子空间开始:已经执行了 PCA,现在我们来看看相应的子空间:
现在让我们假设存在异常值(但具体在哪里)。现在如何检测到它们?
到目前为止,我知道有两种方法:
跟踪 PC 之间的角度(s ?)
检查电脑数量
我认为两者都不可靠,因为新的或更多的数据可能会在不提供异常值的情况下改变角度。轴的数量更有意义,但我仍然可以在脑海中构建新数据可能导致引入新轴的情况,而不会使那里的所有数据成为异常值。我想到了
使用距离/定义的半径来扫描新的异常值,但我几乎找不到相应的方法?上
为什么 PCA 对异常值敏感?解释了为什么它对异常值敏感,这也可以用作工具。
换句话说:PCA 究竟是如何用于检测异常值的,它们在执行 PCA后是如何检测的?