我正在从事一个涉及 PCA 的项目,到目前为止,我对这种方法的了解非常好。我的工作涉及在数据库中找到与特定光谱最近的邻居(具有最小的欧几里得距离)。因此,我使用 PCA 降低了该数据库的维数,将所有光谱投影到 PCA 空间中。然后我继续使用投影系数找到光谱的最近邻居。
当我在二维空间中可视化 PCA 时,我想到了 PCA 空间中的小距离与原始空间中的小距离完全不对应的示例。例如,如果原始空间是 3d,而 PCA 空间是 2d,则数据点位于 PCA 空间(2d 平面)的“上方”和“下方”。因此数据点可能具有相似的投影,但在原始空间中彼此相距甚远。(如果我错了请纠正我)
我的问题是:有没有办法量化这个想法以实现更准确的最近邻搜索?有没有办法表示 PCA 空间中原始数据点和投影数据点之间的距离(知道这个距离总是与空间正交)?PS我不是数学家,对于任何不正确的术语,我深表歉意。