降维(PCA / AutoEncoder / ...)后使用哪种相异度/相似度度量?

数据挖掘 相似 降维
2021-10-05 17:12:47

每个问题都需要自己的相似性/不相似性度量。想象一下,我们正在处理由实数向量组成的数据集。我想我们主要使用欧几里德距离,尤其是在低维中。不幸的是,我们经常不得不处理庞大的维度数据集,并且我们应用了不同的降维技术来使问题更容易解决。

我很高兴知道您对降维后使用的不同相似性/相异性度量的看法,以及它们如何影响分类/回归/聚类指标。

在 PCA 或其他距离测量之后使用欧几里得距离是否更好?为什么 ?

如果我更喜欢使用 AutoEncoder 来减少我的数据集维度,它是否存在一种特殊的方法来保证通过特定的相似性/不同性度量提供更好的结果?

是否存在一种对特定距离度量最优的降维技术 (n.lG(n)) 及时?

1个回答

这个问题会引起很多意见,并且会非常具体地针对您正在查看的问题。但是列出流行的选项并没有什么坏处-

1.从数据开始

一个。图像 - 如果您正在使用图像并计划使用类似的分类器ConvNet,PCA 可能不是一个好主意。您应该使用流行的库来调整图像大小,例如opencv

湾。非结构化文本 - 我亲自研究过很多自由文本问题,我的 goto 方法是在对词袋数据(或任何相关的结构化方式)进行(降维)Cosine Distance之后使用TruncatedSVD

C。结构化 - 通常 PCA 是首选解决方案,但前提是您可以在下游预测模型中失去可解释性。Scree Plots是评估 PCA 练习的好坏/您需要多少主成分的好方法。

2.方法

一个。自动编码器 - 这些是基于神经网络的降维技术,我还没有看过在预测建模工作流程中自动编码器优于 PCA 的单个生产实例。我想我们只需要等待正确的用例

湾。距离度量-Euclidean无疑是最受欢迎的度量,但Cosine很好地赶上了自由文本问题。您也有 Hamming 距离、Mahalanobis 距离和无数其他距离,但这真的取决于您是否可以尝试。我还没有遇到过这些表现更好的案例。

当我们谈论距离度量时,还要看看DBScan聚类。

此外,Silhouette Distance这是衡量集群性能的另一种有效方法。