数据挖掘 - 降维（PCA / AutoEncoder / ...）后使用哪种相异度/相似度度量？ - 吾爱随笔录

数据挖掘相似降维

2021-10-05 17:12:47

每个问题都需要自己的相似性/不相似性度量。想象一下，我们正在处理由实数向量组成的数据集。我想我们主要使用欧几里德距离，尤其是在低维中。不幸的是，我们经常不得不处理庞大的维度数据集，并且我们应用了不同的降维技术来使问题更容易解决。

我很高兴知道您对降维后使用的不同相似性/相异性度量的看法，以及它们如何影响分类/回归/聚类指标。

在 PCA 或其他距离测量之后使用欧几里得距离是否更好？为什么？

如果我更喜欢使用 AutoEncoder 来减少我的数据集维度，它是否存在一种特殊的方法来保证通过特定的相似性/不同性度量提供更好的结果？

是否存在一种对特定距离度量最优的降维技术 $O(n.log(n))$ 及时？

1个回答

这个问题会引起很多意见，并且会非常具体地针对您正在查看的问题。但是列出流行的选项并没有什么坏处-

1.从数据开始

一个。图像 - 如果您正在使用图像并计划使用类似的分类器ConvNet，PCA 可能不是一个好主意。您应该使用流行的库来调整图像大小，例如opencv

湾。非结构化文本 - 我亲自研究过很多自由文本问题，我的 goto 方法是在对词袋数据（或任何相关的结构化方式）进行（降维）Cosine Distance之后使用TruncatedSVD

C。结构化 - 通常 PCA 是首选解决方案，但前提是您可以在下游预测模型中失去可解释性。Scree Plots是评估 PCA 练习的好坏/您需要多少主成分的好方法。

2.方法

一个。自动编码器 - 这些是基于神经网络的降维技术，我还没有看过在预测建模工作流程中自动编码器优于 PCA 的单个生产实例。我想我们只需要等待正确的用例

湾。距离度量-Euclidean无疑是最受欢迎的度量，但Cosine很好地赶上了自由文本问题。您也有 Hamming 距离、Mahalanobis 距离和无数其他距离，但这真的取决于您是否可以尝试。我还没有遇到过这些表现更好的案例。

当我们谈论距离度量时，还要看看DBScan聚类。

此外，Silhouette Distance这是衡量集群性能的另一种有效方法。

其它你可能感兴趣的问题