使用 T-SNE 可视化异常值

数据挖掘 机器学习 离群值 特纳
2022-02-11 10:36:39

我正在尝试使用 T-SNE 可视化我的数据中的异常值,并且异常值似乎显示为三个不同的集群。原始数据有 7 个不同的列,但我选择在二维图上绘制异常值。我预计异常值会聚集到一个组中,但我的图表上有三个不同的集群(红点)。看到不同组的异常值是否正常?例如,最左侧的红色簇是一组特征 A 的异常值,中间的红色簇是另一组特征 B 的异常值。

或者这个结果是否表明 T-SNE 不适合我的数据?

在此处输入图像描述

1个回答

t-SNE 通常用于提供符合事先已知解释的漂亮图片;但这显然是一个阴暗的应用程序。

如果您想使用它来实际了解您不知道的数据(例如,识别异常值),您将面临两个问题:

  1. t-SNE 会根据您设置的超参数生成具有非常不同解释的非常不同的图片。
  2. 据我所知,对于给定的数据集选择哪些超参数没有明确的指导。

因此,您可能希望完全避免使用 t-SNE。

如果您想在决定是否继续使用之前进一步探索 t-SNE,建议您尝试不同的超参数设置。这样做时,您可能会发现这篇文章很有帮助。