如果在二元分类的 t-SNE 图中,两个类都遵循相似的曲线,那么 t-SNE 图会显示什么?

数据挖掘 分类 降维 二进制 特纳
2021-10-05 21:24:22

如果在二元分类的 t-SNE 图中,两个类都遵循类似的曲线,例如 t-SNE 图显示了什么:1或 图2

2个回答

T-SNE 不是一种聚类算法,应该主要用于数据可视化,正如作者在论文摘要中概述的那样(您应该阅读它:http ://www.jmlr.org/papers/v9/vandermaaten08a.html )。已经证明它可以分离定义明确的集群,但这里不是这种情况。

在您的主要数据上,欺诈者和非欺诈者之间没有直接的区别。基本上,您的图表表明欺诈者和非欺诈者是具有总体相似属性的类似类别的一部分。所以基本上这意味着欺诈特征不是直接的。其他 ML 算法可能会或可能不会学习“次要”变量。

为了有直觉,让我们简化问题。假设您正在使用 PCA 并且您正在获得一个线性函数。

如果你没有得到任何集群,这意味着不可能通过你所拥有的特征的线性组合来分离它们。由于它是一个线性函数,当你朝这个方向移动时,方差会发生变化。

t-SNE 类似于 PCA,但它对特征进行非线性组合。并且您所拥有的降维以非线性方式保持方差。因此,只需在第二段中将世界线性更改为非线性即可回答您的问题。

顺便说一句,这并不意味着如果您使用机器学习进行分类问题,您将得到不好的结果。在这种情况下,ML 仍然可以工作。