数据挖掘 - 长曲线形状的 t-SNE 是什么意思？ - 吾爱随笔录

长曲线形状的 t-SNE 是什么意思？

数据挖掘降维特纳

2021-09-15 12:40:34

我使用 1-D CNN 输入 1*512 大小的时间序列数据，随机分片，输出将输入分为 10 类。在训练 CNN 之后，我将 t-SNE 应用于我在测试数据中输入的预测。一般来说，tsne 结果的输出形状是球形的（例如，应用于 MNIST 数据集）。但现在我在自己的数据集上应用 t-SNE。无论我如何尽早调整困惑度、学习率或最大迭代次数。它会给我长形输出的结果，就像下图一样。长形 t-SNE 有什么意义吗？提前谢谢大家。

编辑：解释数据集内容。ps 在输入 CNN 进行训练之前，我将其随机拆分为训练/测试数据集。

3个回答

时间序列数据粘在一起是有道理的——因此形成了你所看到的这些线。在假设变量是随机的（例如，以布朗运动为模型）的正常时间序列分析中，明天的最佳预测与今天相同。t-SNE 找到与您的特征空间最近的点并将它们嵌入到 2D 空间中。令人印象深刻的是，它挑选出来并以你的情节结束！

虽然你经常得到圆形的图，但你总是得到圆形/球体是不正确的。t-SNE 最大化集群之间的距离，同时最小化单个集群中点之间的距离......为了效率，圆圈经常出现。您可以在自然界中观察到这一点：行星的形状、水中的气泡……圆圈是有效的！

t-SNE 不允许您直接将集群之间的距离解释回输入单元（例如，一条线是另一条线的两倍高并不意味着值是两倍大）。在相同特征的输入时间序列数据旁边绘制单独的时间序列线本身（在单个集群内）可能会很有趣，然后寻找任何对应关系。

为了获得更多理解，我建议阅读这篇关于 t-SNE 的精彩演练/可视化文章。有几个例子显示了非循环结果：

Wattenberg 等人，“如何有效地使用 t-SNE”

因此，这些线是时间序列。t-sne 是一种对局部非常敏感的算法，因此每个数据点很可能显示为最接近（在 2-D 中）其最近 (ND) 邻居。

在 MNIST 中没有序列，因此它不会在二维中显示为一条线。每个数字都以一组相似的方式写入，这些方式聚集在一起。在您的时间序列数据中，如果每个时间点与其下一个时间点最相似，我们期望它们按某种顺序排列 - 因为您希望点 t=n 最接近点 t=n- 1 和 t=n+1（如果它们实际上是最相似的）。

这也可能是由于您使用的是来自 softmax（或其他概率）层的特征。确保您使用的是激活层而不是概率。例如，在 Keras 中，如果您从最后一层提取特征，它会提取 softmax 概率向量。概率向量彼此非常相似，尤其是当它们属于同一类时，因为这是 softmax 试图做的。我在提取概率时使用时间序列数据看到类似的形状，然后在提取前一层激活时使用数据云（而不是曲线）。

其它你可能感兴趣的问题

上一篇GAN 是否已经有任何实际的商业用途？下一篇Tensorflow 如何计算 reduce_min 操作的梯度？