数据挖掘 - 使用 t-SNE 跟踪词向量嵌入模型的进度。陷阱？ - 吾爱随笔录

我一直在大量文本上训练 word2vec/doc2vec 模型。我最近偶然发现了t-SNE包，发现它非常适合在高维数据中寻找隐藏结构。

t-SNE 是否可以用作跟踪像这样的硬机器学习任务的进度的一种方式——模型的理解从难以理解的废话变成具有隐藏结构的东西？

我已经在 t-SNE 上看到了 MNIST 数据集的示例，其中所有单独的数字彼此很好地聚集在一起。（如本答案所述）

随着我增加 doc2vec 模型中的向量数量和训练集的大小，我开始在 t-SNE 图中看到聚集（如果你眯着眼睛）。到目前为止，这些集群主要与措辞非常相似的帖子相关联（一个集群主要是“早上好/晚上好！”推文）。（图片是用perplexity 400生成的）

随着模型的改进，我可以期望看到多少额外的结块？这是否表明该模型实际上正在改进和学习单词/短语之间的更深层次的联系？或者这些 t-SNE 图是否已经形成了它们将一直采用的形式？

编辑：我已经意识到明显缺乏聚集可能是由于数据本身。MNIST 清晰地分离出来，因为通常没有奇怪的字形看起来像是数字之间的中间突变。我的数据集（推特情绪，160 万条推文）由于缺少更好的词而充满了无法分类的胡言乱语，而且情节中心的同质点森林似乎完全有可能代表这类推文。