数据挖掘 - 仅对 24 个文档的主题建模为任何 K 提供相同的“主题” - 吾爱随笔录

描述：

我有 24 个文档，每个文档大约有 2.5K 个令牌。它们是公开演讲。

我的文本预处理管道是通用的，包括标点符号删除、英语缩略词的扩展、停用词的删除和标记化。

我已经在 Python 和 gensim 中实现并分析了潜在狄利克雷分配和潜在语义分析。我正在通过主题的连贯性计算最佳主题数量。

问题：

对于任意数量的主题 K（我尝试过很多，例如 10、50、100、200），我总是得到所有主题的相同的热门词组合。因此，它们的信息量为零。

我尝试通过阈值 TF-IDF 值删除“无用”单词，但仍然没有。

诊断：

为了了解可能的原因，我在 TF-IDF 矩阵上使用了 SVD。我的矩阵是 24 x 8115，这会导致 24 个奇异值。这是情节：

如您所见，没有拐点。

也许我不能这样做，因为我只有 24 个文件？

还是我忽略了在如此小的数据集上进行主题建模的一些基本知识？