我有一个潜在狄利克雷分配(LDA)模型 在一个语料库上训练的主题 文件。由于我的超参数配置,每个文档的输出主题分布主要分布在 3-6 个主题上,其余的都接近于零(~)。我的意思是,所有文档的 3-6 个贡献最高的主题比其他主题贡献大几个数量级(大约 6 个数量级)。
如果我使用Jensen-Shannon 距离来计算文档之间的相似度,我需要将主题分布的所有值存储为非零,即使是非贡献主题的非常小的值,因为 Jensen-Shannon 会除以每个离散值在分布。这需要大量存储并且效率低下。
但是,如果我将每个文档的主题分布存储为一个稀疏矩阵(3-6 个贡献最高的主题是非零的,其余的都是零),其中每一行是一个唯一的文档,每一列是一个主题,那么这个使用更少的空间。但是我不能再使用 Jensen-Shannon 度量,因为我们会被 0 除。在这种情况下:
我可以使用文档主题分布之间的欧几里德距离来比较文档之间的相似性吗?
使用欧几里得距离将需要更少的存储空间并且计算速度非常快。
我很欣赏 Jensen-Shannon 是比较离散概率分布以及Bhattacharyya distance和Hellinger distance的“正确”指标之一。但最终,LDA 的输出是每个文档的离散主题分布——每个文档是一个向量(或点)维空间。通过这个论点,使用欧几里得距离来计算文档相似性是否有效?这种方法有什么明显的错误吗?
我已经测试了欧几里得距离来比较文件,并产生了很好的结果,这对我的工业应用很有效。但我想知道这种方法背后的学者。提前致谢!