我可以将欧几里德距离用于潜在狄利克雷分配文档相似性吗?

数据挖掘 nlp 低密度脂蛋白 距离 类似文件
2021-09-29 21:19:42

我有一个潜在狄利克雷分配(LDA)模型 ķ 在一个语料库上训练的主题 文件。由于我的超参数配置,每个文档的输出主题分布主要分布在 3-6 个主题上,其余的都接近于零(ķ~(100))。我的意思是,所有文档的 3-6 个贡献最高的主题比其他主题贡献大几个数量级(大约 6 个数量级)。

如果我使用Jensen-Shannon 距离来计算文档之间的相似度,我需要将主题分布的所有值存储为非零,即使是非贡献主题的非常小的值,因为 Jensen-Shannon 会除以每个离散值在分布。这需要大量存储并且效率低下。

但是,如果我将每个文档的主题分布存储为一个稀疏矩阵(3-6 个贡献最高的主题是非零的,其余的都是零),其中每一行是一个唯一的文档,每一列是一个主题,那么这个使用更少的空间。但是我不能再使用 Jensen-Shannon 度量,因为我们会被 0 除。在这种情况下:

我可以使用文档主题分布之间的欧几里德距离来比较文档之间的相似性吗?

使用欧几里得距离将需要更少的存储空间并且计算速度非常快。

我很欣赏 Jensen-Shannon 是比较离散概率分布以及Bhattacharyya distanceHellinger distance的“正确”指标之一。但最终,LDA 的输出是每个文档的离散主题分布——每个文档是一个向量(或点)ķ维空间通过这个论点,使用欧几里得距离来计算文档相似性是否有效?这种方法有什么明显的错误吗?

我已经测试了欧几里得距离来比较文件,并产生了很好的结果,这对我的工业应用很有效。但我想知道这种方法背后的学者。提前致谢!

1个回答

欧几里得距离 - 在这个应用程序中,我假设你的意思是欧几里得距离 n- 由文档内容分布定义的维空间 n 考虑的主题,是用于比较两个文档中表示的主题的有效度量。

您通过应用此方法所做的是量化这个新定义的空间内的主题频率差异,因此对这些量子的解释将需要对空间进行分析。例如,什么欧几里得距离表明文档比较相似?

在 distition 中,诸如 hellinger 距离之类的归一化结果提供了一个易于互操作的框架来评估结果——0 分表示两个文档的相关主题的分布没有重叠,1 分表示完全重叠.

对于效率问题,我不清楚为什么您不能将您考虑的主题截断为关键主题,然后计算这些主题的分布上的任何指标,而不是整个考虑主题的范围。