相似性阈值标准

数据挖掘 相似 语义相似性
2022-02-18 05:23:00

在对任何类型的数据使用相似性度量(例如 Resnik 信息内容、余弦相似性等)时,是否使用了任何标准相似性阈值,或者这一切都取决于情况?相似度阈值将是 [0,1] 中的值 X,使得相似度得分大于 X 的所有对都是“连接的”,而相似度得分低于 X 的对则不是。

此外,当较高的阈值根本无法产生足够的“连接”对并且具有低相似度阈值在实践中仍然有效时,低相似度阈值(~0.15)是否可以接受?

1个回答

我不认为有任何标准,但在非常具体的情况下可能会有一些例外情况,即分数的分布是精确已知的。

没有标准,因为通常阈值的最佳值很大程度上取决于任务和数据。这就是为什么阈值通常根据期望的结果凭经验确定的原因。换句话说,阈值可以看作是一个超参数:可以通过最大化目标任务在训练集(或验证集)上的性能来找到它的最优值。