具有两个特征的相似性度量

数据挖掘 相似
2022-02-13 15:11:46

我有一些关于相似性度量的问题

假设我们有一个矩阵M,其中M(i,j)是用户i和用户j之间的相似性度量

每个用户的特征是: id-user | 国家 | id-艺术家 | 身份跟踪

为此,我选择使用 Jaccard 相似度度量。

Jaccard 决定根据用户收听的曲目计算用户之间的相似度。我的问题是:是否可以同时考虑 id-trackid-artist 来衡量用户之间的相似性?

谢谢

2个回答

是的,多种不同的方式。

首先,我们可以将 (id-artist,id-track) 项目视为我们集合的元素,并通过比较这些集合来计算 Jaccard 相似度。请注意,如果艺术家的 id 没有给我们提供除了曲目 ID 之外的其他信息,这将给出相同的结果,而如果特定的曲目 ID 可以与多个艺术家相关联,则会给出不同的结果。

其次,我们可以计算轨道上的 Jaccard 相似度,然后计算艺术家的 Jaccard 相似度,然后将两者相加(可能用一些常数系数缩放两者)。这样,两个听相同艺术家但没有这些艺术家的相同歌曲的用户将被评为比听不同艺术家的不同歌曲的用户更相似。

什么系数有意义?好吧,您可以从每个 0.5 开始(即仅 .5*similarity_artist+.5*similarity_track),看看这是否合理,如果不合理则进行调整。

是的,你可以做到(确实有很多方式)。我喜欢将问题简化为分类问题,并得出将它们组合起来的正确方法。有关详细信息,请参阅: https ://stats.stackexchange.com/questions/61351/how-to-combine-multiple-similarity-measures/166419#166419