我的数据库中有用户,我想根据那里文章的内容进行匹配或分组。我似乎无法找到今天如何解决这种问题。任何建议都会有所帮助。
可用数据:
1)每个用户的帖子(他们写的任何东西,比如博客)。
2)每个帖子的标签(用户在创建帖子时为其提供的标签)
目标:
1) 根据可用数据匹配/分组用户。
2) 产生匹配百分比。
试图:
我根据他们标签的完全匹配数来匹配人。
示例:user1 拥有 [car,honda,sports],user2 拥有 [car,food]。
这将给出 33% 的匹配。
正如您所想象的那样,这不是很好。大多数用户有 20 个标签,但即使他们在谈论类似的事情,通常也会得到 0% 的匹配百分比。
问题:
CAR 和 HONDA 等具有明确关系的标签不匹配。
问题:
如何根据标签或文章的内容匹配/分组用户?