数据挖掘 - 根据文章内容匹配用户 - 吾爱随笔录

我的数据库中有用户，我想根据那里文章的内容进行匹配或分组。我似乎无法找到今天如何解决这种问题。任何建议都会有所帮助。

可用数据：

1）每个用户的帖子（他们写的任何东西，比如博客）。

2）每个帖子的标签（用户在创建帖子时为其提供的标签）

目标：

1) 根据可用数据匹配/分组用户。

2) 产生匹配百分比。

试图：

我根据他们标签的完全匹配数来匹配人。

示例：user1 拥有 [car,honda,sports]，user2 拥有 [car,food]。

这将给出 33% 的匹配。

正如您所想象的那样，这不是很好。大多数用户有 20 个标签，但即使他们在谈论类似的事情，通常也会得到 0% 的匹配百分比。

问题：

CAR 和 HONDA 等具有明确关系的标签不匹配。

问题：

如何根据标签或文章的内容匹配/分组用户？