数据挖掘 - 哪种（天真的）NLP 方法用于关联聊天室中的人类消息？ - 吾爱随笔录

假设一个在线聊天室充满了许多“alt”帐户——即，多个帐户由一个用户控制，一个巨魔。该用户利用多个帐户将对话引导到特定方向以满足他们的需求。该用户还可能会更改每个帐户的语音模式，以避免被发现。

假设我想通过使用某种 NLP 分类器来检测这些 alt 帐户。最好的方法是什么？其中“最佳”意味着有效，但设置起来也相对简单——就像你可以在 python 中使用相对基本的 sklearn 模块所做的那样。

到目前为止，我尝试的是收集每个用户最常用的 100 个单词，然后将该语料库放入 sklearn.feature_extraction.text.TfidfVectorizer，然后查看成对相似度。这些大多是停用词，大多数在线 NLP 文章都告诉我忽略这些词。但我认为这些基本的（几乎是无意识地使用的）词不太可能受到混淆。例如，用户可能正在应用不常见单词的不同拼写（实现与实现等） - 但用户无法合理地为 [“the”、“of”、“you”、“one”] 提供替代拼写等等

就像我说的，这不是一种“高级”方法，但它是我愿意承担的一般复杂程度的一个例子。这种方法是否有效？如果没有，你能推荐一个更好的吗？