假设一个在线聊天室充满了许多“alt”帐户——即,多个帐户由一个用户控制,一个巨魔。该用户利用多个帐户将对话引导到特定方向以满足他们的需求。该用户还可能会更改每个帐户的语音模式,以避免被发现。
假设我想通过使用某种 NLP 分类器来检测这些 alt 帐户。最好的方法是什么?其中“最佳”意味着有效,但设置起来也相对简单——就像你可以在 python 中使用相对基本的 sklearn 模块所做的那样。
到目前为止,我尝试的是收集每个用户最常用的 100 个单词,然后将该语料库放入 sklearn.feature_extraction.text.TfidfVectorizer,然后查看成对相似度。这些大多是停用词,大多数在线 NLP 文章都告诉我忽略这些词。但我认为这些基本的(几乎是无意识地使用的)词不太可能受到混淆。例如,用户可能正在应用不常见单词的不同拼写(实现与实现等) - 但用户无法合理地为 [“the”、“of”、“you”、“one”] 提供替代拼写等等
就像我说的,这不是一种“高级”方法,但它是我愿意承担的一般复杂程度的一个例子。这种方法是否有效?如果没有,你能推荐一个更好的吗?