我有一个电子邮件主题列表,例如:
<XYZ> commented on <ABC>
Weekly review for <Company>
Your account is ready
我想在其中找到模式,以便对它们进行分组。
我可以使用一个众所周知的算法吗?
- 最好具有广泛的语言实现或易于重新实现。
- 该算法应该是无监督的。
- 不同电子邮件的数量未知。
更新:
我认为我可以将其分解为两个问题:
用他们使用的相似词对主题进行分组,结果如下。每个组都应该与其他组非常不同(它们应该几乎完全排他)并且算法应该给出相对较少数量的组,这些组具有良好的常用词长度。
[commented, on] [weekly, review] [your, account, is, ready]
分组后,应该很容易找到只接受组的主题并因此消除变量的状态自动机
然后我可以回去检查是否有任何交叉点并调整变量。
话虽如此,使用像神经网络这样的完全不同的方法会更好吗?我对这些的经验为零,但如果它更有意义,我愿意学习。