您将如何对电子邮件主题进行分类以查找类似的电子邮件?

数据挖掘 文本挖掘 算法
2021-09-28 20:39:08

我有一个电子邮件主题列表,例如:

<XYZ> commented on <ABC>
Weekly review for <Company>
Your account is ready 

我想在其中找到模式,以便对它们进行分组。

我可以使用一个众所周知的算法吗?

  • 最好具有广泛的语言实现或易于重新实现。
  • 该算法应该是无监督的。
  • 不同电子邮件的数量未知。

更新:

我认为我可以将其分解为两个问题:

  1. 用他们使用的相似词对主题进行分组,结果如下。每个组都应该与其他组非常不同(它们应该几乎完全排他)并且算法应该给出相对较少数量的组,这些组具有良好的常用词长度。

    [commented, on]
    [weekly, review]
    [your, account, is, ready]
    
  2. 分组后,应该很容易找到只接受组的主题并因此消除变量的状态自动机

  3. 然后我可以回去检查是否有任何交叉点并调整变量。

话虽如此,使用像神经网络这样的完全不同的方法会更好吗?我对这些的经验为零,但如果它更有意义,我愿意学习。

2个回答

根据您的问题和描述,我建议您尝试Text Mining - Bag of Words方法。我使用相同的方法做了类似的事情,这真的很有帮助。

有关该方法的更多详细信息,请参见此处

试一试。干杯!

您可以将正确的语义关联到每个字母,从语义的定义开始。从头开始构建您的模型,用严谨的态度继续前进。在这一点上,你有字母的语义,但哪个是单词的语义?我们可以把它减少到更密集的东西吗?

我在开玩笑,但不是:)

问题是,如何对数据进行分类?

你必须制定规则/限制来定义一些东西。如果您希望您的作品用于平均解释,请使用每个字母/单词/句子/段落的平均含义。

您可以做出不连贯,例如 good(0) bad(1) => lucky = 0 , unlucky = 1 但是您可以说暂时幸运是后来不幸因此幸运 = 1 因此您必须设置硬限制并以此为基础,您有 2 个选择,向后看或向前移动!

希望对您有所帮助!