数据挖掘 - 您将如何对电子邮件主题进行分类以查找类似的电子邮件？ - 吾爱随笔录 - 问答

您将如何对电子邮件主题进行分类以查找类似的电子邮件？

数据挖掘文本挖掘算法

2021-09-28 20:39:08

我有一个电子邮件主题列表，例如：

<XYZ> commented on <ABC>
Weekly review for <Company>
Your account is ready

我想在其中找到模式，以便对它们进行分组。

我可以使用一个众所周知的算法吗？

最好具有广泛的语言实现或易于重新实现。
该算法应该是无监督的。
不同电子邮件的数量未知。

更新：

我认为我可以将其分解为两个问题：

用他们使用的相似词对主题进行分组，结果如下。每个组都应该与其他组非常不同（它们应该几乎完全排他）并且算法应该给出相对较少数量的组，这些组具有良好的常用词长度。
```
[commented, on]
[weekly, review]
[your, account, is, ready]
```
分组后，应该很容易找到只接受组的主题并因此消除变量的状态自动机
然后我可以回去检查是否有任何交叉点并调整变量。

话虽如此，使用像神经网络这样的完全不同的方法会更好吗？我对这些的经验为零，但如果它更有意义，我愿意学习。

2个回答

根据您的问题和描述，我建议您尝试Text Mining - Bag of Words方法。我使用相同的方法做了类似的事情，这真的很有帮助。

有关该方法的更多详细信息，请参见此处。

试一试。干杯!

您可以将正确的语义关联到每个字母，从语义的定义开始。从头开始构建您的模型，用严谨的态度继续前进。在这一点上，你有字母的语义，但哪个是单词的语义？我们可以把它减少到更密集的东西吗？

我在开玩笑，但不是:)

问题是，如何对数据进行分类？

你必须制定规则/限制来定义一些东西。如果您希望您的作品用于平均解释，请使用每个字母/单词/句子/段落的平均含义。

您可以做出不连贯，例如 good(0) bad(1) => lucky = 0 , unlucky = 1 但是您可以说暂时幸运是后来不幸因此幸运 = 1 因此您必须设置硬限制并以此为基础，您有 2 个选择，向后看或向前移动！

希望对您有所帮助！

其它你可能感兴趣的问题

上一篇预测最有可能打开的应用程序下一篇RNN 的梯度检查失败