我正在构建一个能够将电子邮件分类为不同类别(正面、负面、不在办公室等)的系统,并且我正在寻找已分类电子邮件的数据集,以避免在 70k 数据库上进行手动分类。
我知道它存在 Enron 电子邮件数据集,但您知道它是否存在带有分类电子邮件的该数据集的版本吗?或者任何其他已经分类的电子邮件数据集?
我正在构建一个能够将电子邮件分类为不同类别(正面、负面、不在办公室等)的系统,并且我正在寻找已分类电子邮件的数据集,以避免在 70k 数据库上进行手动分类。
我知道它存在 Enron 电子邮件数据集,但您知道它是否存在带有分类电子邮件的该数据集的版本吗?或者任何其他已经分类的电子邮件数据集?
您可以从这个站点下载语料库。据我所知,这是可用的最完整的电子邮件语料库。可以在这个UC Berkley 站点上找到一个标记该电子邮件语料库子集的项目。我不确定这些电子邮件是否有适合您的培训标签。
安然语料库:电子邮件分类研究的新数据集论文描述了您想要的数据集类型。
该论文提到了以下链接来下载数据集:
https://www.cs.cmu.edu/~./enron/
此外,该论文还提到了其他各种使用与电子邮件分类相关的较小数据集的论文,考虑到这个较大的数据集,这些数据集可能没有多大用处。