使用电子邮件数据集可以进行哪些研究?

数据挖掘 数据挖掘
2021-09-29 00:51:07

我找到了一个名为Enron Email Dataset的数据集。它可能是唯一大量公开的“真实”电子邮件集合。我发现了对这项工作的一些先前分析:

  • 在 2004 年 CEAS 会议上发表了一篇描述安然数据的论文。
  • Ron Bekkerman 的主页上描述了与这些数据相关的一些实验

  • Parakweet发布了一组开源的 Enron 句子数据,标记为言语行为。

  • 在宾夕法尼亚大学的工作包括用于电子邮件搜索的查询数据集以及基于安然语料库生成拼写错误的工具。

我正在寻找一些有趣的当前趋势主题来处理。请给我一些建议。

4个回答

以下是可以对电子邮件数据集进行的一些研究:

  • 语言分析以缩写电子邮件

  • 使用机器学习技术将电子邮件分类为垃圾邮件/垃圾邮件。

  • 识别在电子邮件消息集合中表达的概念,并将它们组织成本体或分类以供浏览

精彩的数据集,有很多机会重温文本分析技能!

我的第一个想法是在数据集上尝试一些主题建模。如果您使用的是 Python,那么我使用了一个名为gensim的库,其中包含一些相当详尽的教程可以帮助您入门。我的一个朋友对Enron 数据集做了类似的事情,使用并行预处理和分布式潜在 Dirichlet 分配来推断电子邮件语料库的主题。

你在学习,是吗?试着找一些简单有趣的东西开始。你为什么不开始一些简单的事情,比如建立一个贝叶斯模型来预测哪些电子邮件将被删除。您应该浏览那些已删除的电子邮件,它们是垃圾邮件吗?他们只是垃圾吗?

在这里,您有一个简单的监督模型,其中数据集已经为您标记了电子邮件(删除或未删除)。想想一些简单的事情,比如单词、标题、电子邮件的长度等,看看你是否可以建立一个预测电子邮件删除的模型。

我的第一个想法是:查看它形成一个社交图,其中节点是电子邮件 ID(人),如果它们相互通信,则 2 个节点是连接的。您还可以将其视为加权图,其中权重来自对话频率,您还可以使用发送者-接收者信息添加方向感。现在您可以对此应用各种社交网络分析。