我找到了一个名为Enron Email Dataset的数据集。它可能是唯一大量公开的“真实”电子邮件集合。我发现了对这项工作的一些先前分析:
- 在 2004 年 CEAS 会议上发表了一篇描述安然数据的论文。
Ron Bekkerman 的主页上描述了与这些数据相关的一些实验
Parakweet发布了一组开源的 Enron 句子数据,标记为言语行为。
在宾夕法尼亚大学的工作包括用于电子邮件搜索的查询数据集以及基于安然语料库生成拼写错误的工具。
我正在寻找一些有趣的当前趋势主题来处理。请给我一些建议。