包含垃圾邮件、网络钓鱼电子邮件示例的数据库

信息安全 垃圾邮件 网络钓鱼 社会工程学
2021-08-13 06:06:05

我正在做一个小项目,试图看看我是否可以预测电子邮件实际上是安全风险(网络钓鱼、垃圾邮件、社会工程等)的可能性。

为了做到这一点,我需要有一个示例列表,可以用来理解“垃圾邮件”、“网络钓鱼”或“社会工程师”语言。

我打算专注于英语电子邮件。

是否有任何数据库包含以下示例:
- 垃圾邮件(我的垃圾邮件箱非常混杂,我可能在那里有一些有效的电子邮件。
- 网络钓鱼电子邮件(或鱼叉式网络钓鱼)
- 标记为社会工程攻击的电子邮件。

1个回答

假设您正在使用某种机器学习(即使您没有使用),您也需要一个分散注意力的语料库(在反垃圾邮件行业,我们将所需邮件称为“火腿”,因为它说起来比“非垃圾邮件”),这将是您最大的挑战。

吸引垃圾邮件的一个起点可能是这个旧的 Stack Overflow 请求公开可用的垃圾邮件过滤器训练集或这个旧的 Stack Overflow头脑风暴:如何快速为大量垃圾邮件创建蜜罐? 虽然两者都与 Stack Overflow 无关,但这里可能并非如此。

另一个起点是SpamAssassin 公共语料库,尽管此时它已有 10 多年的历史。

还有其他吸引垃圾邮件和火腿的技术。搜索垃圾邮件陷阱,您会发现来自反垃圾邮件专家和电子邮件服务提供商的大量建议。

一般来说,收集一个好的语料库可以帮助您预测如何过滤新的垃圾邮件需要付出很多努力。这是显著更难钓鱼,预付费用欺诈,和其他有针对性的垃圾邮件收集适当的样本。我已经提到收集非散装火腿也将是一个挑战,但如果你试图校准以捕捉网络钓鱼,你需要确保你的火腿语料库包含许多与金融相关的合法非营销邮件和账户维护。

你最好的选择是与业内已经拥有良好数据的人合作。

这可能包括像 SpamAssassin 这样的自由软件社区。如果您可以将您的工作实例化为正则表达式的逻辑组合(SpamAssassin 规则),您可以让SpamAssassin QA 系统针对其自己的语料库运行您的组合。这将需要将您的工作许可为 Apache License v2,以便 SpamAssassin 本身可以使用它。

反网络钓鱼工作组( APWG) 拥有大量网络钓鱼样本,尽管您可能需要为它们付费(除非您正在为他们的eCrime Symposium 撰写论文?)

Project Honeypot也收集了大量的垃圾邮件(虽然他们没有火腿)。你也许可以和他们一起工作。