使用递归神经网络进行垃圾邮件检测

人工智能 分类 循环神经网络
2021-10-30 02:10:13

我正在研究使用循环神经网络进行垃圾邮件检测的代码

问题 1. 我想知道这个领域(使用 RNN 进行垃圾邮件检测)是否值得更多研究,或者它是一个封闭的研究领域。

问题 2. 该领域最早发表的论文是什么?

问题 3. 与其他分类方法相比,使用 RNN 进行垃圾邮件检测的优缺点是什么?

2个回答

最初,垃圾邮件检测依靠简单的基于规则的技术来分拣垃圾邮件。然而,在 Paul Graham 的著名文章“垃圾邮件计划”之后,朴素贝叶斯方法变得非常流行,以至于它被视为处理垃圾邮件的基准。

然而,随着深度学习的突破,研究人员现在将注意力转向神经网络,以帮助他们处理垃圾邮件的长期问题。Google 最近通过将 NN 引入到 g-mail 的垃圾邮件过滤器中报告了这一点。它们的准确率从 99.5% 提高到 99.9% 以上,这表明神经网络,尤其是与贝叶斯分类结合使用时,可能对增强垃圾邮件过滤器有效。您可以参考以下链接了解 Google 的成功故事https://www.wired.com/2015/07/google-says-ai-catches-99-9-percent-gmail-spam/

使用神经网络开发垃圾邮件过滤器基本上是一个分类问题。您需要按照以下步骤来开发这样的系统。(尼基尔 B 2016)

  • 收集垃圾邮件和合法电子邮件的数据集。标记这些数据集。您可以在这里找到电子邮件和垃圾邮件数据集http://csmining.org/index.php/spam-email-datasets-.html
  • 使用特征提取和矢量化技术处理这些消息,例如 tf-idf vectorizer、word2vec、bag-of-words 等
  • 成功矢量化数据集后,应用监督学习 NN 算法,即径向基网络、多层感知器 (MLP) 或反向传播。
  • 在神经网络上训练您的标记数据集。训练完成后,您可以使用交叉验证来使用测试数据集计算训练模型的精度。

与其他方法相比,使用 NN 进行垃圾邮件检测的一些优势包括。

  • 正如谷歌所证明的,神经网络在识别垃圾邮件方面具有更高的准确性。
  • 与其他方法(例如基于规则的技术)相比,它们的误报率较低。
  • 它们的主要缺点是需要专门的计算硬件来部署。

在该领域发表的一些有影响力的旧论文包括。

垃圾邮件过滤中的机器学习技术 (2004) http://ats.cs.ut.ee/u/kt/hw/spam/spam.pdf

检测垃圾邮件博客:机器学习方法 (2006) https://www.aaai.org/Papers/AAAI/2006/AAAI06-212.pdf

垃圾邮件过滤的机器学习方法综述 (2009) https://www.sciencedirect.com/science/article/pii/S095741740900181X

问题 1. 我想知道这个领域(使用 RNN 进行垃圾邮件检测)是否值得更多研究,或者它是一个封闭的研究领域。

使用 RNN 检测垃圾邮件源于使用人工网络检测电信和金融行业中的欺诈行为,这是由于对在线和数据中心的长途线路、ATM、银行和信用卡系统的攻击增加所致支持实体销售点。

尽管基本的 RNN 设计已经让位于更新的 LSTM 和 GRU 方法及其变体和扩展,但人工网络现在是主要的欺诈检测技术之一。这种欺诈检测策略的主导地位延伸到垃圾邮件检测,它与欺诈密切相关。垃圾邮件发送者表现出与其收件人之间不存在的关系。

在可预见的未来,改进用于识别时间序列数据模式的计算设计以及将这些设计应用于欺诈检测和对策以及检测和路由或删除不需要的传入信息将是一个稳定的研究和开发领域。

问题 2. 该领域最早发表的论文是什么?

没有最古老的发表论文。在这个答案中给出了关于 RNN 的第一篇论文:我在哪里可以找到介绍 RNN 的原始论文?,但是从基于模式的检测到人工网络再到有状态人工网络的转变是渐进的。这些网络在服务器端或客户端解决方案中的最早部署发生在任何关于 RNN 在垃圾邮件检测中使用的特定主题的论文发表之前。

问题 3. 与其他分类方法相比,使用 RNN 进行垃圾邮件检测的优缺点是什么?

垃圾邮件也有很强的时间因素。一年内认为不受欢迎的垃圾邮件可能在几年后被认为是关键任务电子邮件,反之亦然。该领域的性能包括分类的速度、准确性和可靠性,还包括适应不断变化的用户分类需求。

正是由于这四个性能特征,从 RNN 派生的有状态网络通常用于垃圾邮件检测。需要在单元级别进行门控学习和遗忘以支持可变自适应性,这使得 LSTM 和 GRU 变体成为常见的选择。

语义文档分类依赖于一组新兴技术,这些技术主要是人工网络设计,通过将语言结构存储在允许它们之间进行类比、比较和组合的形式中,开始突破对文本认知理解的门槛。随着这种设计的进一步发展,结合递归人工网络对模糊关联执行这些操作的语义算法可能会成为主导设计。

参考

检测垃圾邮件博客:一种机器学习方法,Pranam Kolari,2006

在循环神经网络中使用基于注意力的机制自动标记错误和票证,Volodymyr Lyubinets 等。等,2018

通过深度学习和信息检索过滤垃圾邮件,张伟成,2018

用于分析手机用户行为以用于欺诈检测的无监督神经网络方法,Peter Burge,John Shawe-Taylor,并行和分布式计算杂志,第 61 卷第 7 期,2001 年 7 月,第 915-925 页

使用神经网络的智能垃圾邮件检测,Michael Vinther,2002 年 6 月

欺诈挖掘,Margaret Weatherford,IEEE 智能系统,2002

发现金块:金融应用中的数据挖掘,D Zhang,L Zhou,IEEE Transactions on Systems, Man, and Cyber​​netics,C 部分:应用和评论,卷。2004年11月34号4号

基于数据挖掘的欺诈检测研究的综合调查,C Phua、V Lee、K Smith、R Gayler - Arxiv 预印本 arXiv,2007