如何提取特征并将来自监控工具的警报电子邮件分类为适当的类别?

数据挖掘 机器学习 分类 聚类 特征提取
2021-09-25 16:01:24

我的公司为许多客户提供托管服务。我们的客户通常使用以下监控工具来监控他们的服务器/网络应用程序:

  1. 操作视图
  2. 纳吉奥斯
  3. 王国
  4. 自定义 shell 脚本

每当发现任何问题时,我们的运营团队都会收到一封警报邮件,以便他们采取行动纠正问题。

当我们管理着数千台服务器时,我们的 Ops 团队的收件箱总是充斥着电子邮件警报。即使是一个具有级联效应的问题,也可以触发 20-30 封电子邮件。

现在,我想做的是实现一个系统,该系统能够从警报电子邮件中提取重要特征 - 例如服务器 IP 地址、问题类型、问题严重性等,并将电子邮件分类为适当的类别,例如CPU-Load-Customer1-Server2, MySQL-Replication-Customer2-DBServer3等等。然后,我们将为每个类别预先定义一组调试步骤,以帮助 Ops 团队更快地纠正问题。此外,特征提取器将为团队提供输入数据以解决问题。

到目前为止,我已经能够使用监督学习技术(即标记的训练数据(集群数据))训练NaiveBayesClassifier,并且能够将新的看不见的电子邮件分类到适当的集群/类别中。由于电子邮件基于某些模板,因此分类器的准确性非常高。但我们也会收到来自自定义脚本的警报电子邮件,这些脚本可能不遵循模板。因此,我不想进行监督学习,而是想尝试无监督学习。我正在研究KMeans 聚类但同样的问题是,我们不会事先知道集群的数量。那么,哪种算法最适合这个用例呢?现在我正在使用 Python 的 TextBlob 库进行分类。

此外,为了从警报电子邮件中提取特征,我正在研究 NLTK ( http://www.nltk.org/book/ch07.html ) 库。我试过了,但它似乎可以很好地处理正确的英文段落/文本,但是,对于警报电子邮件,它提取了很多不必要的功能。是否已经有任何现有的解决方案?如果没有,实现相同的最佳方法是什么?哪个库,哪个算法?

PS:我不是数据科学家。

示例电子邮件:

PROBLEM: CRITICAL - Customer1_PROD - Customer1_PROD_SLAVE_DB_01 -  CPU Load Avg     Service: CPU Load Avg  Host: Customer1_PROD_SLAVE_DB_01  Alias: Customer1_PROD_SLAVE_DB_01  Address: 10.10.0.100  Host Group Hierarchy: Opsview > Customer1  - BIG C > Customer1_PROD  State: CRITICAL  Date & Time: Sat Oct 4 07:02:06 UTC 2014    Additional Information:     CRITICAL - load average: 41.46, 40.69, 37.91
RECOVERY: OK - Customer1_PROD - Customer1_PROD_SLAVE_DB_01 -  CPU Load Avg     Service: CPU Load Avg  Host: Customer1_PROD_SLAVE_DB_01  Alias: Customer1_PROD_SLAVE_DB_01  Address: 10.1.1.100  Host Group Hierarchy: Opsview > Customer1  - BIG C > Customer1_PROD  State: OK  Date & Time: Sat Oct 4 07:52:05 UTC 2014    Additional Information:     OK - load average: 0.36, 0.23, 4.83
PROBLEM: CRITICAL - Customer1_PROD - Customer1_PROD_SLAVE_DB_01 -  CPU Load Avg     Service: CPU Load Avg  Host: Customer1_PROD_SLAVE_DB_01  Alias: Customer1_PROD_SLAVE_DB_01  Address: 10.100.10.10  Host Group Hierarchy: Opsview > Customer1  - BIG C > Customer1_PROD  State: CRITICAL  Date & Time: Sat Oct 4 09:29:05 UTC 2014    Additional Information:     CRITICAL - load average: 29.59, 26.50, 18.49

分类代码:(csv格式-email,<disk/cpu/memory/mysql>)

from textblob import TextBlob
from textblob.classifiers import NaiveBayesClassifier
import csv
train = []
with open('cpu.txt', 'r') as csvfile:
    reader = csv.reader(csvfile, delimiter=',', quotechar='"')
    for row in reader:
        tup = unicode(row[0], "ISO-8859-1"), row[1]
        train.append(tup)
// this can be done in a loop, but for the time being let it be
with open('memory.txt', 'r') as csvfile:
    reader = csv.reader(csvfile, delimiter=',', quotechar='"')
    for row in reader:
        tup = unicode(row[0], "ISO-8859-1"), row[1]
        train.append(tup)

with open('disk.txt', 'r') as csvfile:
    reader = csv.reader(csvfile, delimiter=',', quotechar='"')
    for row in reader:
        tup = unicode(row[0], "ISO-8859-1"), row[1]
        train.append(tup)

with open('mysql.txt', 'r') as csvfile:
    reader = csv.reader(csvfile, delimiter=',', quotechar='"')
    for row in reader:
        tup = unicode(row[0], "ISO-8859-1"), row[1]
        train.append(tup)

cl = NaiveBayesClassifier(train)
cl.classify(email)

特征提取器代码取自: https ://gist.github.com/shlomibabluki/5539628

如果这里需要更多信息,请告诉我。

提前致谢。

1个回答

我想尝试无监督学习。我正在研究 KMeans 聚类。但同样的问题是,我们不会事先知道集群的数量。那么,哪种算法最适合这个用例呢?

当您事先不知道集群的数量时,仍然可以使用Dirichlet 过程对与集群/组关联的参数进行无监督学习,然后根据这些参数对令牌进行聚类。一般的想法是使用 Dirichlet 分布为每个聚类生成单词的概率,Dirichlet 过程使用这些概率为词汇表中的每个单词分配一个聚类。如果您想在电子邮件之间共享集群,那么您可以使用 Hierarchical Dirichlet Processes。在这里,您可以找到一篇关于其工作原理的不错的博客文章。

最流行的集群库是gensim,但请注意他们关于 Hierarchical Dirichlet Process 实现的警告:

gensim 使用基于 [3] 的快速在线实现。HDP 模型是 gensim 的新成员,但在其学术边缘仍然很粗糙——请谨慎使用。

至于特征提取,您的问题并没有确切说明您获得了什么样的不必要的特征,但如果是这种情况,您需要在使用 NLTK 处理它们之前或之后过滤您的令牌。一般来说,您不能期望非常具体的应用程序会获得出色的结果。