使用机器学习进行服务器日志分析

数据挖掘 机器学习 预测建模 阿帕奇火花
2021-10-04 06:46:34

我被分配了这个任务来分析我们应用程序的服务器日志,其中包含异常日志、数据库日志事件日志等。我是机器学习的新手,我们使用带有弹性搜索和 Sparks MLlib(或 PredictionIO)的 Spark。期望的示例结果将能够根据收集的异常日志进行预测,从而能够预测哪个用户更有可能导致下一个异常以及在哪个功能上(以及一堆其他东西来跟踪和改进应用程序的优化)。

我已经成功地将 ElasticSearch 中的数据提取到 spark 中并创建 DataFrame 并映射所需的数据。我想知道的是如何处理我的实现的机器学习方面。我浏览过有关数据预处理、训练数据模型和创建标签然后生成预测的文章和论文。

我的问题是

  • 如何将现有日志数据转换为可用于要训练的数据集的数字向量。

  • 我用什么算法来训练我的数据集(过去几天我收集的知识有限,我正在考虑实现线性回归,请建议哪种实现最好)

只是寻找有关如何解决此问题的建议。

谢谢。

1个回答

我认为您不一定需要将单个日志条目转换为向量以用于算法。我猜你感兴趣的是一系列日志条目,它们代表一系列事件,按时间排序,共同构成一系列“案例”。在这里,一系列收集的日志条目之间的关系很重要。

如果是这种情况,那么您可能需要考虑使用流程挖掘技术。这允许您构建流程模型(应用程序的使用)并确定流程步骤的模式,以及错误和返工步骤。

Coursera 上有一个很好的入门课程,在这里甚至还有一些开发的商业软件包,例如“disco”,可以帮助您进行分析和可视化