我被分配了这个任务来分析我们应用程序的服务器日志,其中包含异常日志、数据库日志事件日志等。我是机器学习的新手,我们使用带有弹性搜索和 Sparks MLlib(或 PredictionIO)的 Spark。期望的示例结果将能够根据收集的异常日志进行预测,从而能够预测哪个用户更有可能导致下一个异常以及在哪个功能上(以及一堆其他东西来跟踪和改进应用程序的优化)。
我已经成功地将 ElasticSearch 中的数据提取到 spark 中并创建 DataFrame 并映射所需的数据。我想知道的是如何处理我的实现的机器学习方面。我浏览过有关数据预处理、训练数据模型和创建标签然后生成预测的文章和论文。
我的问题是
如何将现有日志数据转换为可用于要训练的数据集的数字向量。
我用什么算法来训练我的数据集(过去几天我收集的知识有限,我正在考虑实现线性回归,请建议哪种实现最好)
只是寻找有关如何解决此问题的建议。
谢谢。