在错误报告中寻找模式 - 如何接近?

数据挖掘 机器学习 Python 数据挖掘
2022-02-26 23:48:50

我是数据科学的新手,并且一直在进行研究以熟悉自己并尝试找到解决问题的方法,但我没有遇到任何似乎合适的东西。我正在寻找学习和使用 Python 来完成这个过程。

我的情况如下:我正在测试的汽车有多个错误日志。每次出现错误(有多种类型)时,我都有一个日志,其中包含错误发生时汽车的许多不同特征。这些包括一天中的时间、速度、位置、温度等等。编辑:如果需要,我也可以拥有正常操作的数据。

我的目标是在特征中找到与错误相关并可能导致错误的模式。我不打算开发一个可以预测未来错误的模型。我只专注于查看模式本身并理解它们,当我们再次遇到错误时,我提供的数据越多,它就会变得越准确。

例如,我想为一种错误提供我所有的数据,并让它告诉我一些类似“当速度高于 x 时,你可能会得到这个错误”、“当汽车倒车并以晚上您可能会收到此错误”、“外部温度与此错误之间没有相关性”等。然后针对每种类型的错误继续执行此操作。

一些变量可能相互依赖。一些变量可能不相关/没有意义。

我怎样才能在 Python 中做到这一点?任何指导表示赞赏。我试图尽可能具体,如果需要更多详细信息,我会更新我的帖子。

1个回答

您需要有关错误发生时间和正常操作的数据,以便您可以通过在分析和可视化(例如箱线图)中比较这两组日志数据来获得洞察力。

您还应该考虑将错误发生之前的日志数据的时间跨度视为可能与错误的发生有关。因此,您应该通过向每个日志条目或数据集行添加布尔功能将日志数据分为以下两组:(1)在接下来的 x 秒/分钟/小时/天内发生特定错误和(0)在接下来的 x 秒/分钟/小时/天之内没有发生特定错误。

可视化您的数据始终是一个好主意,因为它可以帮助您理解您的数据,例如查看您的数据是否“脏”或者您对特定特征行为的假设是否正确以及两个相关行为或三个特征。Jake VanderPlas 的“Python 数据科学手册”的第 4 章中,作者展示了如何使用 python 和matplotlib绘制数据。

在下一步中,您可以执行预处理任务,例如清理数据,以便以后可以对其应用统计方法或机器学习来查找与错误发生相关的特征行为。

这是edX 上的免费在线课程“Analyzing Data with Python”的链接,您可以参加。