长话短说,我收集了大约 30 个脚本,用于处理数据集并将它们放入数据库中。这些脚本报告它们的运行时间以及发生在单独数据库中的任何错误。我编写了另一个脚本,每天都通过这个数据库,并为每个脚本确定是否发生错误。它还会在 30 天前检查每个脚本的运行时间并取平均值。
我获取当前脚本的运行时间,看看它是否比平均值大 3 个标准差。如果是,我报告运行时间与平均水平相差太远。
这是执行此类任务的正确方法吗?我觉得好像我得到了太多“运行时间与平均水平相差太远”的错误。增加样本量会有所帮助,还是不适用 3 个标准差规则?我假设 99% 的数据位于 3 个标准差以内,并且检测异常值的可靠方法(一个需要“长时间”运行的脚本)将是使用这种方法。