识别数据中的峰值

数据挖掘 数据挖掘 异常检测
2022-03-02 11:46:35

我对此有点陌生-我习惯于仅查询数据而不是对数据进行太多分析,因此将不胜感激。

我有一些数据呈逐月趋势。有的月份数量增加,有的月份数量减少。目标是识别卷中的“尖峰”。基本上,就是增幅异常大。我试图找出最好的方法来做到这一点。我认为最好的办法是采用标准偏差和两个偏差之外的任何东西 - BAM!,这是一个尖峰。然后我想了一些,我开始担心下个月会发生什么。那个尖峰仍然在那个数据中,它发生了,但它不会改变标准偏差,以便下个月在没有之前可能出现的“尖峰”的情况下可能不会显示“尖峰”吗?对于连续数据,这可能不是一个问题,但我的数据正在滚动,我只有最近 6 个月的数据。如果有“尖峰”

我想我的问题是,鉴于此限制,您将如何量化“尖峰”的度量?

1个回答

您对算法的直觉是正确的,并且是六西格玛的已知技术。

正如您对六西格玛所期望的那样,采用 3 倍的偏差。如果您期望趋势,您还可以使用运行平均值和偏差来比较新值。

您需要检查尖峰,但可以考虑将其移除,这将再次减少变化。