数据挖掘 - 数据的有效性 - 吾爱随笔录

我有一个数据集，它被转换为以下格式：

[键] [id] [0] [1] [5] [10] [15] [60] [120] [180],.. [365]

所以关键可能是

[产品] [1000] [15,000] [4000]...等

其中 products 是被审查项目的类别，key 是产品的标识符；唯一的字段 (0, 1,... 180,.. [365]) 是单独的每日样本，标识有多少“x”产品被记录为已售出、库存等。

我需要做的是对一系列产品及其库存水平进行某种分析。即每次导入数据我需要确保传入的数据是准确的或可预测的准确，并且某些人没有输入库存水平。问题是，使用简单的平均值或滚动平均值会引入显着的方差，并且平滑平均值会使我的分析不太可靠。理想情况下，这种分析会触发警报，有人必须进行调查。

是否有更好、更准确的方法来执行此分析？

谢谢！