数据的有效性

数据挖掘 机器学习 统计数据
2022-02-14 20:22:31

我有一个数据集,它被转换为以下格式:

[键] [id] [0] [1] [5] [10] [15] [60] [120] [180],.. [365]

所以关键可能是

[产品] [1000] [15,000] [4000]...等

其中 products 是被审查项目的类别,key 是产品的标识符;唯一的字段 (0, 1,... 180,.. [365]) 是单独的每日样本,标识有多少“x”产品被记录为已售出、库存等。

我需要做的是对一系列产品及其库存水平进行某种分析。即每次导入数据我需要确保传入的数据是准确的或可预测的准确,并且某些人没有输入库存水平。问题是,使用简单的平均值或滚动平均值会引入显着的方差,并且平滑平均值会使我的分析不太可靠。理想情况下,这种分析会触发警报,有人必须进行调查。

是否有更好、更准确的方法来执行此分析?

谢谢!

1个回答

您应该做的第一件事是确定您的分析可以处理多大的错误。这将使您的工作更轻松,因为您不必找到所有内容。

识别“可疑”数据的标准方法是本福德定律,它预测每个数字的第一位数字的分布。它也可以推广到其他数字。http://en.wikipedia.org/wiki/Benford's_law _

至于查找异常值,我可能会使用箱线图,特别是因为您可以使用它们实现高数据密度,从而减少手动浏览它们的时间。

可能有用的一件事是比较一个变量与另一个变量的比率——在我的公司中,我们一直使用这种方法。