这更像是一个一般的统计问题,但如果重要的话,我正在编写 PHP 代码。
假设我正在尝试计算在二级市场上通常买卖的玩具的平均值,并且我有一组从拍卖和用户输入的“已付价格”数据中剔除的价格值。代表拍卖的数据点非常可靠,但我也偶尔会得到“车库出售”类型的数据点,其中有人可能在车库出售中花钱从波莉阿姨那里买了东西。问题是$1数据点的类型对我来说并不真正有价值,因为它们并不能真正表明价值——波莉阿姨不知道,也不在乎。同样,我可能偶尔会从一个开玩笑的人那里得到一个数据点,该数据点来自一个$9000真正只有价值的玩具$9。
那么,在计算价值时,从其他有用的数据中剔除这些类型的异常的最佳方法是什么?
我已经阅读了有关异常值的内容,以及通常忽略其余数据之外超过 2.5 个标准差的任何内容,但我正在寻找完整的配方,在这里。
非常感谢!