机器算法验证 - 平均减重异常值 - 吾爱随笔录

我有一堆点并且想计算一种不强调异常值的加权平均值。我的第一个想法是将每个点加权。然而，问题是这已经包括了平均值。我可以从 weights = 1 开始重复执行此操作（计算平均值、计算新权重、重复），并在加权平均值不再发生太大变化时停止。 $x_i$ $1/ (x_i - \mu)^2$ $\mu$

另一个问题是，如果其中一个点太接近均值，就会出现分歧。解决此问题的一种方法是选择一个单调递增的函数，对于 0 为 = 0，对于为 = 1 ，例如 tanh。所以我的体重是。我尝试了这个，它似乎收敛了，并且忽略了异常值。但这似乎很复杂，我认为这可能已经是一个已解决的问题。 $x\rightarrow \infty$ $\tanh(1/(x_i - \mu)^2)$

那么：计算这种不强调离群值的加权平均值的规范方法是什么？有没有不迭代的技术？或者如果我必须进行迭代，是否有一种技术可以保证收敛（对于行为良好的输入数据）？

我看到有些人在类似情况下建议截断均值。这对我不起作用，因为我只有几个数据点（每组点大约 10 个）。此外，我不一定知道比例或典型标准偏差。有时 10 的偏差是正常的，有时是 0.1。解决方案应该是合理的规模无关的。

如果重要的话，我目前有二维数据点，并使用与当前中点的欧几里德距离作为上述计算中的度量。

平均减重异常值

1. 修剪平均值（@Bernhard）

2. Winsorized 平均值（@kjetil b halvorsen）

3. M-估计器（@Michael M）

4. EM算法（@Tim）

5. 中位数（@Tim）