机器算法验证 - 在不访问原始数据的情况下计算中位数 - 吾爱随笔录

机器算法验证描述性统计意思是

2022-03-30 21:40:06

我正在开发一款基于图像中物体的各种特征为卫星图像分类而设计的软件。该软件提供了各种内置功能，例如对象中值的平均值、值的最大值和最小值等。但是，我想使用值的中值。

我无权访问对象中的原始值，我所拥有的只是以下信息：

我可以使用标准运算符（+、-、/、*、^ 等）对这些值进行算术运算。

有没有办法仅根据这些信息计算中位数（或近似值）？

2个回答

如果你知道数据的基本分布，你就可以。

例如，对于正态分布的数据，均值和中位数相同（中位数=众数=均值）。

或者对于具有均值的指数分布 $\lambda^{-1}$ 中位数是 $\lambda^{-1} ln(2)$ .

如果没有原始数据或不知道实际数据分布，就不可能获得中位数。

该问题可以解释为请求样本中位数的非参数估计量，形式为 f(min, mean, max, sd)。在这种情况下，通过考虑极端（两点）分布，我们可以简单地确定

2 mean - max \leq median \leq 2 mean - min .

$2\ \text{mean} - \text{max} \le \text{median} \le 2\ \text{mean} - \text{min}.$

通过考虑已知 SD 施加的约束，可能会有改进。为了取得更多进展，需要额外的假设。通常，一定程度的偏度是必不可少的。（事实上，偏度可以从均值和中位数相对于标准差的偏差来估计，因此应该能够扭转这一过程。）

在紧要关头，可以使用这四个统计量来获得最大熵解决方案，并将其中值用于估计量。实际上，最小值和最大值可能不会有任何好处，但在卫星图像中，有固定的上限和下限（例如，8 位图像的 0 和 255）；这些将很好地约束最大熵解。

值得注意的是，通用图像处理软件能够产生比这更多的信息，因此值得关注其他软件解决方案。或者，通常可以欺骗软件提供附加信息。例如，如果您可以将每个明显的“对象”分成两部分，您将获得两半的统计信息。这将为估计中位数提供有用的信息。

其它你可能感兴趣的问题