估计中心删失正态样本的方差

机器算法验证 正态分布 估计 瑞利分布
2022-03-12 10:48:27

我有一个正态分布的过程,从中我得到了我想用来估计方差的小样本(通常是 10-30)但通常样本非常靠近,以至于我们无法测量中心附近的各个点。

我有一个模糊的理解,我们应该能够使用有序样本构建一个有效的估计器:例如,如果我知道样本包含 20 个点,并且 10 个点在中心附近聚集得太紧而无法单独测量,但我有离散测量5 在任一尾,是否有一种标准/公式方法来估计优化使用此类样本的过程方差?

(请注意,我认为我不能只对中心平均值进行加权。例如,有可能 7 个样本紧密聚类,而另外三个样本不对称地偏向一侧但足够接近,如果没有更繁琐的单次采样,我们无法判断.)

如果答案很复杂,任何关于我应该研究什么的提示都将不胜感激。例如,这是一个订单统计问题吗?是否可能有一个公式化的答案,或者这是一个计算问题?

更新细节:该应用程序是射击目标的分析。单个基础样本是单次射击对目标的影响点 ( x,y )。底层过程具有对称的二元正态分布,但轴之间没有相关性,因此我们能够将 { x } 和 { y } 样本视为来自相同正态分布的独立抽取。(我们也可以说底层过程是瑞利分布的,但我们不能测量样本瑞利变量,因为我们不能确定过程的“真实”中心的坐标,对于小的n可能显着远离样本中心()。)x¯y¯

我们得到了一个目标和向它发射的射击次数。问题是对于n >>3 精确枪通常会射出一个被不同射击包围的“参差不齐的洞”。我们可以观察到洞的xy宽度,但我们不知道不明显的镜头在洞中的哪个位置受到影响

以下是一些更有问题的目标的示例:

[n=10 的样本目标]

n=100 的样本目标

(当然,在理想情况下,我们会在每次拍摄后更改/切换目标,然后汇总样本进行分析。有很多原因通常是不切实际的,尽管在可能的情况下会这样做。)

WHuber 在评论中澄清后的进一步说明: 射击会产生均匀且已知直径的目标孔。当一个镜头在任何“参差不齐的组”之外时,我们知道弹丸半径,因此我们可以测量精确的中心在每个“参差不齐的组”中,我们可以识别出一些外围“球”,并根据已知的射弹半径再次标记这些外围射击的精确中心。我们只知道剩下的“中心审查”镜头影响了“衣衫褴褛的群体”内部的某个地方(这通常是——如果有必要让我们假设——每个目标一个)。xi

为了便于解决,我相信最容易将其从法线减少为一组一维样本,中心间隔宽度为w > d,其中d是弹丸直径,包含c < n “审查”样本。

2个回答

这是一个有趣的问题。首先,我不会假设正态分布。看来您真正要寻找的是一些散布估计值,您可以将其公平地应用于许多不同的射手或枪支或弹药或其他任何东西。

我会尝试扭转这种局面。除非您看到 10 个单独的孔(假设 10 发子弹),否则您无法确切知道所有子弹的去向。但你确实知道他们没有去哪里。如果您想从分布开始,这可以用来约束假设贝叶斯统计的分布。

这里可能最好的一个想法是停止尝试在数学上做它,而只是做一些像这样明智的事情。获取目标并运行图像处理程序以标记可能未连接的镜头穿过区域。测量这个的平均值和二阶矩,并使用它们作为估计量。如果您想更进一步并尝试对其进行高斯化,您可以运行简单的蒙特卡罗实验来获得校准因子。

从另一个角度来看,可以从空间统计领域的角度来看待这一点,该领域创建了一系列指标,其中许多已被放置在工具箱中(例如,参见https://www.google.com /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).

维基百科(链接:http ://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics )实际上有一个很好的介绍性页面,讨论了诸如空间集中趋势和空间分散度等概念。引用维基百科关于后者:

“对于大多数应用,空间色散应该以不受旋转和反射影响的方式量化。可以使用点坐标的协方差矩阵来定义点集的空间色散的几个简单度量。轨迹,行列式,协方差矩阵的最大特征值可以作为空间离散度的度量。不基于协方差矩阵的空间离散度度量是最近邻之间的平均距离。[1]"

相关概念包括空间同质性的测量、Ripley 的 K 和 L 函数,并且可能与子弹聚类分析最相关,Cuzick-Edwards 检验用于聚类种群内的亚种群聚类。后一种测试基于与对照人群的比较(使用“最近邻”分析来制表统计数据),在当前情况下,对照人群可以基于分类为不显示聚类的实际观察目标,或根据理论模拟,来自说瑞利分布。