将分布拟合到空间数据

机器算法验证 分布 造型 预测模型 配件 曲线拟合
2022-03-17 04:36:14

从 mathoverflow交叉发布我的问题以找到一些统计数据的具体帮助。

我正在研究一个生成数据的物理过程,该数据可以很好地投影到具有非负值的二维中。每个过程都有一个(投影的) -点轨迹——见下图。xy

样本轨迹是蓝色的,一种麻烦的轨迹是手绘的,红色的则是关注区域: 关注的轨道和区域

每个音轨都是独立实验的结果。多年来已经进行了 2000 万次实验,但其中只有 2000 次展示了我们绘制为轨迹的特征。我们只关心生成轨道的实验,所以我们的数据集是(大约)两千个轨道。

轨道有可能进入关注区域,我们预计大约轨道中个会这样做。估计这个数字是手头的问题:1104

我们如何计算任意轨道进入关注区域的可能性?

不可能足够快地进行实验以查看进入关注区域的轨道的生成频率,因此我们需要从可用数据中进行推断。

例如,我们已经拟合了,但这不足以处理诸如绿色轨道之类的数据——似乎有必要拥有一个包含两个维度的模型。xy200

我们已经拟合了从每条轨道到关注区域的最小距离,但我们不相信这会产生合理的结果。

1)是否有一种已知的方法可以将分布拟合到此类数据以进行外推?

-或者-

2) 有没有一种明显的方法可以使用这些数据来创建生成轨道的模型?例如,将轨道上的主成分分析用作大空间中的点,然后将分布(Pearson?)拟合到投影到这些组件上的轨道。

1个回答

听起来您想模拟轨道的形成,然后进行蒙特卡罗模拟以查看有多少轨道落入红色区域。为此,我首先将这些线转换为两个函数,一个给出方向,另一个给出从该轨道上一个点到下一个点的距离。现在您可以研究与这两个函数相关的概率分布。例如,您可能会发现行驶距离遵循特定的分布(请注意该分布不会随时间而变化)。如果任一变量确实随时间变化,那么您必须深入研究时间序列分析(不是我的领域,抱歉)。

想到的另一个想法是,由于 xy 中的移动方向在大多数轨道中逐渐变化,因此您可能会更好地检查轨道的方向变化与时间。

您还需要估计从给定 xy 坐标和给定方向开始的轨迹的概率。您可能需要考虑使用核密度估计来平滑生成的 PDF,或者,如果它似乎遵循存在分析模型的分布,则可以使用期望最大化来将该分布拟合到数据中。

然后,蒙特卡洛模拟将从这些分布中抽取随机样本来模拟轨道的形状。然后你必须模拟大量的轨道,看看这些轨道多久通过红色区域。这可能是数以千计或数百万条轨道,您必须进行试验以查看当您添加更多轨道时分布何时停止变化。