从“均匀间隔”样本开始的单位圆盘上的回归

机器算法验证 回归 空间的 循环统计
2022-03-06 03:56:23

我需要解决单位磁盘上的复杂回归问题。最初的问题吸引了一些有趣的评论,但遗憾的是没有答案。同时,我在这个问题上学到了更多的东西,因此我将尝试将原始问题分解为子问题,看看这次我是否有更好的运气。

我有 40 个温度传感器,它们在单位圆盘内有规律地排列成一个窄环: 在此处输入图像描述

这些传感器及时获取温度。然而,由于时间变化远小于空间变化,让我们通过忽略时间变化来简化问题,并假设每个传感器只给我一个时间平均值。这意味着我有 40 个样本(每个传感器一个)并且我没有重复的样本。

我想从传感器数据回归有两个目标:T=f(ρ,θ)+ϵ

  1. 我需要估计平均径向温度曲线使用线性回归,我已经估计了一个表面,它是平均温度表面,因此我只需要对我的表面进行积分对吧?如果我使用多项式进行回归,这一步应该是小菜一碟。Tmean=g1(ρ)+ϵθ
  2. 我需要估计径向温度曲线,这样在每个径向位置,T95=g2(ρ)+ϵP(T(ρ)<T95(ρ))=.95

鉴于这两个目标,我应该使用哪种技术进行单位磁盘上的回归?当然,高斯过程通常用于空间回归。然而,为单位磁盘定义一个好的内核并不是微不足道的,所以我想保持简单并使用多项式,除非你觉得这是一个失败的策略。我读过Zernike polynomialsZernike 多项式似乎适用于单位圆盘上的回归,因为它们在中是周期性的。θ

选择模型后,我需要选择一个估计程序。由于这是一个空间回归问题,不同位置的误差应该是相关的。普通最小二乘假设不相关的错误,因此我猜广义最小二乘会更合适。GLS 似乎是一种相对常见的统计技术,因为gls标准 R 分布中有一个函数。但是,我从未使用过 GLS,我对此表示怀疑。例如,如何估计协方差矩阵?一个可行的例子,即使只有几个传感器,也会很棒。

PS 我选择使用 Zernike 多项式和 GLS,因为在我看来,在这里做的事情是合乎逻辑的。但是,我不是专家,如果您觉得我走错了方向,请随意使用完全不同的方法。

2个回答

我认为您在考虑诸如Zernike 多项式之类的东西时走在正确的轨道上。正如 jwimberly 在回答中指出的那样,这些是磁盘上正交基函数系统的一个示例。我不熟悉 Zernike 多项式,但许多其他正交函数族(包括 Bessel 函数)在经典数学物理学中作为某些偏微分方程的特征函数自然出现(在撰写本文时,该链接顶部的动画甚至显示了振动鼓头的示例)。

我想到了两个问题。首先,如果您所追求的只是径向剖面(平均值),那么您需要对空间模式进行多少限制?其次,时空数据中出现了哪些类型的可变性?θ

关于第一个问题,我想到了两个问题。由于极坐标的原因,每个传感器的支持区域具有的趋势。第二个问题是混叠的可能性,本质上是传感器相对于模式相位的未对准(使用傅立叶/贝塞尔类比)。请注意,混叠可能是限制峰值温度(即)的主要不确定性。rT95

就第二个问题而言,数据可变性实际上有助于解决任何混叠问题,本质上允许任何未对齐在不同测量值上平均。(假设没有系统偏差......但这对于任何方法都是一个问题,例如没有物理模型来提供更多信息)。

因此,一种可能性是纯粹在传感器位置定义您的空间正交函数。这些“经验正交函数”可以通过PCA在您的时空数据矩阵上计算。(可能您可以使用一些权重来考虑可变的传感器支持区域,但考虑到统一的极坐标网格和径向平均值的目标,这可能不是必需的。)

请注意,如果有任何可用于“预期”温度变化的物理建模数据,可在密集的时空计算网格上获得,那么可以将相同的 PCA 程序应用于数据以导出正交函数。(这在工程中通常称为“适当的正交分解”,用于模型简化,例如,可以提取昂贵的计算流体动力学模型以用于进一步的设计活动。)

最后的评论,如果您要按支持区域(即极坐标单元大小)对传感器数据进行加权,这将是GLS框架中的一种对角协方差。(这将更多地适用于您的预测问题,尽管加权 PCA 将密切相关。)

我希望这有帮助!

更新:在我看来,您的新传感器分布图改变了很多事情。如果你想估计磁盘内部的温度,你需要一个简单的“单位磁盘上的正交函数集”更多的信息。传感器数据中的信息太少了。

如果您确实想估计磁盘上的空间温度变化,我能看到的唯一合理方法是将问题视为数据同化问题之一。在这里,您至少需要基于一些基于物理的考虑来约束空间分布的参数形式(这些可能来自模拟,或者可能来自具有相似动力学的系统中的相关数据)。

我不知道您的特定应用程序,但是如果是这样的,那么我想您可以利用大量的工程文献来选择适当的先验约束。(对于那种详细的领域知识,这可能不是最好的 StackExchange 站点。)

Zernlike 多项式听起来不错,因为它们已经有了rθ相关性和正交性熟透了。但是,由于您正在研究温度,因此可以说更合适且更广为人知的选择是Bessel 函数这些出现在圆柱形物体/坐标系中的热流研究中,因此它们有可能在物理上更合适。第 n 个贝塞尔函数将给出与极坐标相关性的相应三角函数相关的径向相关性;您可以在许多物理和 PDE 教科书中找到详细信息。