估计空间过程的参数

机器算法验证 估计 正态分布 空间的
2022-03-05 07:17:03

我得到了一个的正整数值网格。这些数字代表一个强度,应该对应于占据该网格位置的人的信念强度(较高的值表示较高的信念)。一个人通常会对多个网格单元产生影响。n×n

我相信强度的模式应该“看起来像高斯”,因为会有一个高强度的中心位置,然后强度在各个方向上径向逐渐变细。具体来说,我想将这些值建模为来自“缩放高斯”的值,其中一个参数用于方差,另一个参数用于比例因子。

有两个复杂的因素:

  • 由于背景噪音和其他影响,一个人的缺席不会对应于零值,但值应该更小。但是它们可能不稳定,并且在第一个近似值上可能难以将其建模为简单的高斯噪声。
  • 强度范围可以变化。例如,值可能介于 1 和 10 之间,而在另一种情况下,介于 1 和 100 之间。

我正在寻找合适的参数估计策略,或相关文献的指针。指出我为什么以错误的方式解决这个问题的指针也将不胜感激:)。我一直在阅读克里金法和高斯过程,但这对于我的问题来说似乎是非常沉重的机器。

3个回答

您可以将pysal python 库的这个模块用于我在下面讨论的空间数据分析方法。

您对每个人的态度如何受到她周围人的态度影响的描述可以用空间自回归模型 (SAR)来表示(另请参阅我在这个 SE 答案 中的简单 SAR 解释2)。最简单的方法是忽略其他因素,并使用Moran's I统计量 估计周围人如何影响彼此态度的影响强度。

如果您想在估计周围人的影响强度的同时评估其他因素的重要性,这是一项更复杂的任务,那么您可以估计回归的参数:请参阅此处的文档。(估计此类回归的方法来自空间计量经济学领域,并且比我给出的参考文献要复杂得多。)y=bx+rhoWy+e

您的挑战将是建立一个空间权重矩阵()。我认为矩阵的每个元素应该是 1 或 0,这取决于人是否在一定距离内,你觉得需要影响另一个人Wwijij

为了直观地了解这个问题,下面我将说明空间自回归数据生成过程 (DGP) 如何生成值模式。对于模拟值的 2 个网格,白色块代表高值,深色块代表低值。

在下面的第一个格子中,网格值是由正态分布的随机过程(或高斯)生成的,其中为零。rho

随机(高斯)

在下一个格子中,网格值是由空间自回归过程生成的,其中已设置为较高的值,例如 0.8。 rho在此处输入图像描述

这是一个可能有效的简单想法。正如我在评论中所说,如果您有一个具有强度的网格,为什么不适合二元分布的密度?

这是说明我的观点的示例图: 在此处输入图像描述

每个网格点都显示为一个正方形,根据强度着色。叠加在图上的是二元正态密度图的等高线图。如您所见,等高线在强度降低的方向上扩展。中心将由双变量法线的平均值和根据协方差矩阵的强度分布控制。

要获得均值和协方差矩阵的估计值,可以使用简单的数值优化,将强度与使用均值和协方差矩阵作为参数的密度函数值进行比较。最小化以获得估计值。

这当然严格来说不是一个统计估计,但至少它会让你知道如何进一步进行。

这是重现图形的代码:

require(mvtnorm)
sigma=cbind(c(0.1,0.7*0.1),c(0.7*0.1,0.1))

x<-seq(0,1,by=0.01)
y<-seq(0,1,by=0.01)
z<-outer(x,y,function(x,y)dmvnorm(cbind(x,y),mean=mean,sigma=sigma))

mz<-melt(z)

mz$X1<-(mz$X1-1)/100
mz$X2<-(mz$X2-1)/100

colnames(mz)<-c("x","y","z")

mz$intensity<-round(mz$z*1000)

ggplot(mz, aes(x,y)) + geom_tile(aes(fill = intensity), colour = "white") + scale_fill_gradient(low = "white",     high = "steelblue")+geom_contour(aes(z=z),colour="black")

您的模型是一个二维随机场,并且您正在尝试估计整数值随机变量的联合分布。您需要假设空间平稳性:即的联合分布与特别是,每个单元的边际分布都是相同的。一个简单的问题是该领域的自相关结构。也就是说,给定距离 ]) 是什么?我们将其表示为函数X[i,j]X[i,j](X[i1,j1],...,X[im,jm])(X[i1+k,j1+l]...,X[im+k,jm+l])corr(X[i1,j1],X[i2,j2])d([i1,j1],[i2,j2])ρ(d). 自相关结构的一个简单模型是,其中是一个常数。ρ(d)=kd1k

“高斯”效应对应于二次距离函数,但您应该考虑许多其他距离函数,例如出租车范数. 一旦确定了距离函数和自相关模型的形式,就可以很简单地估计,例如通过最大似然。有关更多想法,请查找“随机场”。d([i1,j1],[i2,j2])=|i1i2|+|j1j2|ρ(d)