我知道从决策的角度来看,需要模型的可识别性来确保通过单个值估计的参数的收敛性(随着观察次数的增加)。但是,如果给定模型的不可识别性不是建模工件,而是清楚地表征了有关所研究系统的一些“无法访问的知识”,那么对不可识别模型执行贝叶斯推理是否有效?
这是一个简单的例子。 与 iid 和 t 的信息先验 t 和 a 的非信息先验假设, 一个人选择一个制服...) 一个人观察到和是外生参数并且一个人想要计算: As我明白了,模型无法识别为由对使得 (
我知道从决策的角度来看,需要模型的可识别性来确保通过单个值估计的参数的收敛性(随着观察次数的增加)。但是,如果给定模型的不可识别性不是建模工件,而是清楚地表征了有关所研究系统的一些“无法访问的知识”,那么对不可识别模型执行贝叶斯推理是否有效?
这是一个简单的例子。 与 iid 和 t 的信息先验 t 和 a 的非信息先验假设, 一个人选择一个制服...) 一个人观察到和是外生参数并且一个人想要计算: As我明白了,模型无法识别为由对使得 (
我建议您阅读 Andrew Gelman 的博客文章Think identifiability Bayesian inference。
马上,我可以告诉您,可识别性与模型本身无关(如“无法识别的模型”),而不是与该模型与某些数据的组合有关。也就是说,它也与数据有关。相同的模型可能会被某些数据识别,而无法被其他一些数据识别。
在贝叶斯上下文中,可识别性的确切含义尚不清楚。正如我提供的链接所说,这不是“非黑即白”的情况。相反,它必须与从数据中学习到的信息量有关,或者与后验与先验的“距离”有关。
信息熵可能是一种合适的信息度量,当您使用它时,两个概率分布(在这种情况下为先验和后验)之间的“距离”可以通过Kullback-Leibler 散度进行量化,两者都可以在信息论的维基百科页面中找到。
所以你可以说,对于给定的模型和数据,如果后验与先验携带相同数量的信息,那么从这些数据中没有学到任何关于模型的信息,并且案例是无法识别的。
另一方面,如果数据是关于模型参数的信息,那么后验将比先验提供更多信息(信息熵比先验少,并且 KL 散度为正)并且案例是可识别的。
基于所有的中间状态,即发生了多少信息增益,我们可以分别讨论从先验到后验的信息增益或多或少的或多或少可识别的情况。