不同分布的可比性

机器算法验证 最大似然 可能性
2022-04-05 01:37:54

假设我们有一个因变量的线性模型y就两个自变量而言x1x2, 由yi=xi1β1+xi2β2+ϵi.

如果我们要估计参数β1β2通过 ML,我们必须指定一个分布ϵi(假设x1x2是“固定的”)。假设我们选择两个不同的密度函数fg为了ϵ. 比较两个模型的两个对应的最大似然值以确定哪个误差分布更合适是否有意义?

我的直觉会告诉我这不是一个正确的方法,因为如果我们从一个分布到另一个分布,似然值并不是绝对可比的。

1个回答

为了理解这个问题,考虑一下用于定义似然函数的密度函数是相对于某个主要度量来定义的。因此,如果我们改变主导度量,似然函数就会改变。

有了更多细节(但非正式地),让统计模型作为一系列概率度量给出P(;θ)在哪里θ索引一系列概率度量。我们必须假设所有这些测度相对于某个主导测度是绝对连续的μ. 然后我们可以写

P(A;θ)=Af(x;θ)μ(dx)
在哪里f(;θ)是 Radon-Nikodym 的导数P(;θ)关于μ. 但主要措施μ不会是唯一的,假设我们改变以定义相对于其他一些主导度量的密度λ, 相当于μ(意味着它们具有相同的空集)。关于定义的似然函数μ
f(x;θ)
(被视为一个函数θ给定的x)。关于似然函数λ变成
f(x;θ)μλ(x)
在哪里μλ是 Radon-Nikodym 的导数μ关于λ.

因此,通过改变主导度量,我们可以获得许多不同版本的似然函数,但它们都是成比例的(作为θ),因为因子μλ(x)不依赖θ. 另请参阅“可能性仅定义为比例乘法常数”在实践中是什么意思?.

这样做的一个结果是,为了能够比较不同模型的可能性(然后是 AIC),必须针对相同的主导度量来定义可能性。这也意味着必须为完全相同的数据定义它们。有时使用连续模型作为离散数据的近似值。如果同时考虑连续模型和离散模型,则这两种模型无法与 AIC 进行比较,因为它们使用不同的主导度量(勒贝格度量、计数度量)。

一条评论中提出的一点是关于嵌套模型的。一些理论家认为 AIC 只能用于比较嵌套模型。其他人不同意。但是,如果要使用 AIC 来比较非嵌套模型类,则必须小心。例如,在 R 中实现的 AIC 是基于忽略“不相关常数”的可能性。那有让这个AIC无法比拟的效果!因此,如果您仍想这样做,您必须自己编写 AIC 计算程序。