是否可以仅使用一个模型计算 -2 对数似然?

机器算法验证 广义线性模型 p 值 matlab 似然比 越轨
2022-03-19 10:04:06

glmfit在 MATLAB 中使用该函数。该函数只返回偏差而不是对数似然。我知道偏差基本上是模型对数似然之间差异的两倍,但我没有得到的是我只glmfit用来创建一个模型,但不知何故我得到了偏差。

  • -2 对数似然的计算不需要 2 个模型吗?
  • 当只有一个模型时,如何分析偏差?

我遇到的另一个问题是说我确实有两个模型,并且我正在使用对数似然检验比较它们。原假设是第一个模型,备择假设是第二个模型。在获得对数似然检验统计数据后,我是否会根据卡方 cdf 对其进行检查以确定 p 值?我是否正确,如果它小于 alpha 级别,我会拒绝 null,如果它更大,我将无法拒绝 null?

1个回答

统计术语偏差有点过分了。大多数时候,程序会返回偏差 其中是您估计的参数从模型拟合和是一些潜在观察到/可观察到的随机量的出现。

D(y)=2log{p(y|θ^)},
θ^y

您提到的更常见的偏差会将上述偏差视为两个变量的函数,包括数据和拟合参数: 等如果你有一个值但有两个相互竞争的拟合参数值,那么你会得到你提到的偏差 您可以阅读您提到的 Matlab 函数链接在这里此处链接了对偏差的更有效但更短的讨论

D(y,θ^)=2log{p(y|θ^)}
yθ^1θ^2
2(log{p(y|θ^1)}log{p(y|θ^2)}).
glmfit()

偏差统计隐含地假设了两个模型:第一个是您的拟合模型,由 返回glmfit(),调用此参数向量第二个是“全模型”(也称为“饱和模型”),它是一个模型,其中每个数据点都有一个自由变量,称之为参数向量拥有这么多自由变量显然是一件愚蠢的事情,但它确实可以让你准确地适应这些数据。θ^1θ^s

因此,偏差统计量被计算为在拟合模型和饱和模型处计算的对数似然之间的差异。为 N 个数据点的集合。然后:Y={y1,y2,,yN}

DEV(θ^1,Y)=2[logp(Y|θ^1)logp(Y|θ^s)].
通过独立假设, 上述术语将扩展为各个数据点如果要使用此计算来计算模型的对数似然,则需要首先计算饱和模型的对数似然。这是一个链接,解释了计算这个的一些想法......但问题是,在任何情况下,你都需要写下一个函数来计算你的数据类型的对数似然,在这种情况下最好创建自己的函数来自己计算对数似然,而不是从偏差计算中回溯它。yi

有关偏差的一些很好的讨论,请参见贝叶斯数据分析的第 6 章。

至于您关于似然检验统计的第二点,是的,听起来您基本上知道该做的事情是正确的。但是在许多情况下,您会认为零假设是专家的东西,外部知识可以让您提前猜测(例如某个系数等于零)。这不一定是进行模型拟合的结果。