统计术语偏差有点过分了。大多数时候,程序会返回偏差
其中是您估计的参数从模型拟合和是一些潜在观察到/可观察到的随机量的出现。D(y)=−2log{p(y|θ^)},
θ^y
您提到的更常见的偏差会将上述偏差视为两个变量的函数,包括数据和拟合参数:
等如果你有一个值但有两个相互竞争的拟合参数值和,那么你会得到你提到的偏差
您可以阅读您提到的 Matlab 函数,链接在这里。此处链接了对偏差的更有效但更短的讨论。D(y,θ^)=−2log{p(y|θ^)}
yθ^1θ^2−2(log{p(y|θ^1)}−log{p(y|θ^2)}).
glmfit()
偏差统计隐含地假设了两个模型:第一个是您的拟合模型,由 返回glmfit()
,调用此参数向量。第二个是“全模型”(也称为“饱和模型”),它是一个模型,其中每个数据点都有一个自由变量,称之为参数向量。拥有这么多自由变量显然是一件愚蠢的事情,但它确实可以让你准确地适应这些数据。θ^1θ^s
因此,偏差统计量被计算为在拟合模型和饱和模型处计算的对数似然之间的差异。令为 N 个数据点的集合。然后:Y={y1,y2,⋯,yN}
DEV(θ^1,Y)=−2[logp(Y|θ^1)−logp(Y|θ^s)].
通过独立假设,
上述术语将扩展为各个数据点如果要使用此计算来计算模型的对数似然,则需要首先计算饱和模型的对数似然。这是一个链接,解释了计算这个的一些想法......但问题是,在任何情况下,你都需要写下一个函数来计算你的数据类型的对数似然,在这种情况下最好创建自己的函数来自己计算对数似然,而不是从偏差计算中回溯它。yi
有关偏差的一些很好的讨论,请参见贝叶斯数据分析的第 6 章。
至于您关于似然检验统计的第二点,是的,听起来您基本上知道该做的事情是正确的。但是在许多情况下,您会认为零假设是专家的东西,外部知识可以让您提前猜测(例如某个系数等于零)。这不一定是进行模型拟合的结果。