回归中 p 值的含义

机器算法验证 可能性 回归
2022-01-28 04:21:54

当我在某些软件包(例如 Mathematica)中执行线性回归时,我会得到与模型中的各个参数相关联的 p 值。例如,产生结果相关联的 p 值和与相关联的 p 值。ax+bab

  1. 这些 p 值对这些参数分别意味着什么?

  2. 有没有一种通用的方法来计算任何回归模型的参数?

  3. 可以将与每个参数关联的 p 值组合成整个模型的 p 值吗?

为了使这个问题本质上保持数学化,我只寻求用概率来解释 p 值。

2个回答
  1. 的 p值是假设“ ”的检验中的 p 值(通常是 2 边检验)。的 p值是假设“ ”的检验中的 p 值(通常也是 2 边检验),同样适用于回归中的任何其他系数。这些测试的概率模型由线性回归模型中假设的模型确定。对于最小二乘线性回归,对 ( )为中心的二元正态分布,并且每个系数的假设检验等价于检验是否aα=0tbβ=0ta,bα,βtα=0 (resp. ) 基于来自合适正态分布的样本[一个变量,即单独正态分布出现的细节有些复杂,涉及“自由度”和“帽子矩阵”(基于OLS 回归理论中经常出现的一些矩阵β=0abA^

  2. 是的。通常它由最大似然估计完成(并定义) 。对于OLS 线性回归和少数其他模型,有用于从数据估计参数的精确公式。对于更一般的回归,解决方案本质上是迭代的和数值的。

  3. 不是直接的。对整个模型的检验单独计算 p 值,即对假设的所有系数(假定实际变化的变量的所有系数)的检验,因此不包括“常数项”的系数,如果存在一)。但是这个 p 值通常不能从系数的 p 值的知识中计算出来。

wrt您的第一个问题:这取决于您选择的软件。在这些场景中,确实有两种类型的 p 值经常使用,它们通常都基于似然比检验(还有其他的,但这些通常是等效的,或者至少它们的结果差别不大)。

重要的是要意识到所有这些 p 值都取决于(部分)其余参数。这意味着:假设(某些)其他参数估计值是正确的,您可以测试一个参数的系数是否为零。通常,这些检验的原假设是系数为零,因此如果 p 值较小,则意味着(根据其他系数的值)系数本身不太可能为零。

I 类测试根据模型中出现在它之前的系数的值(从左到右)来测试每个系数的零性。III 类测试(边际测试),以所有其他系数的值为条件,测试每个系数的零性。

不同的工具会显示不同的 p 值作为默认值,但通常您可以通过两种方式获得两者。如果您在统计之外没有理由按某种顺序包含参数,那么您通常会对 III 型测试结果感兴趣。

最后(更多地与您的最后一个问题相关),通过似然比测试,您始终可以为任何以其余为条件的系数集创建测试。如果您想同时测试多个系数为零,这是要走的路(否则您会遇到一些令人讨厌的多重测试问题)。