机器算法验证 - 贝叶斯多项式回归中二次和三次系数的合理非信息先验是什么？ - 吾爱随笔录

贝叶斯多项式回归中二次和三次系数的合理非信息先验是什么？

机器算法验证回归贝叶斯多项式

2022-03-24 07:29:29

假设我们有一个贝叶斯多项式回归，如下所示。

y_{i} \sim N (μ_{i}, σ^{2})

$y_i \sim N(\mu_i, \sigma^2)$

μ_{i} = β_{0} + β_{1} x_{i} + β_{2} x_{i}^{2} + β_{3} x_{i}^{3}

$\mu_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \beta_3 x_i^3$

在哪里 $x_i$ 是一些均值居中的预测变量。

我感兴趣的是什么类型的之前指定是合理的信息不足。虽然我通常发现均匀之前足以满足线性系数 $\beta_1$ ，我想象二次方的统一先验 $\beta_2$ 和立方 $\beta_3$ 系数可能有问题，因为小幅增加会对预测产生非常大的影响。因此，我在想，也许某种使值更接近于零的~~高度偏态~~分布可能更合适。

多项式回归中的二次和三次参数是否有标准的非信息先验选择？
或者，是否有一个很好的默认策略来为这些参数选择先验（例如，可能基于 x、y 或它们的关系的特征）？

2个回答

老实说，在没有明确理论的情况下，我倾向于用正交多项式来构建模型，然后将先验放在表明我希望它们很小的高阶项上——这往往将后验拉向零，而不是不提供信息。

如果我想要一个无信息的先验，我仍然很想用正交多项式来做到这一点。

编辑：猫王关于为什么正交多项式很重要的问题——

正交多项式的一大优点是（由于正交性）如果高阶系数被缩小甚至设置为 0，则低阶系数不会受到影响。这使得尝试通过参数平均来进行阶数选择等事情变得更加明智跨模型估计。（如果只对整个函数感兴趣，那么它就不那么重要了，但有时特定系数或它们的函数的值可能很重要。）

（在准确性和计算工作量方面也可能有一些优势；特别是如果你正在做所有可能的多项式次数，那么工作量可能会有优势。）

多项式在以下意义上是正交的 - $\sum_i p_j(x_i)\,p_k(x_i)=0$ （什么时候 $j\neq k$ ）。

您是否尝试过使用 Jeffrey 的先验？这是生成非信息先验的标准方法（尽管我承认我没有您提到的复杂似然函数的经验）

http://en.wikipedia.org/wiki/Jeffreys_prior

基本思想是，非信息性先验将不包含有关转换的信息，并且与我认为不应该太复杂而难以找到的 Fisher 信息相关（寻找后验是另一个问题）。

如果您已经尝试过，请致歉！

对我之前的回答稍作补充

我突然想到问题是标准线性回归

考虑一个矩阵 $Z$ 谁的 $i^{th}$ 行由 $[1, x_{i}, x_{i}^{2}....]$ . 你的模型本质上是

$\mu = Z\beta + \epsilon$

在哪里 $\epsilon\sim$ $N(0,\sigma^{2})$

其它你可能感兴趣的问题

上一篇针对 AUC 进行优化下一篇glm R中的空偏差