机器算法验证 - 稳健的 Gamma 回归 - 吾爱随笔录

我正在对一些光谱数据进行建模，其中仪器对输入大小的响应严格为正且非线性。Gamma 回归似乎是解释数据的好选择，因为这些值自然是异方差的，散布随着输入大小的增加而增加。另一个值得注意的特征是响应值最终会饱和并停止随着输入的增加而增加。这是一个重要的细节，因为这迫使我使用特定的链接功能：

$\mu_j = 1 + \dfrac{\beta_0}{1 + e^{\beta_1 \times (x_j - \beta_2)}} \ j=1,\dots,m$

型号指定如下：

$\beta_i \sim N(\mu=0, \sigma=1000) \ i=0,1,2$

$\epsilon \sim Exp(\lambda=100)$

$\alpha = {\left(\dfrac{\mu}{\epsilon}\right)}^{2}$ $\theta=\dfrac{\mu}{\epsilon^2}$

$y_j \sim \Gamma\left(\alpha=\alpha, \beta=\dfrac{1}{\theta}\right)$

我感兴趣的是将这些模型拟合到多条谱线的数据中，然后获取谱线的比率。我之所以这样做是因为贝叶斯推理是因为线比的后验分布的宽度对我来说非常重要，因为将来会在分类分析中使用数据。这就是选择 Gamma 的原因，因为这是我可以将非负性约束强制到比率值的唯一方法。

现在，我的问题。我的数据中偶尔会有异常值。输入的值实际上是其本身的估计值。换句话说，当我的数据表明 $(x,y) = (5, 3000)$ ，事实上 $x$ 可以在任何地方 $4.5$ 至 $5.5$ . 在我看来，该模型应该能够通过稳健来处理这种不确定性。

如果残差是正态分布的，我会用 Student-t 或 Cauchy 替换 Gamma 分布并运行稳健的推理。但是，我不确定如何继续使用 Gamma。在我看来，应该有一种方法可以使模型更加宽容，我将不胜感激任何建议。

谢谢！