狄利克雷回归和对数比分析有什么区别?

机器算法验证 回归 参考 造型 组成数据
2022-03-17 19:27:11

可以通过 Dirichlet 回归或使用 John Aitchison 开创的对数比率分析来分析成分数据。

我的问题是

  1. 这两个模型在假设上的主要区别是什么?什么时候你应该更喜欢其中一个?
  2. 是否存在一个主题允许而另一个主题不允许的“方法”?我当前的数据集有多个自变量(因子和连续),我想对固定效应和随机效应进行建模,然后进行参数估计、检验假设、找到置信区间等。
  3. 学习这两个主题的最佳资源是什么?对数比率分析似乎是许多书籍的主题,但另一方面,狄利克雷回归似乎主要在小讲义(20-30 页)中介绍。
2个回答

对数比方法是一种数学变换,而狄利克雷回归是一种特殊的概率模型。

  1. 为了更好地理解差异,让我们考虑一个应用于对数比率转换数据的常见概率模型。如果将多元正态模型应用于加法对数比或等距对数比转换数据,是否等同于将多元逻辑正态模型应用于原始成分数据集。(例如,逻辑正态分布的 ALR 或 ILR 变换是变换空间中的多元正态分布)。请注意,有许多不同的统计模型可以应用于对数比转换的成分数据(Dirichlet 回归是一个单一模型)。

    现在一个很好的问题变成了:狄利克雷分布和逻辑正态分布之间有什么区别。Dirichlet 分布(以及扩展的 Dirichlet 回归)假设组成部分(变量)是独立的,除了总和约束另一方面,逻辑正态分布除了总和约束外,还允许各部分之间的协变. 从这个意义上说,逻辑正态分布是一种更灵活的分布,通常能够更好地捕捉研究人员可能感兴趣的变量之间的协变。也就是说,逻辑正态分布不像 Dirichlet 分布那样允许各部分之间完全独立(尽管它可以足够接近许多近似值)。

  2. 同样,对数比率方法是一种数据转换,而不是统计模型。有许多不同的模型可以做所有事情,从混合效应建模到假设检验等……此外,逻辑正态回归和狄利克雷回归也可以做你正在讨论的所有事情。逻辑正态回归和狄利克雷回归之间的主要区别在于,您是希望假设变量之间存在某种程度的依赖,还是希望变量之间完全独立(不包括由于成分数据的总和约束而发生的依赖)。

  3. Dirichlet 回归 - 我会做一个谷歌搜索并找到一些讨论它的论文。是一篇讨论 R 的 DirichletReg 包的论文。似乎出现在该包的白皮书中。关于成分数据分析:我推荐Pawlowsky-Glahn、Egozcue 和 Tolosana-Delgado 对成分数据进行建模和分析这是一本非常棒的书。van den Boogaart 和 Tolosana-Delgado 撰写的一本非常实用的书《 Analyzing Compositional Data in R》

这两个模型在假设上的主要区别是什么?什么时候你应该更喜欢其中一个?

Dirichlet 假设负相关结构,而 LR 则没有。Dirichlet 不是线性指数族的成员,因此在模型错误指定下它并不稳健。这当然更适用于估计的标准误差。到目前为止,我已经看到这两种方法都产生了相当的拟合。

是否存在一个主题允许而另一个主题不允许的“方法”?我当前的数据集有多个自变量(因子和连续),我想对固定效应和随机效应进行建模,然后进行参数估计、检验假设、找到置信区间等。

对于随机效应,如果你知道该怎么做,那么继续使用 Dirichlet。否则,您可能想坚持使用 LR。

学习这两个主题的最佳资源是什么?对数比率分析似乎是许多书籍的主题,但另一方面,狄利克雷回归似乎主要在小讲义(20-30 页)中介绍。

有一本书,狄利克雷分布等。然后,还有关于狄利克雷回归的论文。