为什么等距对数比变换优于具有成分数据的加法(alr)或居中(clr)?

机器算法验证 回归 组成数据
2022-03-05 20:58:05

我正在使用人口普查数据的对数比率转换对成分数据进行线性回归。IV 是组成的(百分比总和为 100)。DV 是非组合的和连续的。

alr 和 clr 结果更容易解释。它们都产生相同的适合度。我倾向于使用 alr(或 clr)。Aitchison 将 ilr 描述为“纯数学”方法,但我的听众不是统计学家或数学家。

如果我的目标只是从分析中传达见解,我为什么要采用更难解释的 ilr(带天平)方法?

我读过 Aitchison、Juan Jose Egozcue 和 Vera Pawlosky-Glahn 的大量研究,但不想辩论。

3个回答

继续 marianess 的回答,由于共线性问题, clr 确实不适合。换句话说,如果您尝试使用 clr 转换后的数据进行推断,您可能会陷入尝试推断变量增加/减少的陷阱,而您一开始就永远无法做到这一点。

ilr 转换试图通过仅坚持分区比率来解决这个问题,因为比率是稳定的量。这些分区可以表示为树,其中树中的内部节点表示子树的几何平均值的对数比率。子树的这种对数比率称为余额。

我还建议查看这些出版物,因为它们对如何解释 ilr 变换都有很好的解释。

http://msystems.asm.org/content/2/1/e00162-16

https://peerj.com/articles/2969/

https://elifesciences.org/content/6/e21887

这是一个IPython 笔记本,详细介绍了如何计算给定树的余额

如果您好奇,我还在这里使用 scikit-bio 中的模块描述了如何做到这一点。

clr() 转换存在问题。在转换数据后,它确实保留了相同数量的变量,但在 clr() 的情况下,你得到一个奇异数据(实际上你得到一个奇异协方差矩阵) y1 + ... yD = 0您可能知道,某些统计分析无法对单一数据执行。ilr() 转换会减少变量的数量,所以假设你有 D 维空间,但在 ilr() 之后你会得到 D-1。因此,您转换后的数据只不过是比率。我建议在这里阅读这篇论文:http: //is.muni.cz/do/rect/habilitace/1431/Hron/habilitace/15_Filzmoser_et_al__2010_.pdf

我会选择 ALR,因为它更有意义。您将一个组件用作基线或参考,然后查看其他组件与该组件相关的操作。