肥尾巴?短尾巴?长尾巴?我从这里去哪里?

机器算法验证 方差分析 正态分布 安乔娃 肥尾 重尾
2022-04-13 06:41:21

我正在运行具有 4 个固定因子和 1 个随机因子的线性混合模型。响应变量是 %growth,它具有负值(我的一些动物缩小了)。我遇到的问题是根据 shapiro wilk 测试,残差不是正态分布的。直方图看起来像一个正态分布,但正态分位数图有一条 s 曲线。在查找时,我发现这条曲线标记为肥尾、短尾和长尾。

我已经尝试过转换(log、sqrt、立方根),但似乎没有任何东西使它正常(log 在负值的所有 bc 中都不起作用)。我的下一步是尝试泛化线性混合模型,但我使用的是 JMP,它还没有提供该功能。除了学习 R,我还有其他选择吗?

我的 n 是 304,我听说随着样本量的增加,正态性的重要性会降低,但我不认为 304 很大。

编辑:我听说增长百分比对于方差分析来说不是一个很好的响应变量,也许我应该做一个以最终长度作为响应变量、初始长度作为协变量的 ANCOVA。但是,这也给了我一个 s 曲线和非正态残差。

残差直方图和正态分位数图

3个回答

增长率必须分布为柯西分布的一些变体。我为此写了一系列论文。柯西分布没有均值,因此它没有方差或协方差。您可以在https://papers.ssrn.com/sol3/cf_dev/AbsByAuth.cfm?per_id=1541471找到我的作者页面

从题为“收益分布”的论文开始,然后切换到关于贝叶斯方法的论文。一般来说,没有可接受的非贝叶斯解,但在特定情况下,如果需要零假设方法,则可以使用最大似然解。贝叶斯似然函数总是最低限度的。

您可以通过作者页面上的地址与我交流。因为没有方差或协方差,所以 ANOVA 和 ANCOVA 是不可能的。

编辑 关于评论:

1)如果我说它是 Cauchy,因此排除 ANOVA 和 ANCOVA,我有什么选择?

贝叶斯回归仍然可用。你的似然函数是

1πσσ2+(yβ0β1x1b2x2βnxn)2

但是,含义与 OLS 非常不同。OLS 来自一个收敛过程,例如水从下水道流下。这可以被认为是一个双摆问题,因此预测能力有限。例如,如果您有,您可以将视为上摆,视为附在上摆上的下摆。因此,虽然移动的影响,但这并不意味着它们甚至以正相关的方向朝着相同的方向移动。一个摆向左摆动可能导致另一个摆从动量向右摆动。y|xxyyx

双摆问题(混沌理论中第一个真正观察到的问题)与本例中的回归之间存在紧密联系。

正确的解释是,例如,如果则 50% 的时间将大于,而 50% 的时间将小于如果您的系统中有其他属性,例如非否定性,您可能能够做出更有力的陈述。y=1.1xy1.1x1.1x

2)我读过如果残差几乎是正常的,柯西是有问题的。

这没关系。您可以找到甚至构建柯西分布与正态分布无法区分的情况。一般来说,对于大多数标准问题,没有可接受的非贝叶斯解决方案。对于只接受过频繁方法训练的人来说,这是一个问题,但本身不是问题。如果问题的性质需要零假设,那么唯一接近的解决方案将是分位数回归或 Theil 回归。两者的问题在于,在上面的等式中,不是独立的,但它们也不相关。x1x2

通过一些经验检验,问题不是高斯与柯西,而是我应该从理论上得到的。在一定百分比的时间内,从纯正态分布中提取的数据将仅通过偶然性来伪造正态性检验。虽然有时我们不知道似然函数并且必须对其进行测试,但有时我们确实知道。这是我们做的一个案例。

3)如果我只有初始长度和最终长度,这真的是增长率吗?

是的,这是一个增长率,这只是每个生物观察有限的增长率。

不问

有没有类似于 anova 或 ancova 的东西?答案是“不清楚”。如果您注意到可能性中只有一个尺度参数,这不取决于变量的数量。scale 参数是单独的 scale 参数的组合,但尚不清楚是否有任何方法可以利用这一点。

你的 QQ 情节看起来不像有肥尾巴。我将向您展示肥尾巴的样子: 在此处输入图像描述

你的尾巴和上面比起来就像是维多利亚秘密的模特。我希望我的一些模型残差有你的尾巴。

似乎@Tim 在评论中建议的引导可能是一个很好的方法。即使您的统计软件不直接支持引导程序,您自己的应用程序也不难。例如,假设您在一行中有每个个体的所有数据(物种;3 种处理类型;起始和结束长度、宽度和高度;块 ID),并且您有 304 行。您设置了一个长度为 304 的索引向量,并为每个引导程序用一个随机样本填充它,替换为从 1 到 304 的整数。然后,您从完整数据集中获取这些索引行,总共 304 行(有一些原始行省略,有的拍了一次,有的拍了 2 次或更多次)。然后进行分析并存储回归系数。这样做 999 次。对于每个回归系数,平均 999 个结果;然后将 999 次重复的值按顺序排列;第 25 和第 975 依次设置 ​​95% 置信限。除非您的分析严重依赖于平衡设计,否则就足够了。

如果存在潜在的 Cauchy 问题,这将不起作用,但我不相信您的数据集存在此问题。柯西问题来自于尝试取 2 个随机变量的比率,其中您冒着被零除或被接近于零的数字除的风险。尽管这在@DaveHarris 在与他的回答链接的文件中解决的经济时间序列类型中可能是一个严重的问题,但在您的情况下,长度、宽度和高度都是正数并且远非零,因此您似乎不是在那种情况下。开始和结束之间的原始差异或开始/结束比率的日志应该表现得足够好,以便您可以使用引导程序分析数据,这是一种在您无法指望时处理您的情况类型的受人尊敬的方法感兴趣的数据的正态分布。