非正态因变量的回归

机器算法验证 回归 序数数据
2022-03-19 01:59:17

我需要对不存在适当非线性变换(我知道的)的非正常 DV 进行回归:

在此处输入图像描述

它是一个从 10 到 50 的分数,在 10 时达到高峰,在 11 时下降,从 11 到 50 有规律的下降。残差的分布不正常。

在此处输入图像描述

研究中有或多或少的 500 名受试者,协变量都是二分的。

我想过使用 n-tiles 并对结果变量执行序数回归,但最终我得到了很大比例的空单元格——不是因为样本量小,而是因为需要几个协变量在模型中。

我现在能做的最好的事情是删除协变量并使用三分位数(而不是五分位数)来最小化空单元格的数量。不过,我不确定避免空单元格在多大程度上如此重要。与原始分数的原始分析相比,在协变量较少的三分位数上回归似乎需要做出很多牺牲。

基于体面的样本量,并且考虑到残差的分布与正常情况相差不远,我想知道回归的结果是否可靠。

2个回答

序数回归不受 Y 的空单元格的影响。除非您只是想减少计算负担,否则不需要分位数分组。比例优势或连续比序数逻辑模型可能能够处理您绘制的 Y 分布(没有 Y 分组)。

性假设是模型残差的一个方便属性,因为它可以正确推断估计参数,并且许多其他测试的临界值也依赖于这个假设(因此应该进行一些更正,或者您可以粗略地采取更严格的规则 -拇指标准,增加测试的可接受范围),但它不会破坏回归估计器。

因此它可能(您仍然需要检查其他假设)产生表现良好的预测,但数据挖掘假设检验会有点困难。在这一点上,我同意 Huber 的观点,即您需要澄清模型的目的。


关于一些提示

乍一看,变换后的分布似乎可以通过一些连续分布的截断版本来近似:指数(Gamma)、对数正态Pareto或其他一些。因此,在对数正常情况下,您仍然可能会接近正常情况。Y10

另一种选择可能是尝试拟合广义逻辑函数逻辑回归的组合。由于您确实知道上限和下限,因此这似乎是可行的。