机器算法验证 - 非正态分布数据 - Box-Cox 变换？ - 吾爱随笔录

非正态分布数据 - Box-Cox 变换？

机器算法验证 spss 重复测量数据转换计数数据

2022-03-23 22:41:07

我有非正态分布的数据。问题似乎是一个值相对于其他值太多。

我试图使数据正常：

我尝试了对数转换，将所有值加 1（即，相对频繁的值是 0，我知道不能对 0 的值执行对数转换），但这并没有修复数据，也没有改变夏皮罗- 来自 p<.001 的 Wilk 显着性甚至是轻微的。
我还读到方差分析不需要因变量呈正态分布，而只需要残差呈正态分布。然而，残差之间仍然存在显着差异，如另一项 Shapiro-Wilk 检验所示。

Box-Cox 变换能否使数据呈正态分布？

一个来源（第 27 页）表明，在对数转换不起作用后，使用 Box-Cox 转换是另一种可能的解决方案。然而，问题是我知道这个用于 Box-Cox 转换的函数在 SPSS 上不可用。
我还没有找到这种转换的有效语法，我不熟悉 R，我理解它可以执行 Box-Cox 转换，并且我有提交报告的截止日期，这意味着我没有时间熟悉 R，并且我无法购买 Excel 统计软件包。

数据

添加数据的直方图以更好地了解下面的数据可能很有用。

这是一种重复测量设计，每个参与者都有直方图中所指的低负载和高负载条件。
正如我们的假设所预测的那样，高负载条件应该不会导致非常少的“图像”（即入侵），因此数据支持我们的假设。因此，预期以某种方式行动的数据在其正常性方面存在问题似乎很奇怪，因为在某些情况下它被认为是不正常的。
也许我误解了某些东西或进行了不正确的测试，所以如果是这样，那么很高兴知道。

为什么不进行非参数分析？

我更喜欢进行参数测试，因此我想让数据呈正态分布；这可能是一个错误的观点，但是从阅读许多文章来看，我很少看到在报告数据时使用非参数分析的论文。
只有当我拥有的数据似乎无法将其转换为参数数据时，我才必须使用非参数测试，但首先我想尝试转换数据的选择。

问题

1) 使用 Box-Cox 转换来尝试修复数据是一个好主意，还是我没有尝试过的其他更好的主意？

2) 如果 Box-Cox 转换实际上是一个尝试的好主意，是否有任何关于如何做到这一点的建议（例如，是否是有关 SPSS 语法、Excel 公式等的信息）？

来自答案的信息：

这是计数数据
它具有泊松分布，因此具有这种分布的分析将是理想的
数据中有很多零，范围很小（即从 0 到 4 的值）
Scortchi 在下面的评论中提供了很好的链接，以获取更多关于用零转换非负数据、测试两个重复测量计数变量之间的显着差异、计数通常为零时计数数据的回归模型以及使用泊松重复测量的信息方差分析。
Poisson RM ANOVA 有很好的信息，关于使用这种分布来计算具有许多零的非参数数据的想法和理论。
由于我的下一步是了解在 SPSS 中对重复测量数据进行泊松分布分析的具体领域，因此我在这里提出了一个新问题。
尽管目标是使用泊松分布进行分析，但根据一个来源（页面中途，在原因 6：数据遵循不同的分布）看来，数据仍将保持非参数化。

（但是，如果我不应该像以前那样问一个单独但相关的问题，请告诉我，我会改变这个 - 我是新手，所以我仍然对在这里发布的惯例有所了解，但我很高兴学习并获得有关我如何发布的反馈，以使所有人更清楚。）

1个回答

数据高度偏斜且仅采用一些离散值：对内差异必须主要由零和一组成；没有任何转换会使它们看起来很像正常变量。这是计数相当低的计数数据的典型特征。

如果您假设每个个体的计数遵循不同的泊松分布，并且从低负载条件到高负载条件的变化对每个个体的速率参数具有相同的乘法效应，您可以将两个计数之间差异显着性的想法扩展到的总数为条件的匹配对设计： $j$ $n_j$

$\sum_{j=1}^m X_{1j} \sim \mathrm{Bin} (\sum_{j=1}^n n_j, \theta)$

其中是编号。对。因此，分析简化为对二项式实验中的伯努利参数的推断——如果我正确阅读了您的图表，则 24 次试验中有 7 次“成功”。 $m$

检查对之间比例的同质性 - 并注意它们是否过于同质，这可能表明原始计数变量的分散不足（相对于泊松）。

请注意，这种方法等效于为泊松重复测量方差分析^†建议的广义线性模型：虽然它不会告诉您任何有关令人讨厌的参数的信息，但可以在 fag 数据包的背面计算出感兴趣参数的点和区间估计（因此您无需担心软件要求）。

† 用对数赔率参数化你的模型：那么最大似然估计是与标准误差用于 Wald 测试＆置信区间。如果您想调整过度/欠分散（即使用“准泊松”回归），将分散参数估计为皮尔逊卡方统计量（用于关联）除以其自由度（22）并乘以标准误差的平方根。 $\zeta=\log_\mathrm{e} \frac{\theta}{1-\theta}$

\hat{ζ} = \log_{e} \frac{\sum x_{1 j}}{\sum n_{j} - \sum x_{1 j}} = \log_{e} \frac{7}{24 - 7} \approx - 0.887

$\hat\zeta=\log_\mathrm{e}\frac{\sum x_{1j}}{\sum n_j - \sum x_{1j}}=\log_\mathrm{e}\frac{7}{24-7}\approx -0.887$

\sqrt{\frac{\sum n_{j}}{\sum x_{1 j} (\sum n_{j} - \sum x_{1 j})}} = \sqrt{\frac{24}{7 \cdot (24 - 7)}} \approx 0.449

$\sqrt\frac{\sum n_j}{\sum x_{1j}(\sum n_j-\sum x_{1j})}=\sqrt\frac{24}{7\cdot(24-7)}\approx 0.449$

其它你可能感兴趣的问题

上一篇R中泊松数据的日志与平方根链接下一篇分类任务的电子邮件和 IP 字符串预处理