我是否有正当理由从我的 ANCOVA 中排除不显着的协变量?不等方差有多有趣?

机器算法验证 安乔娃 平方和 levenes-测试 神经科学
2022-04-10 04:02:23

我正在比较各组(2 组)的谷氨酸浓度。年龄与谷氨酸显着相关,而智商则没有。
如果组间方差有显着差异。这有意义吗?我能从中得出什么结论?大多数关于不等方差的信息都报告说它需要清理。但是,我可以对我的小组具有不同的谷氨酸差异这一事实做出任何有用的推论吗?
如果您使用 II 型或 III 型平方和,在统计上是否会产生任何差异。从阅读来看,如果您没有任何重要的互动,则首选类型 II,如果有,则首选类型 III。如果你对其他代谢物有一些显着的相互作用,而我的主要谷氨酸代谢物没有显着的相互作用怎么办(我正在研究谷氨酸以外的其他东西)。我认为它必须是标准化的,您应该使用其中一个或进行整个分析。在这方面最好的方法是什么?
感谢您提供任何帮助。我一直在为这些问题苦恼,只想以最合适的方式表示数据。

3个回答

首先,让我向你保证——正如@amoeba 所提到的——你正走在进入“研究地狱”的正确道路上,这是研究人员(应该)让他们的 p 值决定包含什么的地方或不在分析中。

原因1。

您必须先决定您是否认为Levene的测试是一个很好的异方差测试,以及在测试显着/不显着的情况下该怎么做。此外,尽管您和我可能不同意,但如果您使用阈值来做出决定(不幸的是,这仍然是经典统计中的标准),那么某件事是否更重要或更重要并不重要。

原因 2 和 3。

两个群体在年龄和智商上都很匹配”,这很好。ANCOVA 最重要的假设之一是协变量和治疗效果的独立性这种关联对智商和谷氨酸来说并不重要”,我不完全确定这是一个问题,我实际上相信不是。事实上,ANCOVA 的第二个最重要的假设是协变量与因变量具有相同的关系,而与自变量无关。这通常称为回归斜率的同质性

问题 1。

这里的问题不是你会被活活吃掉;而是你会被活活吃掉。很可能,您不会(我看到发布的分析更糟糕......)。问题是您正在考虑发布结果,这些结果是您不完全确定的分析结果,因为您违反了实验数据分析中最重要的规则,即不要根据最终结果进行更改

问题2。

从理论上讲,是的:异方差性可能是数据中发生其他事情的迹象。或不。我们不(不能)知道。但是,鉴于您的样本量较小,我反对在不解决不等方差问题的情况下继续进行分析。您可能需要考虑一些技术,它们可能有效,也可能无效。但是,如果它们不起作用,您就只有一种可能性:不要进行分析(因为您已经这样做了:不要报告结果)。

问题 3。

是的,它确实。同样,您应该先验地决定。如果您对主效应感兴趣,则类型 II 更可取,而当您预期交互作用时,类型 III 更可取。我倾向于选择 III 型,但关于哪种更好的争论仍然存在。

结论。

我的建议是不要发布这些结果并尝试收集更多数据。随着更大的样本(60+),你打破的一些假设变得不那么重要了。也就是说,在确定你已经正确完成所有事情之前,你永远不应该查看最终结果,因为从理论上讲,这是一个不归路。

首先,问问自己为什么 IQ 总是包含在这些模型中。可能有一些原因。智商可能是一个中介(见下文)

其次,从您所说的来看,智商似乎是谷氨酸浓度与您的组变量之间关系的一种中介。匹配不会处理中介关系。建立中介的正确方法尚未完全达成一致(甚至术语也没有完全确定),但我的观点是统计显着性在其中没有多大作用。关键不是关系是否显着(N = 33,显着性很难),而是参数估计值的变化。

第三,“模型变得混乱”这一事实不是排除变量的理由。并非所有的关系都是简单的。排除调解员可能会给出非常错误的关系图景。

我有点担心你情节上的 y 轴标签,“C 谷氨酸 SD 小于 20 - 极值”,这有两个潜在的重要含义。

一方面,可能会认为已经删除了一些“异常值”确定,这是一件棘手的事情。这通常只有在您知道测量错误(而不是混乱)时才应该这样做。对您的轴标签的一种可能解释是,对每个个体进行了多次谷氨酸分析测定,每次测定涉及超过 1 个技术重复,并且如果技术重复与 SD 超过 20 个不一致,则排除某些测定。如果“ - 极端”意味着您进一步删除了个人决定的极端值,那么这是一个需要考虑的额外问题。

其次,如果您的分析 SD 大约为 20,平均值大约为 9,并且谷氨酸浓度肯定不能低于 0,那么您可能不应该在线性范围内分析您的谷氨酸分析,至少在以下方面结合分析结果以获得每个个体的谷氨酸值。我的猜测是谷氨酸测定中的分析误差或多或少与测量值成正比,因此对于这项工作的谷氨酸分析部分,您最好使用对数刻度,以便分析误差的大小与测量值无关测量值,在那个尺度上。在对数尺度上,您的一些“异常值”可能不会那么遥远,并且您的结果可能更可靠(甚至可能支持您的假设)。

您引用的智商和谷氨酸之间的“弱”关系(Pearson Correlation = .203,sig=.213,N=33)不一定那么弱。试图排除两个变量之间的关系不同于试图证明它们之间的重要关系。这种相关系数在许多生物学关系中并不是非典型的,缺乏“意义”可能只是代表少数情况,所以这不是排除智商的理由。

正如您似乎理解的那样,这里的部分问题是动力不足的实验设计。如果在这类研究中通常期望控制年龄和智商,那么需要有足够的案例来适应这一点。每个额外的协变量都会在您的分析中占用一定的自由度,如果协变量与结果变量的关系较弱,则可能会更难检测显着性。使用少量预测变量找到“重要性”并不罕见,然后随着额外预测变量的添加而消失。

如果我对您的谷氨酸测定的性质是正确的,那么无论如何您都需要重新评估这些关系。