如果XX是总和为和之间的是有用的值吗?是YR2R2XX是Y

机器算法验证 回归 相关性 r平方
2022-03-11 14:48:52

回归分析的一个假设是没有交织在一起。但是,当我想到它时,在我看来这是有道理的。XY

这是一个例子。如果我们有一个包含 3 个部分(AB 和 C)的测试。总测试分数等于 3 个部分的单项分数之和。现在可以说可以是 A 部分的得分,而可以是整体测试得分。那么线性回归可以回答这个问题:A 部分的总体测试分数的可变性是多少?在这里,有几种情况是可能的:XY

  1. A 部分是 3 个部分中最难的部分,学生的分数总是最低的。在这种情况下,直觉会很低。因为大部分整体考试成绩将由 B 和 C 决定。R2
  2. A部分对学生来说很容易。在这种情况下,相关性也不会很高。因为学生在这部分的得分总是 100%,因此这部分没有告诉我们关于整体考试成绩的任何信息。
  3. A部分为中级难度。在这种情况下,相关性会更强(但这也取决于其他分数(B 和 C)。

另一个例子是:我们分析尿液中微量元素的总含量。我们独立分析尿液中微量元素的单个种类(化学形式)。可以有许多化学形式。如果我们的分析是正确的,那么化学形式的总和应该与元素的总含量相同(通过不同的技术分析)。然而,询问一种化学形式是否与尿液中的总元素含量相关是有意义的,因为该总含量是该元素从食物中总摄入量的指标。那么,如果我们说是尿液中的总元素,而XY是尿液中的化学形式 A,然后通过研究相关性,我们可以探索这种化学形式是否是导致整体可变性的主要形式。

在我看来,有时即使不是独立的,这也是有道理的,并且在某些情况下这可以帮助回答科学问题。XY

您认为在上述示例中是否有用或有意义?如果我们考虑上面的考试成绩示例,我已经说过,如果学生的难度完全相同,每个部分的贡献率约为 33%。但在实践中,这不一定是正确的。所以我在想也许使用回归分析可以帮助我们了解考试每个部分的真实可变性。所以在我看来,即使我们已经知道原假设不正确R2R2

是否有替代的修正回归方法来解释这种情况并为我们提供有意义的参数?

4个回答

您可能需要考虑传统回归方法之外的方法。这与心理测量学旨在解决的问题类型相当(嗯,实际上你的第一个例子正是这样,因为它是一个测试)。

经典测试理论中,最常见的指标之一是项目总分相关性,它本质上是项目得分与总分之间的相关性。它告诉您该项目的辨别力——它能够区分高分和低分的受访者。询问的内容一样有两种方法可以计算这个分数,或者使用包含感兴趣项目的总测试分数,或者不包括它。当你有很多物品时,这两种方法几乎相同,但是当你有很少的物品时,它们会产生很大的不同。R2

项目响应理论(IRT) 的另一种方法是通过 2 参数项目响应模型或通过验证性因子分析(在统计上相同,但在解释方面不同)进行估计。2 参数模型包括一个用于项目难度(项目的相对难度)的参数和一个用于项目区分的参数,这与项目总分相关性的解释非常相似。高区分度=该项目很好地区分了高分和低分。如果您使用验证性因子分析 (CFA),则您有项目载荷,这本质上是您的判别参数。它们会告诉您总分中有多少是由特定项目驱动的。

使用 IRT 或 CFA 假设您尝试估计的是潜在分数,而不是观察分数。在您上面给出的示例中,您关注的是观察到的分数,这不是潜在的。所以这些模型不会是你所追求的,因为它们是概率性的,而且你有一种重言式的关系(根据定义,你的总数是由部分组成的,没有错误)。但我指出它们是统计数据获得类似答案的方式的例子。

我想指出的最后一件事,这可能是其他人会争论的事情,但是虽然假设回归变量是独立的,但当我们有一个分类变量并且我们在模型中输入虚拟变量时,这些虚拟变量是,根据定义,相关。因此,这似乎违反了独立性假设并带来了多重共线性。如果您这样想,那么对尿液中的元素进行回归并排除其中一个元素是有意义的,系数将是有效的,就好像它是一个单一的分类变量一样。从这个意义上说,您得到的数字与我在上面指出的经典测试理论中的项目总相关性相当。

一种快速的数学方法是扩展公式。Z=X+Y+W

R2=(Cov(X,Z)σXσZ)2=(Var(X)+Cov(X,Y)+Cov(X,W)σXσZ)2

所以简而言之,您将得到的方差加上它与其他两个变量的关系,除以比例因子。比例因子本身可以扩展,但分子正在讲述故事。一般来说,会影响该数字的因素是 a) X 与 Y 和 W 相比的相对比例,b) X 的相对方差,c) X 对 Y 和 W 方差的“贡献”。X

至于这是否有用,那取决于你所追求的。最好将其视为“总变异的百分比”或类似的东西,即使 Y 和 W 的总和可能不等于 1(或者它可能......不确定)。

如果 X 是定义 Y 的几个变量之一,那么显然线性回归的假设被打破了。P值不会有用。不能以通常的方式解释斜率及其置信区间。但是还有用吗?我想这是一个描述性统计数据。如果您有三个值来量化 Y 与其三个分量中的每一个之间的相关性,我想您会通过查看的相对值来学习一些有趣的东西。R2R2R2

回归分析的一个假设是XY没有交织在一起。

这是不正确的。回归分析的一个假设是错误是不相关的。请参阅高斯马尔可夫定理的维基百科条目。

如果X是总和为的几个变量之一Y, 是个R2之间XY有用的价值?

关于我能想到的唯一用途R2之间XY是显示当您包含其他预测变量时您的模型表现得有多好。还有其他值会提供很多信息。特别是估计系数的值及其标准误差。