线性回归模型中的随机回归量和固定回归量有什么区别?

机器算法验证 回归 分布 条件概率 随机过程 可能性
2022-02-28 06:55:00

如果我们有随机回归量,我们中为一堆 ,即所谓的随机样本. 从理论上讲,随机样本可以让我们了解或估计分布的一些参数。(yi,xi)i(y,x)(y,x)

如果我们有固定的回归量,理论上我们只能推断出关于个 条件分布的某些参数, for其中每个不是随机变量,或者是固定的。的整个分布的一些参数,而固定回归器只让我们估计条件分布的某些参数.kyxii=1,2,,kxi(y,x)(y,xi)xi

结果是固定回归量不能推广到整个分布。例如,如果我们在样本中只有作为固定回归量,我们无法推断出任何关于的信息,但随机回归量可以。x=1,2,3,,9910099.9

这是一个相当模糊的问题,因为许多教科书只讨论数学推导的差异,但在理论上可以概括的范围内避免讨论差异。

4个回答

我的建议是养成将“固定”回归量称为“确定性”的习惯。这完成了两件事:首先,它消除了“固定”意味着“不变”的常见误解。其次,它与“随机”形成鲜明对比,并告诉我们回归量是由决定的(因此“设计矩阵”术语来自回归量是...确定性的领域)。

如果回归量是确定性的,则它们没有通常意义上的分布,因此它们没有通常意义上的矩,这在实践中意味着样本中唯一的随机元素存在于误差项中(因此也存在于因变量中)。E(xr)=xr

这具有基本含义,即具有一个甚至一个变化的确定性回归量的样本不再是同分布的样本

E(yi)=bE(xi)+E(ui)E(yi)=bxi

并且由于确定性的期望值都不相同换句话说,不存在一个分布,每个都有自己的(可能属于同一个族,但参数不同)。xiiyi

所以你看到它不是关于条件时刻,确定性回归量的含义与无条件时刻有关。例如,在这里对因变量进行平均并没有给我们任何有意义的东西,除了样本的描述性统计。

反过来看其含义:如果是从一组相同的随机变量中提取的,在什么意义上,我们将它们与确定性回归量联系起来的有效性是什么?我们总是可以在其他数字的矩阵上回归一系列数字:如果我们使用普通的最小二乘法,我们将估计相关的正交投影。但这没有任何统计意义。yi

还要注意这是否意味着 “无关” ?是随机的,这将是解释。在这里,它告诉我们,当涉及确定性回归时,无条件矩和有条件矩之间没有区别。E(yixi)=E(yi)yixixi

我们当然可以使用确定性回归器进行预测。的共同特征,我们可以使用确定性回归器来恢复它。然后我们可以取一个样本外值的回归量,并预测相应的值。b yiy

首先,什么是回归?请参阅回归模型的定义和定界 对于这个非常广泛的概念存在一些分歧,但主要是关于在给定一些预测变量的条件分布(或它的某些方面)进行Yx建模。

那么,既然我们要以为条件x,那么如果一开始是随机的还是确定性的,那么这有什么关系呢?请参阅类似的问题对回归变量进行调节与将它们视为固定变量有什么区别?.x

我想这个随机回归器的东西看起来很乱,因为它确实是一个多头怪物(有点像社会主义,你砍掉一个头,然后长出另一个头。)所以我们必须看看建模的原因是什么回归变量是随机的。我尝试了一个简短的列表,肯定不是详尽的:

  1. 回归变量中的测量误差。即使使用确定性回归器的设计实验也很可能发生这种情况,所以在我看来是一个单独的问题。查看标签x或者.

  2. 导致推理问题的数据收集问题,例如与误差项相关的回归量、具有相关误差项的单独回归以及在,不能用确定性回归器建模。

  3. 将响应的滞后值作为预测变量的模型。这通常是使用被视为确定性的回归量来完成的,这对我来说似乎很奇怪。然后在模型的一部分被视为随机,而在另一部分被视为确定性......Y

在我看来,最好单独处理这么多案例,而不是在非常广泛的标签下作为随机回归变量。

我认为您没有正确描述固定回归。fixed这种情况下,这意味着您可以选择您决定的任何级别。

假设,您正在研究作为 Web 服务器参数和负载函数的网站中断。考虑两种不同的方法:

  • 一种。您在您公司的负载测试实验室中进行(体外)
  • 湾。你在现场制作服务器上做(活体)

A. 在负载测试实验室中,您可以设置任何级别的负载以及 Web 服务器的任何所需参数。您可以同时加载 1,000 个客户端,工作池大小为 100,内存为 100GB;或者您可以同时拥有 10 个客户端、10 个线程和 1GB 等。

在这种情况下,您的fixed设计矩阵将有四列:截距和三个变量。它是固定的,因为变量级别没有随机性。您知道每个变量的确切值,并chose按照您的意愿使用它们。

B. 在直播生产服务器上,你可能只能控制一些参数,当然不能控制负载:客户端来来去去。因此,至少负载将是随机的。甚至参数也不是完全固定的:毕竟您希望服务器在测试时仍然运行并为客户端提供服务。也许您可以在某些范围内使用内存和线程池设置。因此,在最好的情况下,您只能设置三个真实回归变量中的两个变量。

在这种情况下,您有随机设计矩阵。你只能观察负载,也就是这里的回归量。这是一个随机变量。

毋庸置疑,当您拥有固定的设计矩阵时,分析会更容易、更稳健。

许多有趣的事情已经说了,但让我补充一些。首先,提问者是对的,即“随机与随机或固定回归量”在文献和一般专家中受到严重对待。我也遇到过提问者告诉我们的情况。

在我看来,问题主要来自两个方面。

第一个是 kjetil b halvorsen 向我们建议的“回归”的含义。事实上,一般来说,一些问题可能来自于不明确的定义。今天我确信回归必须是条件期望函数的同义词(见这里:回归和 CEF回归的总体参数)。因此,像“确定性回归量”这样的东西是一个模棱两可的对象,因为我们不能在联合概率分布中合并随机和非随机变量。有时“非随机回归量”是一个不好的术语,它代表:我们为X,所以我们可以认为它是已知的,因此是一个常数(非随机的)。事实上,我们感兴趣的所有量(矩、分布、估计、ecc)都是基于来自何处。所以我们可以忘记“非随机回归量”,我们可以将通常未知的联合分布 ( , ) 视为唯一真正的起点并继续前进。XXyX

只是关于变量的注释,例如:常量,虚拟,时间趋势,ecc。它们经常用于回归,我觉得我们可以使用它们(以它们为条件),即使它们不能正确地包含在联合概率分布中。

第二个问题来自回归与因果的争论。事实上,有时“非随机回归量”代表“固定在重复样本中”或“由实验者固定”之类的东西。在我看来,Aksakal 的回答朝着这个方向发展。实验范式在计量经济学中很常见。它把我们带到了允许我们实现回归的因果解释的条件这种方式可行,但今天我确信结构因果范式是最好的我在这里总结一下我的观点(在哪些假设下可以因果解释回归?)。现在,在我看来,像“实验者确定的回归量”这样的模棱两可的概念是无用且危险的。回归就是回归,我们不能强求这个概念。如果我们想处理干预,我们需要另一个对象。我们需要结构方程在任何情况下,“非随机回归量”的概念肯定不足以进行正确的因果推理(参见此处:非随机回归量和因果关系

最后,在一些演示中,使用了本讨论中出现的大多数概念。然而,它们仍然非常不清楚。在我看来,Greene 普及手册(第 8 版 2018 版第 25 页)中有一个权威示例:

在此处输入图像描述