是否可以在具有未知/不可知特征变量的情况下执行回归?

机器算法验证 回归 机器学习 随机过程
2022-03-13 05:46:26

是否可以在具有未知/不可知特征变量的情况下执行回归?

说我有yn=a0+a1x1+a2x2+a3x3但我不/不能测量特征变量的值x3. 我还能执行回归以确定系数吗ai?

如果我有一些关于如何统计的知识怎么样?x3是分布式的?如果我知道x3从高斯分布中得出N(0,σ2), 已知σ这是否允许我执行回归以确定ai?

3个回答

线性模型的完整公式是(准矩阵形式)

Y=βX+ϵ

所以我们对我们控制的变量有多个系数,然后我们有ϵ,这是我们没有用包含的变量解释的所有其他内容。

在这个误差项中属于我们没有考虑的所有变量,要么是因为我们没有关于它们的信息,要么是因为我们根本不知道它们(随机偏差)。

因此,您无法知道该术语中的哪些内容属于哪个未知术语。

如果我对 x3 如何分布的统计数据有一些了解呢?

如果你做回归yx1x2,那么如果你愿意做出有根据的猜测x3与这些中的每一个相关,您可以计算出这些猜测对于您估计的系数将如何变化的影响,如果您可以观察到x3并运行完整的回归。

假设例如x3不相关x1. 然后

α2,your regression=α2,full regression+α3cov(x3,x2)var(x2)

因此,如果x3可能只与y或者x1x2不会有太大变化。如果是,您可以使用这些遗漏变量偏差公式来预测事情将如何变化。

总是有可能的……但在许多情况下,您的估计会有偏差。最有利的情况发生:
(a) 当x3n与其他回归变量不相关,在这种情况下,回归yn(ι,x1,x2)你有无偏估计a0,a1,a2(Frish-Waugh-Lovell 定理)
(b) 如果除了 (a) 你知道σx3N(0,σ2),那么你甚至可以识别a3: 画N独立同分布值x3nN(0,σ2)和倒退yn(ι,x1,x2,x3).