在以是Y作为结果和X= (X1, … ,Xp)X=(X1,…,Xp)作为解释变量的模型选择中,我们为什么要关心F是| XFY|X?

机器算法验证 回归 模型选择
2022-04-04 01:12:13

在以Y作为结果变量和X=(X1,,Xp)作为解释变量的模型选择中,我们为什么要关心F_{Y|X} FY|X即在给定协变量X = (X_1 , \ldots, X_p) ?YX=(X1,,Xp)

我读到这经常是模型选择的研究对象。谁能告诉我为什么我们关心条件分布?知道条件分布对我们的预测有什么影响?

2个回答

回归模型或 GLM(或实际上许多其他模型)本质上是条件分布的模型,通常包括根据参数对条件均值的明确描述。

当您在(例如)线性回归中估计参数时,您实际上是在计算(在您的模型中)Y的条件均值如何随着您所调节的事物(x的自变量,预测变量)变化。

y 与 x 的图,显示每个有数据的 x 处 y 的条件 pdf

在回归模型中,还定义了条件分布的其他方面——例如,条件方差通常可以假设为常数。

类似地,对于泊松 GLM,当我说是泊松时,我明确地对条件分布建模的条件均值编写一个模型——这就是参数定义的;那么条件分布源于这样一个事实:一旦你有了泊松的平均值,你就有了它的分布:Y|x

μ(x)=E(Y|x)=exp(β0+β1x),
Yβ0β1

具有拟合条件均值的条件泊松数据图

这里的模型是在任何给定的值(即以为条件),值具有泊松分布。请注意,的边际分布不是泊松分布。根据模型,蓝点(一些相互重叠)是从每个值的泊松分布生成的(其条件均值与模型相关)。“+”符号标记了这些条件均值在我们拥有数据的每个值处的估计值。xxYYxx

假设你想建立一个预测模型。也就是说,您有一些数据,并且您想使用的知识来预测的值。实际上,您想构造的函数,以便可以以某种方式解释为“对的预测”。(X,Y)XYXf(X)Y

您最希望的是,您可以的所有可能性构建一个满足的 f,这是两个现象之间的完美联系。ff(X)=YXY

在实践中,这是不可能的。无论是因为我们知识的界限、我们测量的缺陷,还是过程中的一些实际随机性,我们通常不相信我们可以在之间建立完美的联系。鉴于这一现实,条件分布只是一种数学工具,有了完整的了解,的知识状态。XYYXYX

因此,如果我们将解释为的预测,那么必须告诉我们一些关于条件分布有时我们试图预测条件分布的平均值,有时是中位数,有时是其他东西,但预测模型最终总是试图告诉我们一些关于条件分布的信息。f(X)Yf(X)Y|X