在以作为结果变量和作为解释变量的模型选择中,我们为什么要关心F_{Y|X} ,即在给定协变量X = (X_1 , \ldots, X_p) ?
我读到这经常是模型选择的研究对象。谁能告诉我为什么我们关心条件分布?知道条件分布对我们的预测有什么影响?
在以作为结果变量和作为解释变量的模型选择中,我们为什么要关心F_{Y|X} ,即在给定协变量X = (X_1 , \ldots, X_p) ?
我读到这经常是模型选择的研究对象。谁能告诉我为什么我们关心条件分布?知道条件分布对我们的预测有什么影响?
回归模型或 GLM(或实际上许多其他模型)本质上是条件分布的模型,通常包括根据参数对条件均值的明确描述。
当您在(例如)线性回归中估计参数时,您实际上是在计算(在您的模型中)的条件均值如何随着您所调节的事物(的自变量,预测变量)变化。
在回归模型中,还定义了条件分布的其他方面——例如,条件方差通常可以假设为常数。
类似地,对于泊松 GLM,当我说是泊松时,我明确地对条件分布建模的条件均值编写一个模型——这就是参数和定义的;那么条件分布源于这样一个事实:一旦你有了泊松的平均值,你就有了它的分布:
这里的模型是在任何给定的值(即以为条件),值具有泊松分布。请注意,的边际分布不是泊松分布。根据模型,蓝点(一些相互重叠)是从每个值的泊松分布生成的(其条件均值与模型相关)。“+”符号标记了这些条件均值在我们拥有数据的每个值处的估计值。
假设你想建立一个预测模型。也就是说,您有一些数据,并且您想使用的知识来预测的值。实际上,您想构造的函数,以便可以以某种方式解释为“对的预测”。
您最希望的是,您可以和的所有可能性构建一个满足的 f,这是两个现象之间的完美联系。
在实践中,这是不可能的。无论是因为我们知识的界限、我们测量的缺陷,还是过程中的一些实际随机性,我们通常不相信我们可以在和之间建立完美的联系。鉴于这一现实,条件分布只是一种数学工具,有了完整的了解,的知识状态。
因此,如果我们将解释为的预测,那么必须告诉我们一些关于条件分布。有时我们试图预测条件分布的平均值,有时是中位数,有时是其他东西,但预测模型最终总是试图告诉我们一些关于条件分布的信息。