预测和推理有什么区别?

机器算法验证 预言 术语 因果关系
2022-02-09 07:38:20

我正在阅读“统计学习导论”。在第 2 章中,他们讨论了估计函数的原因。f

2.1.1 为什么要估计f

我们可能希望估计f的主要原因有两个预测推理我们依次讨论。

我已经阅读了几次,但我仍然部分不清楚预测和推理之间的区别。有人可以提供差异的(实际)示例吗?

4个回答

推断:给定一组数据,您想推断输出是如何作为数据的函数生成的。

预测:给定一个新的测量值,您希望使用现有数据集来构建一个模型,该模型可以从一组结果中可靠地选择正确的标识符。


推论:您想了解年龄、乘客等级和性别对在泰坦尼克号灾难中幸存的影响。您可以进行逻辑回归并推断每个乘客特征对存活率的影响。

预测:给定一些关于泰坦尼克号乘客的信息,你想从集合中选择并尽可能多地正确。(如果您想知道如何尽可能多地正确,请参阅预测的偏差-方差权衡。){lives,dies}


预测并不围绕在输入和输出之间建立最准确的关系,准确的预测关心的是尽可能多地将新的观察结果放入正确的类中。

因此,“实际示例”粗略地归结为以下差异:给定单个乘客的一组乘客数据,推理方法为您提供幸存的概率,分类器为您提供生或死的选择。

调整分类器是一个非常有趣且至关重要的话题,就像正确解释 p 值和置信区间一样。

在本书的第 20 页,作者提供了一个漂亮的例子,让我理解了其中的区别。

这是书中的一段:统计学习简介

例如,在房地产环境中,人们可能会寻求将房屋价值与犯罪率、分区、与河流的距离、空气质量、学校、社区收入水平、房屋大小等输入值联系起来。在这种情况下,人们可能会对单个输入变量如何影响价格感兴趣——也就是说,如果房子能看到河流,它会多值多少?这是一个推理问题。或者,人们可能只是感兴趣在根据房屋的特征预测房屋的价值时:这所房子是被低估还是被高估?这是一个预测问题。”

通常在进行数据分析时,我们想象存在某种产生数据的“数据生成过程”,而推理是指了解该过程的结构,而预测意味着能够实际预测来自该过程的数据. 两者经常在一起,但并非总是如此。

两者齐头并进的一个例子是简单的线性回归模型

Yi=β0+β1xi+ϵi.

在这种情况下,推断意味着估计模型的参数β0β1我们的预测只是根据我们对这些参数的估计来计算的。但是还有其他类型的模型可以做出明智的预测,但该模型并不一定会导致对幕后发生的事情产生有意义的见解。这类模型的一些例子是复杂的集成方法,可以产生良好的预测,但有时很难或不可能理解。

预测使用估计的f来预测未来。假设你观察一个变量yt,也许是商店的收入。您想为您的业务制定财务计划,并且需要预测下一季度的收入。您怀疑收入取决于本季度人口的收入x1,t和一年中的时间x2,t. 所以,你假设它是一个函数:

yt=f(x1,t1,x2,t1)+εt

现在,如果你从 BEA 获得收入数据,比如个人可支配收入系列,并构造一年中的时间变量,你可以估计函数f,然后将人口收入的最新值和一年中的时间代入其中功能。这将产生对商店下一季度收入的预测。

推理使用估计函数f来研究因素对结果的影响,并做其他这种性质的事情。在我之前的示例中,您可能对一年中的季节在多大程度上决定了商店的收入感兴趣。所以,你可以看看偏导数f/x2t- 对季节的敏感性。如果f实际上是一个线性模型,那么它将是第二个变量的回归系数β2x2,t1.

预测和推理可以使用相同的估计过程来确定f,但是它们对这个过程和输入数据有不同的要求。一个众所周知的情况是所谓的共线性,而您的输入变量彼此高度相关。例如,您测量肥胖者的体重、身高和腹围。这些变量很可能是强相关的,但不一定是线性的。发生这种情况时,共线性对于推理来说可能是一个严重的问题,但对预测来说只是一个烦恼原因是当预测器x是相关的,很难将预测变量的影响与其他预测变量的影响区分开来。对于预测,这无关紧要,您只关心预测的质量。