我正在阅读“统计学习导论”。在第 2 章中,他们讨论了估计函数的原因。
2.1.1 为什么要估计?
我们可能希望估计f的主要原因有两个:预测和推理。我们依次讨论。
我已经阅读了几次,但我仍然部分不清楚预测和推理之间的区别。有人可以提供差异的(实际)示例吗?
我正在阅读“统计学习导论”。在第 2 章中,他们讨论了估计函数的原因。
2.1.1 为什么要估计?
我们可能希望估计f的主要原因有两个:预测和推理。我们依次讨论。
我已经阅读了几次,但我仍然部分不清楚预测和推理之间的区别。有人可以提供差异的(实际)示例吗?
推断:给定一组数据,您想推断输出是如何作为数据的函数生成的。
预测:给定一个新的测量值,您希望使用现有数据集来构建一个模型,该模型可以从一组结果中可靠地选择正确的标识符。
推论:您想了解年龄、乘客等级和性别对在泰坦尼克号灾难中幸存的影响。您可以进行逻辑回归并推断每个乘客特征对存活率的影响。
预测:给定一些关于泰坦尼克号乘客的信息,你想从集合中选择并尽可能多地正确。(如果您想知道如何尽可能多地正确,请参阅预测的偏差-方差权衡。)
预测并不围绕在输入和输出之间建立最准确的关系,准确的预测关心的是尽可能多地将新的观察结果放入正确的类中。
因此,“实际示例”粗略地归结为以下差异:给定单个乘客的一组乘客数据,推理方法为您提供幸存的概率,分类器为您提供生或死的选择。
调整分类器是一个非常有趣且至关重要的话题,就像正确解释 p 值和置信区间一样。
在本书的第 20 页,作者提供了一个漂亮的例子,让我理解了其中的区别。
这是书中的一段:统计学习简介
“例如,在房地产环境中,人们可能会寻求将房屋价值与犯罪率、分区、与河流的距离、空气质量、学校、社区收入水平、房屋大小等输入值联系起来。在这种情况下,人们可能会对单个输入变量如何影响价格感兴趣——也就是说,如果房子能看到河流,它会多值多少?这是一个推理问题。或者,人们可能只是感兴趣在根据房屋的特征预测房屋的价值时:这所房子是被低估还是被高估?这是一个预测问题。”
通常在进行数据分析时,我们想象存在某种产生数据的“数据生成过程”,而推理是指了解该过程的结构,而预测意味着能够实际预测来自该过程的数据. 两者经常在一起,但并非总是如此。
两者齐头并进的一个例子是简单的线性回归模型
在这种情况下,推断意味着估计模型的参数和我们的预测只是根据我们对这些参数的估计来计算的。但是还有其他类型的模型可以做出明智的预测,但该模型并不一定会导致对幕后发生的事情产生有意义的见解。这类模型的一些例子是复杂的集成方法,可以产生良好的预测,但有时很难或不可能理解。
预测使用估计的f来预测未来。假设你观察一个变量,也许是商店的收入。您想为您的业务制定财务计划,并且需要预测下一季度的收入。您怀疑收入取决于本季度人口的收入和一年中的时间. 所以,你假设它是一个函数:
现在,如果你从 BEA 获得收入数据,比如个人可支配收入系列,并构造一年中的时间变量,你可以估计函数f,然后将人口收入的最新值和一年中的时间代入其中功能。这将产生对商店下一季度收入的预测。
推理使用估计函数f来研究因素对结果的影响,并做其他这种性质的事情。在我之前的示例中,您可能对一年中的季节在多大程度上决定了商店的收入感兴趣。所以,你可以看看偏导数- 对季节的敏感性。如果f实际上是一个线性模型,那么它将是第二个变量的回归系数.
预测和推理可以使用相同的估计过程来确定f,但是它们对这个过程和输入数据有不同的要求。一个众所周知的情况是所谓的共线性,而您的输入变量彼此高度相关。例如,您测量肥胖者的体重、身高和腹围。这些变量很可能是强相关的,但不一定是线性的。发生这种情况时,共线性对于推理来说可能是一个严重的问题,但对预测来说只是一个烦恼。原因是当预测器是相关的,很难将预测变量的影响与其他预测变量的影响区分开来。对于预测,这无关紧要,您只关心预测的质量。