我正在为本科生读一本关于机器学习的书。我实际上对线性回归的灵活性感到困惑,比如:
有时,线性回归无法为数据集恢复良好的解决方案。虽然这可能是因为我们的数据实际上没有预测能力,但也可能只是表明我们的数据是以不适合线性回归的格式提供的。
我在这里阅读了一些与预测能力相关的问题,我注意到这完全与生成的模型有关。当我们谈论数据集的预测能力时,我们的意思是什么?
我认为这是因为特征之间没有关系(因为线性回归旨在学习输入之间的关系和输出)。但我还不相信这个答案。
我正在为本科生读一本关于机器学习的书。我实际上对线性回归的灵活性感到困惑,比如:
有时,线性回归无法为数据集恢复良好的解决方案。虽然这可能是因为我们的数据实际上没有预测能力,但也可能只是表明我们的数据是以不适合线性回归的格式提供的。
我在这里阅读了一些与预测能力相关的问题,我注意到这完全与生成的模型有关。当我们谈论数据集的预测能力时,我们的意思是什么?
我认为这是因为特征之间没有关系(因为线性回归旨在学习输入之间的关系和输出)。但我还不相信这个答案。
通常预测能力是指模型,而不是数据。我偶尔会看到一些人以您的书作者使用它的方式使用它(例如,请参见this)。
在您的书中,是的,预测能力是指输入是否可以映射到目标输出. 我们可以通过尝试对其建模(例如线性回归)来推断数据集的“预测能力”。如果模型表现不佳,那么正如书中所说,有两种可能性:要么数据集没有预测性(即它不提供从输入到目标输出的清晰映射),要么我们使用的方法不适合对映射进行建模。
这两种情况的一些例子:
如果您生成随机数据和,结果数据集(可能)没有预测能力,因为没有模型可以合理地概括映射.
如果你有一个非线性映射,那么线性回归就不能很好地拟合它。例如,如果我们的数据集是这样的映射到和所有其他输入映射到,那么我们的数据集具有极强的预测性,但我们的线性回归模型无法拟合它(因为映射是非线性的)。在这个玩具示例中,很容易看到数据集的预测能力,特别是如果输入是 2D/3D 的,因为我们可以绘制它。但是,使用实际数据在高维空间中手动观察此类趋势可能非常困难,因此我们使用您正在学习的工具来帮助解释数据。此外,当存在非线性时,很难对数据集本身进行统计评估。具有线性关系的变量易于关联(例如 Pearson 相关系数),但非线性会使关联变得困难。我认为这就是为什么你的书遵循模糊的术语,因为它可能是出于教学而非迂腐的目的。毕竟,
我认为与其询问数据集的预测能力,不如直接询问模型的预测能力。我的推理如下;
数据集可以是单变量、双变量或多变量类型。数据集只能包含数字特征或分类特征或两者兼而有之。假设有一个具有负偏态分布的单变量数据集。在这种情况下,平均值、中位数将小于众数。现在假设这个单变量数据集由连续数据类型组成。知道它的分布是负偏态的,已经为分析师提供了关于其对称性或分布的线索。因此,在此简要介绍的基础上,作为分析师,我是否有兴趣了解数据集或我使用此数据集构建的模型的预测能力,这是一个值得讨论的问题吗?
文献中有几项研究讨论了模型的预测能力,如 1、2、3(参见参考资料)。相比之下,我没有遇到任何讨论过数据集预测能力的研究。或许是未来的研究方向。
然而,我确实发现一篇发表在R-bloggers上的文章讨论了 a predictive power score
,这个概念有点类似于相关系数。
最后是关于mapping
. 我认为一个更好的术语可能是“相关性”,它至少量化了两个变量 X 和 Y 之间的关系。
笔记
在stats.stackexchange.com上提出了类似的问题。其中的评论符合我最初的疑问,即不存在数据集的预测能力。
参考