机器学习研究论文通常将学习和推理视为两个独立的任务,但我不太清楚区别是什么。例如,在本书中,他们对这两种任务都使用了贝叶斯统计,但没有提供区分的动机。我有几个模糊的想法可能是什么,但我希望看到一个可靠的定义,也许还有我的想法的反驳或扩展:
- 为某个数据点推断潜在变量的值与为数据学习合适的模型之间的区别。
- 提取方差(推理)和学习不变性以便能够提取方差(通过学习输入空间/过程/世界的动态)之间的区别。
- 神经科学的类比可能是短期增强/抑郁(记忆痕迹)与长期增强/抑郁。
机器学习研究论文通常将学习和推理视为两个独立的任务,但我不太清楚区别是什么。例如,在本书中,他们对这两种任务都使用了贝叶斯统计,但没有提供区分的动机。我有几个模糊的想法可能是什么,但我希望看到一个可靠的定义,也许还有我的想法的反驳或扩展:
我同意 Neil G 的回答,但也许这种替代措辞也有帮助:
考虑设置一个简单的高斯混合模型。在这里,我们可以将模型参数视为混合模型的一组高斯分量(它们的每一个均值和方差,以及每一个在混合中的权重)。
给定一组模型参数,推理是识别哪个组件可能生成单个给定示例的问题,通常以每个组件的“责任”的形式。在这里,潜在变量只是生成给定向量的组件的唯一标识符,我们正在推断可能是哪个组件。(在这种情况下,推理很简单,尽管在更复杂的模型中它变得相当复杂。)
学习是在给定模型中的一组样本的情况下,识别最适合给定数据的模型参数(或模型参数的分布)的过程:选择高斯的均值、方差和权重。
期望最大化学习算法可以被认为是对训练集进行推理,然后在给定推理的情况下学习最佳参数,然后重复。推理通常以这种方式用于学习过程,但它也具有独立的意义,例如选择哪个组件在高斯混合模型中生成给定数据点,以决定隐藏马尔可夫模型中最可能的隐藏状态,在更一般的图形模型中估算缺失值,...
推理是基于单个输入选择配置。学习是根据一些训练示例选择参数。
在基于能量的模型框架(一种查看几乎所有机器学习架构的方法)中,推理选择一种配置来最小化能量函数,同时保持参数固定;学习选择参数以最小化损失函数。
正如 conjugateprior 指出的那样,其他人对同一件事使用不同的术语。例如 Bishop,使用“推理”和“决策”分别表示学习和推理。 因果推理意味着学习。但是,无论您决定使用哪个术语,这两个概念都是不同的。
神经学的类比是激发神经元的模式是一种配置;一组链接强度是参数。
这看起来像是经典的跨学科术语混淆。OP 似乎正在使用类似神经科学的术语,其中所讨论的两个术语可能具有不同的含义。但由于交叉验证通常处理统计和机器学习,我将尝试根据这些术语在这些领域的常见用法来回答这个问题。
在经典统计学中,推理只是将你对样本的了解和对样本(希望)具有代表性的总体做出数学陈述的行为。摘自 Casella & Berger (2002) 的经典教科书:“概率论的主题是构建所有统计数据的基础……通过这些模型,统计学家能够得出关于总体的推论,仅基于检验的推论整体的一部分”。因此,在统计学中,推理与 p 值、检验统计量和抽样分布等特别相关。
至于学习,我认为 Wasserman's All of Statistics (2003) 中的这张表可能会有所帮助:
奇怪的是没有人提到这一点,但只有在有概率分布的情况下才能进行推理。这里引用 Wiki,其中引用了牛津词典:
统计推断是使用数据分析来推断潜在概率分布属性的过程(牛津统计词典)
https://en.wikipedia.org/wiki/Statistical_inference
在传统的神经网络、k-NN 或 vanilla SVM 的情况下,您无法估计概率密度,也没有关于任何密度的假设,因此在那里没有统计推断。只有培训/学习。但是,对于大多数(所有?)统计程序,您可以同时使用推理和学习,因为这些程序对所讨论的人口分布有一些假设。