哪种类型的机器学习算法在外推方面表现更好(通常)

数据挖掘 机器学习 预测建模 核心
2022-03-12 23:17:45

假如说:

  1. 问题出在自然科学领域,即变量之间的关系是基于物理的,不会因上下文而改变
  2. 它是一个基于回归的模型

与神经网络等相比,假设内核化方法(例如 SVM)对于未知的预测变量组合表现更好,这是否正确?

据我了解,当新输入超出最初训练的分布时,许多 ML 模型通常无法提供准确的预测。例如,基于树的方法,如随机森林,但如果新变量不可用,则在训练的预测器组合上提供出色的输出时会失败。另一方面,内核(尤其是线性)将决策边界投射到初始训练点的空间之外。因此假设,内核投影的阈值/边界有助于为看不见的组合保持更好的准确性。

1个回答

这是一个反问。如果不查看数据及其分布,你不能说某个模型会表现得更好。例如,如果大多数数据与标签具有线性关系,那么线性回归或线性模型“可能”会更好。

通常最好的策略是尝试数据集上的所有模型,看看哪个表现更好!