监督机器学习和实验设计之间的区别?

机器算法验证 机器学习 数理统计 实验设计
2022-03-16 08:05:08

我是一名训练有素的实验物理学家,使用标准统计方法分析数据,并使用实验设计 (DOE) 框架通过改变输入和测量输出来开发系统模型。

最近,我一直在研究机器学习的使用,并试图弄清楚 DOE 是否有任何效用/好处。

我希望这个论坛上的某个人可以验证我对监督机器学习的思考方式,或者指出我所缺少的。

我基本上得出的结论是,有监督的机器学习是一种计算系统传递函数的方法,因为训练数据是一组数据,它将输入集与输出的真实值连接起来。

尽管机器可以根据训练集计算出传递函数,但在传递函数的准确性或其他性能度量方面,DOE 和监督机器学习有什么区别?

4个回答

您的问题很难回答,因为没有“监督机器学习算法”。有大量不同的 ML 算法可以以有监督的方式进行优化,每种算法都有其优点和缺点。

在非常抽象的层面上,您可以将机器学习 (ML) 定义为在某个空间中搜索给定模型的参数化 ( ),使得给出最小值(尽管并非总是如此全局)用于成本函数()和输入()。更正式地说:PθMM(x;θ)Cx

argminθPC(M(θ))

对于监督学习,成本函数可以采用的一种形式是(给定作为基本事实):y

C(M(x;θ))=||M(x;θ)y||2

任何通过来最小化成本函数的搜索都适合这个框架,因此如果你愿意,你可以将 DOE 声明为 ML 算法。具体来说,ML 算法由以下因素定义:采用的优化技术、使用的模型和成本函数。如果为 DOE 填写这些内容,则可以开始将其与其他 ML 算法进行比较。P

用“回归分析”代替“监督机器学习”,你会发现你的问题很难回答。根据您定义回归分析的范围,DOE 可能是该术语的一部分。

假设您计划使用回归分析来确定某种除草剂在田间的效率。第一步是设计实验。在这种情况下,我认为 DOE 与您的回归分析密不可分,它是其中的一部分。

在 ML 的许多应用中,您都获得了数据,并且无法对计划实验做太多事情,事实上,没有实验。例如,在 Kaggle 比赛中,一切通常都是预先设置好的,训练数据集是预先定义并给出的,测试数据集将在评估阶段给出,而你不能对这些事情做任何事情。这就是为什么在该领域没有大量提及 DOE 的原因。

但是,它不必是这种方式。假设您正在制造自动驾驶汽车。是的,像往常一样,您可以使用所有可用的数据集来训练您的 ML 视觉组件,所有带有交通标志和道路状况的图像,以及很好的标记等。这里真的不涉及 DOE。然而,一旦你走出初始阶段并进入现场测试,情况就会发生变化。DOE 解决的所有典型问题都出现了,例如,您需要 10 辆测试车还是 1,000 辆才能获得可靠的结果?在真正的街道上试用测试车之前,您是否需要在空旷的道路上行驶 1,000 英里或 1,000,000 英里?等等

ML 可能不一定将他们为规划开发所做的事情称为 DOE,但本质上它是 DOE。因此,您的问题的答案在于您定义 ML 术语的狭义或广义。它只是使用成本(损失)将函数拟合到数据吗?或者它是构建替代人类的可靠机器的更一般定义,这不仅包括拟合/优化,还包括 DOE 的某些方面。

我刚刚完成了实验设计的研究生课程,并开始学习机器学习......我敢打赌,这个网站上的人可以比我更好地回答这个问题,但希望这个答案可以。

实验设计 (ED) 和机器学习 (ML) 的核心是不同的目标。ED 的主要目标是评估治疗的影响,如果适用,比较不同治疗的影响ML 的主要目标是给出准确的预测

因此,这些不同的核心会影响每个主题的发展方式:

  • 在 ED 中,重点放在良好的设计上,以便减少(治疗参数估计的)可变性,有时需要满足预算限制我的 ED 教授曾经说过“统计学家总是因为要求大样本量而受到批评。如果你是一名研究导弹的统计学家,发射一枚导弹会花掉几百万美元。” 据我了解,由于预算限制,部分因子设计特别受欢迎。ED 的主要目标是治疗参数的统计推断
  • 在 ML 中,重点放在使用预测算法及其背后的问题(例如,计算复杂性、计算机软件/硬件问题等)上。

鉴于我在这两个方面的经验,我不会尝试比较这两个主题。这就像将苹果与橙子进行比较。

我认为提出问题的方式存在根本问题。DoE 本身并不为系统建模,DoE 的范围是有效地激发系统以使用有限的资源(时间和实验)获得最大量的信息。

机器学习(ML)有监督或无监督,是一种建模技术,旨在在已经收集的大量观测数据中找到关系。很像简单的回归是收集数据之后的步骤。

DoE 和强化学习方法之间可能存在一些相似之处,即 ML 本身能够移动系统中的参数以找到最佳拟合或最小化预定义的目标函数。在这种情况下,ML 模型正在执行某种 DoE 以获取更多信息并改进自身。