PAC 学习什么?

数据挖掘 机器学习 pac学习
2022-01-29 15:58:59

我在这里见过,但我真的无法意识到这一点。

在这个框架中,学习者接收样本并且必须从某一类可能的函数中选择一个泛化函数(称为假设)。目标是,以高概率(“可能”部分),所选函数将具有低泛化误差。

实际上,我们在每一种机器学习情况下都会这样做,并且我们会在后面的部分中避免过度拟合。为什么我们称其为 PAC 学习?
我也没有得到数学的含义。有没有人可以帮忙?

1个回答

PAC 代表可能近似正确这是计算机科学中一个非常常见的研究领域,用于寻找某些假设集的可学习性证据。

通常的假设集不是分布(如统计学),而是更合乎逻辑的公式,如DNFCNFDFA等。

为了证明可学习性,您需要证明对于每个样本分布,对于每个概念h在假设类H, 对于每个λ(概率部分)并且对于每个ϵ(大约部分)你可以找到一个假设h这样至少有概率1λ之间的分歧hh会小于ϵ.

这个学习标准非常高,一些研究证明了许多简单假设集的负面结果。

当您尝试学习区分猫和狗时,您没有假设集的数学定义。大多数出版物在数据集上运行算法并显示其结果。几乎没有人证明算法是正确的(即使给出了一些假设)。我觉得缺乏证据非常可悲。

PAC 背后的数学实际上是概率。假设您有两个立方体(分类器、概念)并且您想知道它们的相关性。所以,你把它们扔在一起m次,您检查分歧的程度,epsilon。越高的m并且越低ϵ,您越有信心这是由于相关性而不是由于错误,λ. 鉴于这种直觉,PAC 学习通常在另一个方向上起作用。一旦您声明了所需的 lambda 和 epsilon,算法就会提供样本数m需要到达他们。