泛化错误定义

数据挖掘 机器学习 深度学习 pac学习
2021-10-11 04:22:36

我正在阅读PAC framework并面临Generalization Error. 该书将其定义为:

给定假设 h ∈ H、目标概念 c ∈ C 和基础分布 D,h 的泛化误差或风险定义 为目标概念 c 未知。但是,学习器可以测量标记样本 S 上假设的经验误差。
在此处输入图像描述

我无法理解方程式。谁能告诉我如何解释它?还有什么是x~D?

编辑:我如何正式写这个词?是这样的

ExD[1h(x)c(x)]=X1h()c()(ω)dD(ω)
正确还是我需要定义一些随机变量?此外,为了表明经验误差
R^(h)=1mi=1m1h(xi)c(xi)
是公正的,我们有
ESDm[R^(h)]=1mi=1mESDm [1h(xi)c(xi)]=1mi=1mESDm [1h(x)c(x)]
,但是我们如何正式得到
ESDm [1h(x)c(x)]=EXD [1h(x)c(x)]=R(h)

我想我直觉地理解它,但我不能正式写下来。任何帮助深表感谢!

1个回答

世界某处存在一个分布 D 你可以从中抽取一些样本 x. 符号xD 简单地说,样本 x 来自被记录为的特定分布 D (例如正态分布或泊松分布,还有海滩图像的可能像素值)。

假设您有一些基本事实函数,将其标记为 c, 给定一个样本 x给你它的真实标签(比如值 1)。此外,你有一些你自己的功能,h 给定一些输入,它会输出一些标签。

现在考虑到这一点,风险定义非常直观:它只是简单地“计算”次数 ch不同意标签。为此,您(理想情况下)将

  • 检查每个样本 x 在您的发行版中(即 xD)。
  • 运行它 c (IE c(x)) 并获得一些标签 y.
  • 运行它 h (IE h(x)) 并获得一些标签 y^.
  • 检查是否 yy^. 如果是这样,您将 1 添加到您的计数中(即1h(x)c(x)- 注意指标功能

现在最后要注意的是我在上面写了“计数”,但我们并不真正关心数字是 500 还是 100,我们关心错误的相对数量(比如检查的样本的 40% 或 5%分类不同)。这就是为什么它被称为期望值(E)。

让我知道这是否足够清楚:-)