泛化错误定义
数据挖掘
机器学习
深度学习
pac学习
2021-10-11 04:22:36
1个回答
世界某处存在一个分布 你可以从中抽取一些样本 . 符号 简单地说,样本 来自被记录为的特定分布 (例如正态分布或泊松分布,还有海滩图像的可能像素值)。
假设您有一些基本事实函数,将其标记为 , 给定一个样本 给你它的真实标签(比如值 1)。此外,你有一些你自己的功能, 给定一些输入,它会输出一些标签。
现在考虑到这一点,风险定义非常直观:它只是简单地“计算”次数 和 不同意标签。为此,您(理想情况下)将
- 检查每个样本 在您的发行版中(即 )。
- 运行它 (IE ) 并获得一些标签 .
- 运行它 (IE ) 并获得一些标签 .
- 检查是否 . 如果是这样,您将 1 添加到您的计数中(即- 注意指标功能)
现在最后要注意的是我在上面写了“计数”,但我们并不真正关心数字是 500 还是 100,我们关心错误的相对数量(比如检查的样本的 40% 或 5%分类不同)。这就是为什么它被称为期望值()。
让我知道这是否足够清楚:-)
其它你可能感兴趣的问题