机器算法验证 - 关于学习数据的硬度 - 吾爱随笔录

关于学习数据的硬度

机器算法验证机器学习推理

2022-03-13 14:17:48

几乎在所有讨论统计学习定理的文章中，他们都假设分析任意未知分布（最坏的情况）。但在实践中，不同的问题（不同的数据）具有不同的难度，例如线性可分离数据比难以（或不可）被超平面分离的数据更容易学习。是否有任何关于形式化数据硬度的工作（类似于复杂性理论中所做的工作）

注意：我不确定是否与分析 VC 维度相同，但我认为不是。

2个回答

实例硬度的概念可能会解决您正在寻找的内容。实例硬度假设数据集中的每个实例都有一个硬度属性，表明它被监督学习算法错误分类的可能性。从某种意义上说，实例硬度着眼于每个个体的硬度，而不是数据的硬度。但是，可以聚合实例硬度以从本质上表征数据集的硬度。但是，与所有聚合方法一样，聚合数据时会丢失一些信息。希望这可以给你一些方向。

统计学习理论通常处理样本复杂性，即我需要多少样本才能产生具有高概率的低误差假设。更具体地说，如果是一组样本，而作为输入时某些学习算法返回的假设，那么通常会生成以下形式的语句如果对于某些。 $S$ $h_S$ $S$

P (err (h_{S}) \leq ϵ) \geq 1 - δ

$P(\text{err}(h_S)\le \epsilon) \ge 1 - \delta$

| S | \geq m

$|S| \ge m$

m = poly (1 / ϵ, 1 / δ)

$m = \text{poly}(1/\epsilon, 1/\delta)$

在上面我们完全忽略了是如何生成的。计算学习理论是处理这些类型的计算问题的领域。例如，可能需要生成的算法在时间中运行，请注意，以上是实现这一点的必要条件。其他常见的研究是如果算法可以访问不同的信息会发生什么（成员查询允许学习算法查询预言机以获取它选择的点标签），学习者在在线学习中犯了多少错误，如果反馈是有限的，如强化学习等。 $h_S$ $h_S$ $\text{poly}(1/\epsilon, 1/\delta)$

还有很多，而且这是一个令人着迷的领域，但我不会列出它们，而是向您介绍Kearns 和 Vazirani的《计算学习理论导论》一书，这是对该主题的一个很好的介绍。

其它你可能感兴趣的问题

上一篇哈密顿蒙特卡罗：为什么需要重新参数化？下一篇连续变量的拟合优度