几乎在所有讨论统计学习定理的文章中,他们都假设分析任意未知分布(最坏的情况)。但在实践中,不同的问题(不同的数据)具有不同的难度,例如线性可分离数据比难以(或不可)被超平面分离的数据更容易学习。是否有任何关于形式化数据硬度的工作(类似于复杂性理论中所做的工作)
注意:我不确定是否与分析 VC 维度相同,但我认为不是。
几乎在所有讨论统计学习定理的文章中,他们都假设分析任意未知分布(最坏的情况)。但在实践中,不同的问题(不同的数据)具有不同的难度,例如线性可分离数据比难以(或不可)被超平面分离的数据更容易学习。是否有任何关于形式化数据硬度的工作(类似于复杂性理论中所做的工作)
注意:我不确定是否与分析 VC 维度相同,但我认为不是。
实例硬度的概念可能会解决您正在寻找的内容。实例硬度假设数据集中的每个实例都有一个硬度属性,表明它被监督学习算法错误分类的可能性。从某种意义上说,实例硬度着眼于每个个体的硬度,而不是数据的硬度。但是,可以聚合实例硬度以从本质上表征数据集的硬度。但是,与所有聚合方法一样,聚合数据时会丢失一些信息。希望这可以给你一些方向。
统计学习理论通常处理样本复杂性,即我需要多少样本才能产生具有高概率的低误差假设。更具体地说,如果是一组样本,而作为输入时某些学习算法返回的假设,那么通常会生成以下形式的语句 如果对于某些。
在上面我们完全忽略了是如何生成的。计算学习理论是处理这些类型的计算问题的领域。例如,可能需要生成的算法在时间中运行,请注意,以上是实现这一点的必要条件。其他常见的研究是如果算法可以访问不同的信息会发生什么(成员查询允许学习算法查询预言机以获取它选择的点标签),学习者在在线学习中犯了多少错误,如果反馈是有限的,如强化学习等。
还有很多,而且这是一个令人着迷的领域,但我不会列出它们,而是向您介绍Kearns 和 Vazirani的《计算学习理论导论》一书,这是对该主题的一个很好的介绍。