PAC 学习理论和输入样本量的下界

机器算法验证 机器学习 分类 二进制数据 pac学习
2022-04-05 17:32:41

我正在尝试回答以下问题:“我需要多少(二进制)数据才能让我的学习者至少看到数据集的每个变量一次?” 在我的设置中,我提供了我的算法二进制向量(即所有元素都等于 1 或 0),这些向量具有已知的“密度”(平均数量)——为了回答这个问题——是均匀恒定(好的)或遵循长尾分布(更好)。我曾尝试从组合学的角度来看待它,但这比预期的要难。我想这个问题之前一定有人问过,但到目前为止我还没有找到任何参考资料。

在Valiant的“可学习的理论”中,我读到:

令 L(h,S) 为最小整数,使得L(h,S) 独立的伯努利试验,每个试验至少有概率h1成功的概率小于S成功率小于h1. [...] 命题:对于所有整数S>1而且都是真实的h>1.

L(h,S)2h(S+ln(h))

这可以转化为我的问题的上限,因为假设每个特征都来自独立的伯努利试验,而不是下限。有谁知道其他相关工作可以将我指向下限?

1个回答

要回答我自己的问题,当您假设所有变量都是均匀分布时,很容易得到一个下限。那么这个事件(我们称它为A)的概率变为:

(一个)=1-(X1=0,X2=0,,Xn=0)=1-(X一世=0)=1-[(nķ)θķ(1-θ)n-ķ]=

通过将伯努利分布与先验 Beta 分布相结合,可以找到非均匀分布的解决方案。