“减少例子的数量”是什么意思,为什么会这样?

人工智能 分类 文件 逻辑回归 选择偏差
2021-10-25 02:13:08

我目前正在研究Bianca Zadrozny的论文Learning and Evaluating Classifiers under Sample Selection Bias在第3.2 节中。逻辑回归,作者说如下:

3.2. 逻辑回归 在逻辑回归中,我们使用最大似然来找到参数向量β以下型号:

P(y=1x)=11+exp(β0+β1x1++βnxn)
使用样本选择偏差,我们将改为拟合:
P(y=1x,s=1)=11+exp(β0+β1x1++βnxn)
然而,因为我们假设y独立于s给定x我们有P(y=1x,s=1)=P(y=1x). 因此,逻辑回归不受样本选择偏差的影响,除了样本数量减少的事实。渐近地,只要P(s=1x)大于零x,选定样本的结果接近随机样本的结果。事实上,对于任何建模的学习者来说都是如此P(yx)直接地。这些都是本地学习者。

这部分我不清楚:

然而,因为我们假设y独立于s给定x我们有P(y=1x,s=1)=P(y=1x). 因此,逻辑回归不受样本选择偏差的影响,除了样本数量减少的事实。

“减少例子的数量”是什么意思,为什么会这样?

1个回答

我认为他的意思是,虽然分配P(yx,s)有三个变量,P(yx)有两个变量。描述分布(或近似分布的样本)所需的参数数量随变量数量呈指数增长(有关更多信息,请参见例如 Ian goodfellow,.. 深度学习”)。