假设我们有一些人口,我们获得该人口的“代表性”随机样本( y_i,其中非常大(数百万)并且是响应的多元预测器。
在处理大型现代数据集时,这种情况相当普遍,但仍然假设我们想使用(比如说)回归对数据进行一些有意义的推断。
假设我们的计算能力有限,一种方法是从较大的数据中抽取随机样本。也就是说,我们可以从,其中。
假设这个子样本代表了更大的样本,我们可以使用子样本来推断更大的原始总体吗?
我的想法是,是的,这是可行的,我们从子样本得出的回归系数应该反映较大样本的系数,这样我们就可以对总体进行推断,尽管方差略高。但是如果子样本足够大(比如一百万?),那么这个方差应该不会有那么大的问题,因为大多数形式的回归都是一致的,而且我们正在处理大量数据点。想法?
编辑:在我使用“代表”这个词时,我发现了这个线程:
也许作为一个工作定义,我们可以说样本是在没有偏见的情况下从总体中抽取的。或者也许:如果我们可以对整个数据进行回归拟合,我们将得到的无偏估计。如果样本没有“代表性”,那么估计自然会有一些偏差,不是吗?
第二个问题:这个问题的可能答案将如何根据我们所说的代表的含义而改变?
关于“随机”这个词:如果我们非常大的数据集由通过随机样本获得的数据点组成,那么我认为二次抽样没有问题,但当然,我想听听其他人对此的看法。如果抽样机制不完全清楚怎么办?我们还能取一个简单的随机子样本吗?
更一般地说,在什么条件下子样本会导致对总体的正确推断?