我有一个相当大的文件,有 100M 行和 30 列左右,我想在上面运行多个回归。我有专门的代码来对整个文件运行回归,但我想做的是从文件中抽取随机样本并在 R 中运行它们。策略是:从文件中随机抽样 N 行而不替换运行回归和保存感兴趣的系数 用不同的样本为每个系数重复此过程 M 次,计算 M 次运行中系数的均值和标准误差。
我想将在 M 次运行中计算的平均值解释为对整个数据集计算的系数值的估计,并将平均值的标准误差解释为对整个数据集计算的系数的标准误差的估计。
实验表明这是一个很有前途的策略,但我不确定基本理论。我的估算器是否始终如一地高效且公正?如果它们是一致的,它们应该以多快的速度收敛?M 和 N 的最佳权衡是什么?
如果有人能用相关理论指出我的论文、书籍等,我将不胜感激。
最好的问候和非常感谢,
乔·里克特