海量数据集的回归分析

机器算法验证 回归 大数据
2022-04-15 17:37:19

我有一个庞大的数据集,包括大约 5,000,000 个点。有 4 个自变量和两个高度相关的因变量。

我应该如何进行回归分析?

@StephanKolassa 告诉我进行交叉验证实验,并使用 MAD 作为衡量标准,从多个备选方案中选择最佳模型。这是一个非常好的建议。但问题是,如何获得“几种替代模式”?推荐什么方法或统计软件?谢谢!

我的自变量是行星际条件分量,因变量是极光椭圆边界的纬度。

到目前为止,具体的关系在物理原理上仍然是未知的,我们要做的是从海量数据中得到一个模型,显示这些自变量如何影响因变量。

2个回答

要记住的主要事情是,有了这么多的数据,每个系数都可能具有统计意义。

为了找出真正重要的回归量(与统计显着性相比),我建议使用保留样本:仅将您的模型拟合到 400 万个数据点,预测其他 100 万个点并与实际值进行比较。对几个不同的模型(使用或不使用回归器、转换回归器等)执行此操作,并查看哪些模型产生最佳预测,例如通过计算预测和实际观察之间的平均绝对偏差 (MAD)。

更好的是:在整个数据集上迭代五次,每次使用不同的百万点作为保留样本。这被称为“交叉验证”(在这种情况下为五折交叉验证)。

您有 6 个变量和 500 万个数据点。因此,您的数据集将占用大约半 GB 的内存()。所以对于现在通常以 4GB RAM 作为标准的计算机来说,它并没有那么大。我想说的是,尽管您的数据很大,但并不庞大,因此您可以进行通常的回归分析。510616102426