机器算法验证 - 海量数据集的回归分析 - 吾爱随笔录

海量数据集的回归分析

机器算法验证回归大数据

2022-04-15 17:37:19

我有一个庞大的数据集，包括大约 5,000,000 个点。有 4 个自变量和两个高度相关的因变量。

我应该如何进行回归分析？

@StephanKolassa 告诉我进行交叉验证实验，并使用 MAD 作为衡量标准，从多个备选方案中选择最佳模型。这是一个非常好的建议。但问题是，如何获得“几种替代模式”？推荐什么方法或统计软件？谢谢！

我的自变量是行星际条件分量，因变量是极光椭圆边界的纬度。

到目前为止，具体的关系在物理原理上仍然是未知的，我们要做的是从海量数据中得到一个模型，显示这些自变量如何影响因变量。

2个回答

要记住的主要事情是，有了这么多的数据，每个系数都可能具有统计意义。

为了找出真正重要的回归量（与统计显着性相比），我建议使用保留样本：仅将您的模型拟合到 400 万个数据点，预测其他 100 万个点并与实际值进行比较。对几个不同的模型（使用或不使用回归器、转换回归器等）执行此操作，并查看哪些模型产生最佳预测，例如通过计算预测和实际观察之间的平均绝对偏差 (MAD)。

更好的是：在整个数据集上迭代五次，每次使用不同的百万点作为保留样本。这被称为“交叉验证”（在这种情况下为五折交叉验证）。

您有 6 个变量和 500 万个数据点。因此，您的数据集将占用大约半 GB 的内存（）。所以对于现在通常以 4GB RAM 作为标准的计算机来说，它并没有那么大。我想说的是，尽管您的数据很大，但并不庞大，因此您可以进行通常的回归分析。 $\frac{5\cdot 10^6\cdot16}{1024^2}\cdot 6$

其它你可能感兴趣的问题

上一篇R输出是否可靠（特别是IRT包ltm）下一篇CLT 与数据条件（正态假设）有何关系？