我有一个庞大的数据集,包括大约 5,000,000 个点。有 4 个自变量和两个高度相关的因变量。
我应该如何进行回归分析?
@StephanKolassa 告诉我进行交叉验证实验,并使用 MAD 作为衡量标准,从多个备选方案中选择最佳模型。这是一个非常好的建议。但问题是,如何获得“几种替代模式”?推荐什么方法或统计软件?谢谢!
我的自变量是行星际条件分量,因变量是极光椭圆边界的纬度。
到目前为止,具体的关系在物理原理上仍然是未知的,我们要做的是从海量数据中得到一个模型,显示这些自变量如何影响因变量。