如果不能在整个数据集上构建线性模型,是否可以在数据集的“块”上构建线性模型?

数据挖掘 大数据 线性回归
2021-10-02 14:56:08

如果不能在整个数据集上构建线性模型,是否可以在数据集的“块”上构建线性模型?

特别是,我仍然有超过 88k 的变量(特征),如果没有大量内存,我无法对它们做很多事情。但是在“块”上做模型会丢失块之间发生的交互,还是有一些技术可以“聚合”这些?

1个回答

如果“变量”指的是训练示例:

您可以使用随机梯度下降 (SGD),其中每次迭代使用一个训练示例。

或者您可以使用小批量梯度下降,其中每次迭代都使用训练集的一个分区。SGD 是 Mini-Batch Gradient Descent,其中分区大小是一个训练示例。


如果“变量”指的是特征:

您应该使用降来减少特征数量。例如,您可以使用主成分分析 (PCA)来减小特征向量大小,同时保持高方差。这也将帮助您的模型训练得更快。