如果不能在整个数据集上构建线性模型,是否可以在数据集的“块”上构建线性模型?
特别是,我仍然有超过 88k 的变量(特征),如果没有大量内存,我无法对它们做很多事情。但是在“块”上做模型会丢失块之间发生的交互,还是有一些技术可以“聚合”这些?
如果不能在整个数据集上构建线性模型,是否可以在数据集的“块”上构建线性模型?
特别是,我仍然有超过 88k 的变量(特征),如果没有大量内存,我无法对它们做很多事情。但是在“块”上做模型会丢失块之间发生的交互,还是有一些技术可以“聚合”这些?
您可以使用随机梯度下降 (SGD),其中每次迭代使用一个训练示例。
或者您可以使用小批量梯度下降,其中每次迭代都使用训练集的一个分区。SGD 是 Mini-Batch Gradient Descent,其中分区大小是一个训练示例。
您应该使用降维来减少特征数量。例如,您可以使用主成分分析 (PCA)来减小特征向量大小,同时保持高方差。这也将帮助您的模型训练得更快。