数据挖掘 - 如果不能在整个数据集上构建线性模型，是否可以在数据集的“块”上构建线性模型？ - 吾爱随笔录

数据挖掘大数据线性回归

2021-10-02 14:56:08

如果不能在整个数据集上构建线性模型，是否可以在数据集的“块”上构建线性模型？

特别是，我仍然有超过 88k 的变量（特征），如果没有大量内存，我无法对它们做很多事情。但是在“块”上做模型会丢失块之间发生的交互，还是有一些技术可以“聚合”这些？

1个回答

如果“变量”指的是训练示例：

您可以使用随机梯度下降 (SGD)，其中每次迭代使用一个训练示例。

或者您可以使用小批量梯度下降，其中每次迭代都使用训练集的一个分区。SGD 是 Mini-Batch Gradient Descent，其中分区大小是一个训练示例。

您应该使用降维来减少特征数量。例如，您可以使用主成分分析 (PCA)来减小特征向量大小，同时保持高方差。这也将帮助您的模型训练得更快。

其它你可能感兴趣的问题