数据挖掘 - Python在使用各种矢量化器将文本拟合到矢量时出现内存错误 - 吾爱随笔录

Python在使用各种矢量化器将文本拟合到矢量时出现内存错误

数据挖掘机器学习 Python scikit-学习

2022-02-18 14:43:19

在训练 IMDB 电影评论数据集进行情感分析时，如果我将特征设置为 20,000 以上，模型会出现内存错误。有没有办法通过内存错误？

2个回答

要回答这个问题，您需要获取并向我们提供更多信息，如果不知道 OOM 被抛出的位置以及内存配置文件的外观，就没有机会提供建议。您也可以在错误来源部分以外的其他部分调整程序的内存使用情况，以提高限制。

只需一个提示即可解决无需获得更多物理内存的原因：有时您可以“延迟加载”大型数据源。逐条记录或逐块获取它，然后对其进行处理，并将结果写入接收器，然后再将下一条记录放入内存。这是通过 python 生成器完成的，注意使用关键字“yield”而不是 return。 https://stackoverflow.com/questions/1756096/understanding-generators-in-python

此外，对于某些任务，您可能最好使用低级库，请参见http://www.nltk.org/book/ch06.html 2.4

为了克服训练期间的内存不足错误，您可以减少用于训练的批量大小，或者如果您有一个大数据集，您可以使用 h5py 矩阵。

其它你可能感兴趣的问题

上一篇当我们不能信任我们的人类分类器时该怎么办？下一篇使用随机梯度下降无法正确预测：总是预测 1