在训练 IMDB 电影评论数据集进行情感分析时,如果我将特征设置为 20,000 以上,模型会出现内存错误。有没有办法通过内存错误?
Python在使用各种矢量化器将文本拟合到矢量时出现内存错误
数据挖掘
机器学习
Python
scikit-学习
2022-02-18 14:43:19
2个回答
要回答这个问题,您需要获取并向我们提供更多信息,如果不知道 OOM 被抛出的位置以及内存配置文件的外观,就没有机会提供建议。您也可以在错误来源部分以外的其他部分调整程序的内存使用情况,以提高限制。
只需一个提示即可解决无需获得更多物理内存的原因:有时您可以“延迟加载”大型数据源。逐条记录或逐块获取它,然后对其进行处理,并将结果写入接收器,然后再将下一条记录放入内存。这是通过 python 生成器完成的,注意使用关键字“yield”而不是 return。 https://stackoverflow.com/questions/1756096/understanding-generators-in-python
此外,对于某些任务,您可能最好使用低级库,请参见http://www.nltk.org/book/ch06.html 2.4
为了克服训练期间的内存不足错误,您可以减少用于训练的批量大小,或者如果您有一个大数据集,您可以使用 h5py 矩阵。
其它你可能感兴趣的问题