我很好奇是否有其他人遇到过这种情况。我有一个包含大约 350k 样本的数据集,每个样本都有 4k 稀疏特征。稀疏填充率约为 0.5%。数据存储在一个scipy.sparse.csr.csr_matrix对象中,带有dtype='numpy.float64'.
我将其用作 sklearn 的逻辑回归分类器的输入。文档表明稀疏 CSR 矩阵是该分类器可接受的输入。但是,当我训练分类器时,我的记忆性能非常差;我的进程的内存使用量从约 150 MB 爆炸式增长,以填满所有可用内存,然后随着内存交换到磁盘的接管,一切都停止了。
有谁知道为什么这个分类器可能会将稀疏矩阵扩展到密集矩阵?我目前在更新的 anacoda 分布中使用分类器的默认参数。谢谢!
scipy.__version__ = '0.14.0'
sklearn.__version__ = '0.15.2'