sk-learn - ValueError:数组太大。

数据挖掘 大数据 scikit-学习
2022-02-11 17:46:23

我有一个包含字符和 90000 个实例的大型数据集,当我在 plot_kmeans_digits.py 代码之前有以下代码时,出现错误ValueError: array is too big :

data2=list(csv.DictReader(open('C:\diabeticdata.csv', 'rU'))) vec = DictVectorizer() data = vec.fit_transform(data2).toarray()

你知道我该如何解决这个错误吗?

提前致谢。

1个回答

问题是您正在通过 . 将大型稀疏数据集转换为密集数组toarray()不要那样做 :) 为什么需要密集数组格式?尝试发布更多代码,看看我们是否能找到解决问题的更好方法。对于任何大型数据集,您都希望尽可能长时间地保持稀疏,并且只使用较小的密集数据集(如果需要密集数据)。