我有一个包含字符和 90000 个实例的大型数据集,当我在 plot_kmeans_digits.py 代码之前有以下代码时,出现错误ValueError: array is too big :
data2=list(csv.DictReader(open('C:\diabeticdata.csv', 'rU'))) vec = DictVectorizer() data = vec.fit_transform(data2).toarray()
你知道我该如何解决这个错误吗?
提前致谢。
我有一个包含字符和 90000 个实例的大型数据集,当我在 plot_kmeans_digits.py 代码之前有以下代码时,出现错误ValueError: array is too big :
data2=list(csv.DictReader(open('C:\diabeticdata.csv', 'rU'))) vec = DictVectorizer() data = vec.fit_transform(data2).toarray()
你知道我该如何解决这个错误吗?
提前致谢。
问题是您正在通过 . 将大型稀疏数据集转换为密集数组toarray()。不要那样做 :) 为什么需要密集数组格式?尝试发布更多代码,看看我们是否能找到解决问题的更好方法。对于任何大型数据集,您都希望尽可能长时间地保持稀疏,并且只使用较小的密集数据集(如果需要密集数据)。