我有一个由 TfidfVectorizer 创建的稀疏矩阵,其大小为。我想将转换为数据框,但总是出现内存错误。
我试过
pd.DataFrame(X.toarray(), columns=tokens)
和
pd.read_csv(X.toarray().astype("float32"), columns=tokens, chunksize=...).
似乎当我使用 将转换为 numpy 数组 时,出现错误。X.toarray()
有人能告诉我什么是一个简单的解决方案吗?创建一个稀疏数据帧而不会出现内存错误?
我一直在 Google Colab Pro 上运行我的代码,我认为它为我提供了不到 100 GB 的内存。
