如何将大量文件从谷歌驱动器加载到 colab

数据挖掘 机器学习 数据集 卡格尔 谷歌
2022-03-07 23:29:32

我正在尝试将 30k 图像(600mb)从 Google 驱动器加载到 Google Colaboratory 中,以使用 Keras/PyTorch 进一步处理它们。

因此,我首先使用以下方式安装了我的 Google 驱动器:

from google.colab import drive
drive.mount('/content/gdrive')

接下来,我使用以下方法解压缩了图像文件:

!unzip -uq "/content/gdrive/My Drive/path.zip" -d "/content/gdrive/My Drive/path/"

使用以下方法计算目录中有多少文件:

len(os.listdir(path-to-train-images))

我只找到 13k 图像(而我应该找到 30k)。根据 unzip 的输出,文件似乎已正确解压缩。

此外,我发现从 google 目录加载许多文件存在一些问题:https ://github.com/googlecolab/colabtools/issues/510 。

有谁知道我哪里出错了?或者是否有解决方法?

1个回答

一种可能的选择是使用zipfile.ZipFile.

计算 zip 文件中的项目数:

from contextlib import closing
from zipfile import ZipFile

with closing("/content/gdrive/My Drive/path.zip") as zip_file:
    count = len(zip_file.infolist())