如何应用超过一百万个向量与另外一百万个向量的相似性算法(或比较)?
我正在关注这个 pyimage 搜索教程,但是当我有数百万张图像要比较时,我不知道如何扩大算法。就像将超过 100 万张图像与其他 100 万张图像的相似度进行比较。它在 100000 处因内存不足错误而停止。
如何应用超过一百万个向量与另外一百万个向量的相似性算法(或比较)?
我正在关注这个 pyimage 搜索教程,但是当我有数百万张图像要比较时,我不知道如何扩大算法。就像将超过 100 万张图像与其他 100 万张图像的相似度进行比较。它在 100000 处因内存不足错误而停止。
您可能可以使用Dask来执行此操作。
Dask 原生扩展 Python。Dask 为分析提供高级并行性,为您喜爱的工具实现大规模性能
Dask 将安排您的计算,以便您不会耗尽内存,然后为您提供计算结果。它支持数据科学堆栈中的许多库,包括scikit-learn、pandas和numpy。