目前我对GPU计算不太了解,所以请原谅这个简单的问题。可以在 GPU 上并行反转局部矩阵吗?CUBLAS 似乎不支持因式分解,而且我为 GPU 找到的大多数 LU/QR/Chol 库旨在加速单个直接因式分解。
例如,如果必须为显式 DG 方法重新计算质量矩阵,是否有办法在 GPU 上本地重新反转它们(即以更多的 MPI 方式,在多个扭曲/块/等上并行计算分解)?
编辑:我正在尝试查看是否可以在 GPU 上组装和反转大量小矩阵。
目前我对GPU计算不太了解,所以请原谅这个简单的问题。可以在 GPU 上并行反转局部矩阵吗?CUBLAS 似乎不支持因式分解,而且我为 GPU 找到的大多数 LU/QR/Chol 库旨在加速单个直接因式分解。
例如,如果必须为显式 DG 方法重新计算质量矩阵,是否有办法在 GPU 上本地重新反转它们(即以更多的 MPI 方式,在多个扭曲/块/等上并行计算分解)?
编辑:我正在尝试查看是否可以在 GPU 上组装和反转大量小矩阵。
对您的问题的简短回答是肯定的,您可以在 GPU 上反转大量小型独立矩阵,并且很可能您可以有效地做到这一点。然而,最好的解决方法并不是这样一个直截了当的答案。我可以想到三种可能的实现,尽管我从一开始就承认我从未尝试过这些,所以我可能会忽略其中任何一个的问题。
请注意,所有这些方法也可用于在 GPU 内存中构造矩阵的内核,而不仅仅是求解它们。