计算科学 - 高效的异地任意等级 GPU 转置 - 吾爱随笔录

摘要：对于具有总元素的张量，是否存在有效的异地 GPU 张量转置操作，无论排名？朴素算法的成本，因为每个条目需要价值的索引操作。 $O(n)$ $n$ $d$ $O(dn)$ $O(d)$

以下是 TensorFlow 中高阶张量转置的当前实现：

它执行一个平面一维循环，使用步长除法来解构索引，并重建转置索引。是否有任何索引技巧/预计算可以避免每个条目的成本？ $O(d)$ $O(d)$