高效的异地任意等级 GPU 转置

计算科学 张量
2021-12-04 23:38:17

摘要:对于具有总元素的张量,是否存在有效的异地 GPU 张量转置操作,无论排名朴素算法的成本,因为每个条目需要价值的索引操作。O(n)ndO(dn)O(d)

以下是 TensorFlow 中高阶张量转置的当前实现:

https://github.com/tensorflow/tensorflow/blob/master/tensorflow/core/kernels/transpose_functor_gpu.cu.cc#L27

它执行一个平面一维循环,使用步长除法来解构索引,并重建转置索引。是否有任何索引技巧/预计算可以避免每个条目的成本?O(d)O(d)

0个回答
没有发现任何回复~