摘要:对于具有总元素的张量,是否存在有效的异地 GPU 张量转置操作,无论排名?朴素算法的成本,因为每个条目需要价值的索引操作。
以下是 TensorFlow 中高阶张量转置的当前实现:
它执行一个平面一维循环,使用步长除法来解构索引,并重建转置索引。是否有任何索引技巧/预计算可以避免每个条目的成本?
摘要:对于具有总元素的张量,是否存在有效的异地 GPU 张量转置操作,无论排名?朴素算法的成本,因为每个条目需要价值的索引操作。
以下是 TensorFlow 中高阶张量转置的当前实现:
它执行一个平面一维循环,使用步长除法来解构索引,并重建转置索引。是否有任何索引技巧/预计算可以避免每个条目的成本?