我正在寻找最快的方法来获取每行和每列二维数组的非零索引列表。以下是一段工作代码:
preds = [matrix[:,v].nonzero()[0] for v in range(matrix.shape[1])]
descs = [matrix[v].nonzero()[0] for v in range(matrix.shape[0])]
示例输入:
matrix = np.array([[0,0,0,0],[1,0,0,0],[1,1,0,0],[1,1,1,0]])
示例输出
preds = [array([1, 2, 3]), array([2, 3]), array([3]), array([], dtype=int64)]
descs = [array([], dtype=int64), array([0]), array([0, 1]), array([0, 1, 2])]
(这些列表称为 preds 和 descs,因为当矩阵被解释为邻接矩阵时,它们指的是 DAG 中的前辈和后辈,但这对于问题来说不是必需的。)
我想知道这是否可以通过某种稀疏矩阵(CSR、CSC、COO 等)来实现,scipy.sparse
但我对它们不熟悉并且没有得到它的工作。如果存在更快的选项,我不一定需要使用这些类型。
时序示例: 出于时序目的,以下矩阵是一个很好的代表:
test_matrix = np.zeros(shape=(4096,4096),dtype=np.float32)
for k in range(16):
test_matrix[256*(k+1):256*(k+2),256*k:256*(k+1)]=1
谢谢你。
背景:在我的代码中,这两行代码占用了 4000x4000 矩阵的 75% 的时间,而随后的拓扑排序和 DP 算法只占用了本季度的剩余时间。如果有人知道如何更有效地做到这一点,将不胜感激。大约 5% 的矩阵具有非零值。
(根据建议,我将问题移至此处:https ://stackoverflow.com/questions/62065793/fast-nonzero-indices-per-row-column-for-sparse-2d-numpy-array 包含几个有用的答案)