计算科学 - 行压缩数据的核外矩阵转置 - 吾爱随笔录

计算科学矩阵

2021-12-12 04:31:35

总结：如果单独压缩矩阵的每一行，是否有好的算法可以用于核外密集矩阵转置？

详细信息：未压缩的矩阵约为 1 TB，大致但不完全是正方形。未压缩的行小于 6 MB，因此其中许多可以同时放入 RAM。在磁盘上，我想单独压缩矩阵的每一行（使用特定于域的非随机访问方法），所以我需要一个转置算法，从压缩形式读取，重新压缩每一列，并写出压缩列作为新的转置矩阵。

任何现有的核外转置算法是否与此设置兼容？

2个回答

如果您不需要对单行进行快速随机访问，则可以存储切片而不是存储行。例如，生成 $500$ 一次行并将它们存储在 $500\times 500$ 瓦片（匹配磁盘块大小以获得最佳性能）。这些图块足够大，以不同的顺序（例如按列）从磁盘读取它们仍然可以很好地执行。

我会使用行块来实现它。如果矩阵是 $A$ , 写成总和 $A=\sum_{b=1}^B A_b$ 每个块在哪里 $A_b$ 仅由一些行组成 $A$ . 您选择每个块以使其适合内存。

然后 $A^T=\sum_{b=1}^B A_b^T$ : 计算转置 $A_1$ ，将其存储到磁盘。读 $A_2$ ，计算其转置并添加您从中获得的新列 $A_2^T$ 到那些已经计算出来的 $A_1^T$ ，等等等等。只要你能储存 $A_b^T$ 以及已经处理过的转置的压缩形式，它应该可以工作。

其它你可能感兴趣的问题