假设我想解决一个线性系统迭代地在哪里是一个矩阵和是矩阵(不是单个向量)。而不是解决独立系统我正在探索同时解决它们的方法,以便矩阵向量产品可以更好地使用缓存(即计算应该只需要一次读取然而需要读取.)
一种方法是简单地将其作为大小的线性系统提供进入例如 GMRES。
我见过其他所谓的 Block-GMRES 算法,它们使用块 Arnoldi 分解。
块 GMRES 方法的实现似乎有点复杂,并且不清楚增加的复杂性是否值得。
是否知道块 GMRES 在以下方面是否优于非块 GMRES:
- 实现解决方案所需的内存
- 矩阵-矩阵乘积的数量需要计算解决方案
- 改进的通信配置文件(也许块 GMRES 需要更少的同步点?或者管道可以更好吗?)