我有以下 VHDL 函数,它将给定的 mxn 矩阵a
乘以 nx1 向量b
:
function matrix_multiply_by_vector(a: integer_matrix; b: integer_vector; m: integer; n: integer)
return integer_vector is variable c : integer_vector(m-1 downto 0) := (others => 0);
begin
for i in 0 to m-1 loop
for j in 0 to n-1 loop
c(i) := c(i) + (a(i,j) * b(j));
end loop;
end loop;
return c;
end matrix_multiply_by_vector;
它运作良好,但这实际上在硬件中实现了什么?具体来说,我想知道的是它是否足够聪明,可以意识到它可以并行化内部 for 循环,本质上是为矩阵的每一行计算一个点积。如果不是,那么并行化矩阵向量乘法的最简单(即好的语法)方法是什么?