人工智能 - 仿射变换和线性变换有什么区别吗？ - 吾爱随笔录

仿射变换和线性变换有什么区别吗？

人工智能神经网络术语火炬线性代数

2021-11-15 16:26:30

考虑PyTorch 文档的简单自定义模块中的以下语句

首先，让我们看一下 PyTorch 的线性模块的更简单的自定义版本。该模块对其输入应用仿射变换。

由于该段落说的是PyTorch 的线性模块，我猜仿射变换只不过是线性变换。

认为 $x = [x_1, x_2, x_3,\cdots,x_n]$ 是一个输入，然后线性变换 $x$ 可 $a.x+b$ ，在哪里 $a$ 和 $b$ 是 $n-$ 实数的维向量。和点（ $.$ ) 代表点积。

仿射变换和线性变换一样吗？如果是，那么为什么使用名称仿射？它是否涵盖了比线性变换更多或更少的东西？

2个回答

在线性代数中，线性变换（又名线性映射或线性变换） $f: \mathcal{V} \rightarrow \mathcal{W}$ 是满足以下两个条件的函数

$f(u + v)=f(u)+f(v)$ （加性）
$f(\alpha u) = \alpha f(u)$ （标量乘法），

在哪里

$u$ 和 $v$ 向量（即向量空间的元素，也可以是 $\mathbb{R}$ [证明]，一些功能空间等）
$\alpha$ 是一个标量（例如，它可以是一个实数，但不一定）
$\mathcal{V}$ 和 $\mathcal{W}$ 是向量空间（例如 $\mathbb{R}$ 或者 $\mathbb{R}^2$ )

因此，任何满足这两个条件的函数都是线性变换。

在欧几里得几何中， $g(x) = ax + b$ 是仿射变换，一般不是线性代数中定义的线性变换。您可以轻松地证明仿射变换不是线性变换。例如，让 $a = 1$ 和 $b = 2$ ，做 $g$ 对于任何标量，满足上述第二个条件 $\alpha$ ? 不，例如，让 $\alpha = 3$ ，然后 $g(3x = y) = y + 2 = 3x + 2 \neq 3 g(x) = 3 (x + 2) = 3x + 6$ .

然而，在神经网络的上下文中，当人们使用形容词“线性”时，他们通常指的是一条线。例如，在线性回归中，您可以有一个偏差（ $b$ 在仿射变换中 $g$ 上面），这会使函数不是线性变换，但我们仍然称它为线性回归，因为我们将一条线（因此称为线ar 回归）拟合到数据中。

所以，不，仿射变换不是线性代数中定义的线性变换，但所有线性变换都是仿射的。然而，在机器学习中，人们经常用形容词linear来指代直线模型，一般用仿射变换的函数来表示。在这个答案中，我也谈到了这个问题。

事实上，您始终可以将仿射变换表示为线性变换（更方便，因为它只是一个矩阵/点积）。

例如，给定一个输入 $\textbf{x}=[x_1, ..., x_n]$ , 一些权重 $\textbf{a} = [a_1, a_2, ..., a_n]$ 和偏见 $b \in \mathbb{R}$ ，可以表示仿射运算 $y = \textbf{a}\cdot \textbf{x} + b$ 作为：

$y = \tilde{\textbf{a}} \cdot \tilde{\textbf{x}}$ ，和 $\tilde{\textbf{a}} = [a_1, ..., a_n, b]$ 和 $\tilde{\textbf{x}} = [x_1, ..., x_n, 1]$ （线性运算）

当您的仿射变换是一个函数时 $f:\mathbb{R}^p \rightarrow \mathbb{R}^q$ 和 $\textbf{y}=f(\textbf{x})=A\textbf{x} + \textbf{b}$ ，您可以使用相同的技巧（通过在权重矩阵的右端添加带有偏差的列 $A$ )，所以你得到： $\textbf{y}=\tilde{A}\tilde{\textbf{x}}$

我在这个视频中找到了一个例子，Andrew Ng 使用这个技巧进行简单的线性回归。

其它你可能感兴趣的问题

上一篇在强化学习中，为什么将策略定义为状态函数而不是观察值？下一篇在神经网络的训练过程中可以固定一些权重吗？