我刚开始学习 tensorflow,我有一个关于神经网络中使用的激活函数的问题,我不久前看了一个 3b1b 视频,它似乎将值压缩到一个区间,就像 sigmoid 一样,通过将它压缩在 0 和 1 之间,所以我们可以进行更具体的比较,但是在今天观看教程时,讲师说它将数据点投影到更高维度的空间中。我真的不明白这是怎么回事,因为它似乎被转换为标量。后一种说法是否有解释/示例?
这是他在接下来的几分钟内谈到的带有时间戳的 URL。
我刚开始学习 tensorflow,我有一个关于神经网络中使用的激活函数的问题,我不久前看了一个 3b1b 视频,它似乎将值压缩到一个区间,就像 sigmoid 一样,通过将它压缩在 0 和 1 之间,所以我们可以进行更具体的比较,但是在今天观看教程时,讲师说它将数据点投影到更高维度的空间中。我真的不明白这是怎么回事,因为它似乎被转换为标量。后一种说法是否有解释/示例?
这是他在接下来的几分钟内谈到的带有时间戳的 URL。
大多数时候,我们用直觉而不是数学来解释 AI,所以每个人都有自己的解释和表示,这就是我将如何解释激活函数(我会尽量让更清晰,而不是在已经 2你知道):
万一你不知道基础是什么,你应该看看维基百科,因为它是你问题的核心概念(至少在我看来)。
您需要考虑整个输入值,而不仅仅是它们的值。所有输入值都是实数,因此它们的维数为 1,但如果我们一起考虑它们,它们的维数是 N(输入数)。而这个空间的基础是.
神经元由两部分组成:
假设我们使用的神经元只是输入的线性组合. 然后我们将我们的初始点投影到一个与输入空间具有完全相同基础的空间中(因为如果我们忘记了偏差,所有输出都是输入的线性组合)。所以这个动作只是将输入重新映射到相同的空间,但具有不同的基础。如果您的问题是线性可分的,这可能会有所帮助,但如果您的问题不是,这就是不够的。这就是我们使用激活函数的原因。
如果我们现在考虑具有激活功能的神经元。激活函数的特殊性在于它们是非线性的。因此,激活函数的使用将您的输入映射到不同的空间,基础需要不同,因为所有输出不再是输入的线性组合。所以这一次的输出空间与最初的不同。
我看到它的方式是激活函数不会从无到有生成信息,但它们允许将可用信息重新映射到更容易解决问题的更高维度空间。
希望这会有所帮助,请随时询问您是否还有其他问题。