机器算法验证 - 从实际的角度来看，神经随机微分方程是怎么回事？ - 吾爱随笔录

我花了几天时间阅读了一些关于神经 SDE 的新论文。例如，这是 Tzen 和 Raginsky 的作品，而这是 Peluchetti 和 Favaro 同时推出的作品。我计划接下来阅读其他一些内容。这项工作似乎都受到了最近流行的神经 ODE 和 ResNet 的启发。每篇论文通过不同的途径获得的基本思想是，如果我们考虑在时间到达的输出数据，并且对网络权重和激活，数据在网络内从一层到下一层的演变类似于随机过程。层数越多，越小 $t=0$ $t=1$ $\Delta t$ 在层之间。在层数趋于无穷大的情况下，网络接近真正的随机微分方程。

我仍在研究数学，这是我的主要目标。然而，我发现这些论文中缺少的是：为什么这很重要？问题不是，为什么这很有趣？. 从纯数学的角度来看，这当然很有趣。但这里的重要性是什么？这项技术的影响是什么？

起初我对此感到很兴奋，因为我认为它提出了一种应用神经网络来学习 SDE 参数的方法，方法是将其拟合到我们不知道基础数据生成过程形式的实时序列数据中. 但是我注意到 Peluchetti 和 Favaro 的实验只是简单的 MNIST 数据集，而 Tzen 和 Raginsky 的数据实验实际上是一个模拟的 SDE。后者更符合我的直觉。

所以，我的问题是，神经 SDE 的一般重要性是什么？第二个问题是：我认为这项技术提出了一种将模型拟合到我们认为是由随机过程生成的数据的新方法是否正确？

** 更新 **

好吧，我仍然很想听听社区要说什么，但我一直在阅读并发现一篇很棒的新论文，该论文提议通过 GAN（生成对抗网络）训练神经 SDE。这篇论文中的文献综述也很有见地，说明了我所怀疑的，即创始论文的每一位作者对这个问题的看法都略有不同。例如，Tzen 和 Raginsky 的论文描述了只是将网络从一个初始点拟合到一个终端值。在这篇新论文中，他们可以通过 GAN 将模型拟合到整个随机过程，并实际上给出了 4 个经验示例。这似乎类似于我们如何将高斯过程拟合到经验数据，因为我们要求随机过程通过我们数据集中的所有点。