我如何阅读任何 AI 论文?

人工智能 研究 文件 学术界
2021-11-15 15:34:49

我学过两次线性代数、概率和微积分。但是我不明白如何才能达到可以阅读任何 AI 论文并理解其中的数学符号的水平。

当你看到你无法理解的数学表达式时,你的策略是什么?

例如,在 Wasserstein GAN 文章中,有许多高级数学符号。另外,有些论文是由拥有数学硕士学位的人写的,那些人在一些论文中使用了高等数学,但我有CS背景。

当你遇到这样的问题时,你会怎么做?

4个回答

我认为答案很大程度上取决于你为什么阅读这篇论文,你想从中得到什么?我“阅读”了很多论文(或者通常只是快速浏览),我绝对不会理解所有的数学。很多时候,这将是因为我实际上并不在意深入理解它。

在 AI 方面还有很多“实用”的研究要做,这绝对并不总是需要对所有数学有深刻的理解。对于有意义的实际贡献,直觉通常就足够了,至少对于开始而言。如果这是您感兴趣的研究,那么您可能不需要像您真正尝试直接在该理论领域进行研究那样了解 AI 论文中的许多数学部分。

就个人而言,当我在自己的论文中写“数学重”部分时(与“真正的理论”机器学习论文相比,这通常已经被限制在相当简单的数学水平上),我总是试图确保包括直观的英文描述我们正在做的事情。即使你不能立即理解一个完整的方程,只要有一个直观的解释来告诉你它的含义就足以让你对论文有一个广泛的理解。然后你只需要深入研究方程的细节——根据英文文本——你决定你真的很感兴趣。因此,如果围绕方程式有足够、直观的解释,我建议首先重点关注这一点。不过,并非每篇论文都这样做,有时会有

即使事实证明您确实必须理解数学,但您可能不必立即全部理解。我首先要重点理解的重要部分是:

  • “问题”的数学描述。这可能是一个目标函数,一个要优化/最小化/最大化的度量,或者是作者以先前文献为起点并更详细地检查一些细节的现有方程。
  • 结果/结果的数学描述。这些可能是他们在具体算法中实际使用的方程(看看你是否可以将它们与可能存在的任何伪代码联系起来),或者在定理/证明结尾处陈述的最终方程。

介于两者之间的所有复杂部分可能都不那么重要。只是对起点是什么的模糊概念,以及对最终结果的模糊理解,就足以至少知道论文是关于什么的。然后你可以自己决定你是否真的需要了解更多关于两者之间的细节,或者它们是否可能与你/你的工作/你的研究无关。

我认为让阅读论文更容易的最好方法是练习(例如,阅读大量论文,尝试实施它们等),并与其他学生/研究人员讨论它们。

有时很难避免一些晦涩或真正技术性的数学,所以你可能只需要做额外的阅读。例如,Wasserstein 指标在 ML 中被大量使用,但我有点怀疑大多数 ML 研究人员对它有很好的理解。这个指标来自一个叫做“最优运输理论”的数学分支,它非常有趣,但非常需要大量真实的分析。如果你真的有兴趣了解 Wasserstein 度量,我推荐 Cedric Villani 的书“Optimal Transport: Old and New”。我也推荐这篇很棒的论文尽管如此,学习分析可能会很好地帮助您理解各种机器学习论文。

最后,作为一个刚毕业的学生,​​我也遇到了你的问题。我在这个 repo中制作了一个工具来帮助我解决这个问题,它管理着你感兴趣的论文库。然后它使用 PageRank 算法向你推荐你想要阅读的论文通常引用的新论文,目的是帮助您阅读基本的“先决条件”材料。

当我阅读一个新领域的论文并开始阅读理论机器学习论文时,我遇到了类似的问题。我通常从介绍开始,然后是相关工作,并尝试理解与理解论文相关的所有概念和引用的相关论文。

特别是当涉及到困难的数学公式时,正如@harwiltz 所说,你读的越多,它就越容易。可能有一组论文的概念与您正在阅读的论文相似但解释清楚我通常先阅读它们(或者如果它是一个重要的数学概念,您可以找到一些描述其背后的直觉/基础的博客) .

根据我的经验(我已经阅读了很多研究论文有一段时间了),很少有一篇研究论文能让你一次性完全理解所有内容,特别是如果该研究论文是最近或很久以前发表或发表的(因为,当时,也许人们有不同的写作风格,使用不同的符号,或类似的东西),除非你是该主题的专家,除非你正在对该主题进行认真的研究,否则情况可能并非如此(即您正在攻读博士学位及以上;在这种情况下,您可能不需要在此站点上提问:希望您有一位合格的顾问可以向其提出这些问题!),或者纸真的很简单,不包含任何公式。

当然,如果一篇论文发表了,它必须包含一些新奇的东西,这样一些新奇的东西可能是你需要花一些时间才能理解的东西之一,但一篇论文最难的部分也很容易成为先决条件(即论文所基于的概念),因为您可能对这些主题没有非常扎实的知识(您可能已经经历过)。

当你因为不明白某事而被卡住时,至少有三种方法可以继续

  1. 如果您可以忽略您不理解的内容(即您不需要它来达到您的目的,因为例如您只需要对主题有一个高层次的理解),请忽略它(真的!!)
  2. 如果它不能被忽略(例如因为你真的需要知道论文的所有细节,因为你需要在你的大学做一个演讲),试着通过选择一个关于该主题的资源来理解你不理解的东西你不明白,那就读吧;花你认为合适的时间(即,如果你只有 7 天的时间阅读论文并准备演示文稿或任何你需要做的事情,就不要花 6.5 天来理解论文的细节)
  3. 如果您负担得起,请停止阅读该论文并返回基础知识。

一般来说,学习不是一个容易的过程,更具体地说,阅读研究论文并不是最容易阅读的(因为研究论文通常很简洁,即信息压缩很多),所以不要指望能理解一篇论文的所有内容一口气。事实上, S. Keshav 的《如何阅读论文》一文为您提供了一些有关如何阅读论文的指南,它告诉您分三个步骤阅读论文。有关这三个步骤的更多详细信息,请阅读本文!