统计学、线性代数和机器学习中的经典符号是什么?这些符号之间有什么联系?

机器算法验证 机器学习 可能性 自习 优化
2022-01-23 12:40:47

当我们阅读一本书时,理解符号对于理解内容起着非常重要的作用。不幸的是,不同的社区对模型和优化问题的表述有不同的符号约定。有人可以在这里总结一些公式符号并提供可能的原因吗?

我这里举个例子:在线性代数文学中,经典书籍是斯特朗的线性代数导论书中最常用的记号是

Ax=b

其中系数矩阵要求解的变量方程右侧的向量。本书选择这种表示法的原因是线性代数的主要目标是求解线性系统并找出向量是什么。给定这样的公式,OLS 优化问题是Axbx

minimizex  Axb2

在统计学或机器学习领域(来自《统计学习要素》一书),人们使用不同的符号来表示同一事物:

Xβ=y

其中数据矩阵要学习的系数或权重是响应。人们使用它原因是因为统计学或机器学习社区的人是数据驱动的,所以数据响应对他们来说是最有趣的,他们用来表示。XβyXy

现在我们可以看到所有可能的混淆都存在:相同在第二个等式中,不是需要解决的问题。同样对于术语:是线性代数中的系数矩阵,但它是统计数据。也称为“系数”。AXXAβ

此外,我提到并不是人们在机器学习中广泛使用的那种,人们使用的是对所有数据点进行汇总的半向量化版本。Xβ=y

miniL(yi,f(xi))

我认为这样做的原因是在谈论随机梯度下降和其他不同的损失函数时很好。此外,对于线性回归以外的其他问题,简洁的矩阵表示法也会消失。

逻辑回归的矩阵表示法

任何人都可以对跨不同文献的符号进行更多总结吗?我希望这个问题的聪明答案可以作为人们阅读不同文学书籍的一个很好的参考。

请不要受限于我的示例 还有很多其他的。Ax=bXβ=y

为什么有两种不同的逻辑损失公式/符号?

1个回答

也许一个相关的问题是,“不同语言中使用了什么词,这些词之间有什么联系?”

符号在某种意义上就像语言:

  • 有些词具有地区特定的含义;有些词被广泛理解。
  • 就像强大的国家传播他们的语言一样,成功的领域和有影响力的研究人员传播他们的符号。
  • 语言随着时间而发展:语言具有历史渊源和现代影响。

你的具体问题...

  • 我不同意你的论点,即两者遵循“完全不同的符号”。使用大写字母来表示矩阵。他们并没有那么不同。Xβ=yAx=b
  • 机器学习与统计学高度相关,是一个庞大而成熟的领域。使用表示数据矩阵几乎可以肯定是最易读、最标准的约定。虽然是求解线性系统的标准,但这不是做统计的人写正规方程的方式。如果您尝试这样做,您会发现您的听众更加困惑。在罗马的时候...XAx=b
  • 从某种意义上说,您修改后问题的核心是,“统计学的历史起源是什么,使用字母表示数据,字母表示要求解的未知变量?” xβ
    • 这是统计历史学家的问题!简单地搜索一下,我看到有影响力的英国统计学家和剑桥学者 Udny Yule在他的《统计理论导论》(1911 年)来表示数据。他写了一个回归方程为,最小二乘目标为最小化,解至少可以追溯到那个时候……xx1=a+bx2(x1abx2)2b12=x1x2x22
    • 更有影响力的 RA Fisher在其 1925 年出版的《研究工作者统计方法》作为因变量,作为自变量。(向@Nick Cox 致敬,提供信息链接。)yx

好的符号就像好的语言。尽可能避免使用特定领域的行话。用相当于高 BBC 英语的数学来写,这是大多数说英语的人都可以理解的语言。一个人应该尽可能使用清晰且易于理解的符号来书写。