我正在参加一个在线“人工智能入门”课程,我正在为此做一些天蓝色的机器学习实验室。本课程主要是关于如何应用 azure ML 解决方案,虽然有“ML 模块的基本数学”,但它没有对数学/统计进行任何形式的深入研究。但我想从基本的角度了解数学上正在发生的事情。(我已经对统计进行了介绍,到目前为止就是这样。)以下是一些我想了解更多的具体事情的详细信息,以及我的具体问题。
在“训练分类模型”实验室的某个特定点,有这样一段文字:“diabetes.csv 数据集中年龄列的分布是倾斜的,因为大多数患者都处于最年轻的年龄段。创建使用自然对数转换的此特征的版本可以帮助在年龄和其他特征之间创建更线性的关系,并提高预测糖尿病标签的能力。这种所谓的特征工程在机器学习数据准备中很常见。”
然后说明如何使用 Azure ML Studio 将自然对数操作应用于数据集中的年龄列:

问题 1:这种转变实际上在做什么?我不是指细节的数学,但它在概念上做了什么?
问题 #2:下一个一般性问题是关于为什么需要进行转换。对此,我做了一些研究,发现了这篇文章(https://www.r-statistics.com/2013/05/log-transformations-for-skewed-and-wide-distributions-from-practical-data-science-带-r/) 描述了在一些场景中使用哪种类型的日志转换。以下是文章中的一段文字:“数据转换的需求可能取决于您计划使用的建模方法。例如,对于线性回归和逻辑回归,理想情况下,您希望确保输入变量和输出变量之间的关系近似为线性,输入变量的分布近似为正态分布,并且输出变量为常数方差(即,输出变量的方差与输入变量无关)。您可能需要转换一些输入变量以更好地满足这些假设。”
我不明白为什么所有这些都是必要的。我已经分解了我的问题:
例如,对于线性回归和逻辑回归,理想情况下您希望确保:输入变量和输出变量之间的关系是近似线性的——为什么?输入变量在分布上近似正态 - 为什么?输出变量是常数方差(即输出变量的方差与输入变量无关——为什么?
有人可以帮助提供这些原因的信息,或者向我指出有帮助的材料吗?

