机器算法验证 - 如何理解非线性数据转换？得出的哪些结论可以应用于原始数据？ - 吾爱随笔录

在统计课上，教授谈到了转换倾斜数据集以使其更“正常”的兴趣。

根据我目前的理解，这个想法是正态曲线具有我们想要使用的很好的数学属性，所以如果我们有一个强烈倾斜的数据集，我们可以对其应用非线性变换以使其分布更接近正态分布。

几个例子：

线性变换是有意义的；如果我们有以英尺为单位的数据并希望以英寸为单位，我们可以将应用于数据集。那讲得通。 $y=12x$

即使在我们有英尺但想处理平方英尺的情况下；这是一个非线性变换，但单位仍然有意义（也许“有意义”只是熟悉程度的问题）

但是现在，让我们假设我们有一个以美元为单位的汽车价格或员工工资数据集。对我们的数据集应用对数转换意味着什么？还是逆变换？什么是对数美元或逆美元？

此外，即使我们可以更容易地得出关于新数据集的结论，这些结论与我们的原始数据集的相关性如何？我们可以假设我们的结论成立吗？转换后的数据集的均值、标准差或方差与原始数据集的相关性如何？

或者例如（我现在在旁边看到这个问题），似乎您可以转换数据集以使其更容易线性分离（我猜在几何上是有意义的）。

但这真的有效吗？这感觉很奇怪，在某种意义上就像“作弊”。我们在处理数据，然后根据这些混乱的数据得出结论或提出预测模型。这是如何运作的？