在统计课上,教授谈到了转换倾斜数据集以使其更“正常”的兴趣。
根据我目前的理解,这个想法是正态曲线具有我们想要使用的很好的数学属性,所以如果我们有一个强烈倾斜的数据集,我们可以对其应用非线性变换以使其分布更接近正态分布。
几个例子:
线性变换是有意义的;如果我们有以英尺为单位的数据并希望以英寸为单位,我们可以将应用于数据集。那讲得通。
即使在我们有英尺但想处理平方英尺的情况下;这是一个非线性变换,但单位仍然有意义(也许“有意义”只是熟悉程度的问题)
但是现在,让我们假设我们有一个以美元为单位的汽车价格或员工工资数据集。对我们的数据集应用对数转换意味着什么?还是逆变换?什么是对数美元或逆美元?
此外,即使我们可以更容易地得出关于新数据集的结论,这些结论与我们的原始数据集的相关性如何?我们可以假设我们的结论成立吗?转换后的数据集的均值、标准差或方差与原始数据集的相关性如何?
或者例如(我现在在旁边看到这个问题),似乎您可以转换数据集以使其更容易线性分离(我猜在几何上是有意义的)。
但这真的有效吗?这感觉很奇怪,在某种意义上就像“作弊”。我们在处理数据,然后根据这些混乱的数据得出结论或提出预测模型。这是如何运作的?