如何理解非线性数据转换?得出的哪些结论可以应用于原始数据?

机器算法验证 正态分布 数据转换 偏度 非线性
2022-04-09 06:06:53

在统计课上,教授谈到了转换倾斜数据集以使其更“正常”的兴趣。

根据我目前的理解,这个想法是正态曲线具有我们想要使用的很好的数学属性,所以如果我们有一个强烈倾斜的数据集,我们可以对其应用非线性变换以使其分布更接近正态分布。

几个例子

线性变换是有意义的;如果我们有以英尺为单位的数据并希望以英寸为单位,我们可以将应用于数据集。那讲得通。y=12x

即使在我们有英尺但想处理平方英尺的情况下;这是一个非线性变换,但单位仍然有意义(也许“有意义”只是熟悉程度的问题)

但是现在,让我们假设我们有一个以美​​元为单位的汽车价格或员工工资数据集。对我们的数据集应用对数转换意味着什么?还是逆变换?什么是对数美元或逆美元?

此外,即使我们可以更容易地得出关于新数据集的结论,这些结论与我们的原始数据集的相关性如何?我们可以假设我们的结论成立吗?转换后的数据集的均值、标准差或方差与原始数据集的相关性如何?

或者例如(我现在在旁边看到这个问题),似乎您可以转换数据集以使其更容易线性分离(我猜在几何上是有意义的)。

但这真的有效吗?这感觉很奇怪,在某种意义上就像“作弊”。我们在处理数据,然后根据这些混乱的数据得出结论或提出预测模型。这是如何运作的?

1个回答

这个问题类似于:对数转换预测器的解释我建议查看 jthetzel(简介:https ://stats.stackexchange.com/users/2981/jthetzel )的答案,他总结了多个众所周知的转换的影响及其含义(并发布了很好的链接)。

),大多数转换很快就会变得难以理解,并且在您使用转换时尝试得出结论时要小心。这里提到了一些转换对数据的影响: http://pareonline.net/getvn.asp ?v=8&n=6 ,其中简要提到了数据属性的变化、统计过程和结论问题等。明智的做法是咨询受过训练的数学家/统计学家来确定转换的效果和含义。log(x)ex