这在某种程度上是一门艺术,但是人们总是可以尝试一些标准的、直截了当的事情。
首先要做的是重新表达因变量()以使残差正常。这在此示例中并不真正适用,其中点似乎沿着平滑的非线性曲线下降,几乎没有分散。所以我们进行下一步。y
接下来是重新表达自变量()以使关系线性化。有一种简单易行的方法可以做到这一点。沿曲线选取三个代表点,最好在两端和中间。从第一个图中,我读出了有序对 = 10,7) 、和。似乎总是为正之外,没有任何信息,一个不错的选择是探索Box-Cox 变换的各种幂,通常选择为的倍数或,通常介于r(r,y)(10,7)(90,0)(180,−2)r r→(rp−1)/pp1/21/3−1和。接近时的极限值是。)如果前两个点之间的斜率等于第二对点之间的斜率,这个变换将创建一个近似的线性关系。1p0log(r)
例如,未转换数据的斜率是 = -和 =。这些是完全不同的:一个大约是另一个的四倍。尝试给出等,结果为和:现在其中一个只有另一个的两倍,这是一个改进。以这种方式继续(电子表格很方便),我发现效果很好:斜率现在是和(0−7)/(90−10)0.088(−2−0)/(180−90)−0.022p=−1/2(0−7)/(90−1/2−1−1/2−10−1/2−1−1/2)−16.6−32.4p≈0−7.3−6.6,几乎相同的值。因此,您应该尝试形式的模型。然后重复:拟合一条线,检查残差,确定的变换以使它们近似对称,然后迭代。y=α+βlog(r)y
John Tukey 在他的经典著作Exploratory Data Analysis (Addison-Wesley, 1977) 中提供了详细信息和许多示例。他给出了类似(但稍微复杂一些)的程序来识别的方差稳定变换。他作为练习提供的一个样本数据集涉及在不同温度下测量的关于汞蒸气压力的百年历史数据。遵循这一过程可以重新发现克劳修斯-克拉佩龙关系;最终拟合的残差可以用原子距离发生的量子力学效应来解释!y