线性模型比较 - 我的数据最适合哪个?

机器算法验证 r 回归 模型 线性的
2022-04-06 11:41:30

这是一个非常简单的练习,我希望它可以帮助那些在统计分析方面知识有限的人(比如我自己)。我无法决定我可以执行哪些统计分析(在 R 中)以确定我的数据是否更接近一个线性模型或另一个。

例如:我测量了各种稀溶液中的钠和氯:

#
Na <- c(1.56, 1.00, 1.60, 3.23, 2.02, 2.81, 2.09, 26.24, 1.59, 0.42)
Cl <- c(1.40, 0.91, 1.22, 2.67, 1.67, 3.01, 2.17, 27.42, 1.45, 0.51)

为简单起见,该溶液是溶解在水或天然海水中的食盐的稀释液。对于每种情况,Cl/Na 将是反映原始溶液成分的特定比率。我们可以通过以下方式对此进行可视化:

plot(Na,Cl)
abline(0,1)    # expected slope for table salt dissolved in water
abline(0,1.16) # expected slope for natural seawater.

我想知道哪种模型(水中或海水中的食盐)在统计上更准确地拟合所提供的数据。R 中的线性回归分析给出了一条斜率为 1.05 ( lm(Cl~Na)) 的最佳拟合线,位于两个模型之间。

那么,我更有可能拥有哪种解决方案,为什么?最佳拟合斜率线更接近溶解在水中的食盐的斜率线,但这似乎在统计上不太合理。想法?

编辑:@whuber 提到数据集中有一个异常 - 实际上,提供的数据只是原始数据的一个子集。在明显的异常值和提供的其余数据之间实际上有数百个数据点。

此外,这里是log(Na)-log(Cl)完整数据集的摘要:

    Min.  1st Qu.   Median     Mean  3rd Qu.     Max.     NA's 
-0.46870 -0.06186  0.02654  0.02218  0.12780  0.47510      183 

Edit2:至于“我调查的真实性质”:有问题的“解决方案”可能是食盐水和天然海水的混合物。我想做的是找到一种明确的方法(通过统计分析)来表明我有更多的一种或另一种。我曾希望我的简化问题/数据集能从社区中得到答案,但似乎我离题了。如果有帮助,完整的数据集现在托管在下面:

http://www.filedropper.com/clna

查看完整数据的分布显示我有更多大约 1.00 的 Cl/Na,但这似乎不足以支持一个论点。我有一种或另一种解决方案的概率是未知的。我有 Cl to Na 的原始数据和相关模型可以运行。

为了澄清,最初的问题仍然是我想解决的问题。另一个问题可能是:我有更多的解决方案,我使用了什么分析来得出这个结论?

1个回答

所以在过去的 20 个小时左右,我一直在努力理解这个问题。有很多有用的讨论,但没有明确的答案。我找到了一些资源,可以帮助其他人理解我为什么选择走这条路。

1)土壤平衡:酸雨会发生什么?作者 Sharon Anthony、Michael Beug、Roxanne Hulet 和 George Lisensky 是一本很好的化学学习书,我认为它对如何使用t-test进行了彻底的解释,但不一定是为什么要使用它。

2) minitab.com 上的这篇博文解释了何时使用 t 检验以及有关如何使用它的其他信息。

我认为这里的关键在于,根据原始帖子,我预计斜率为 1.00 或 1.16,这取决于如果我散布图 Na 和 Cl,我有哪种解决方案。另一种表述方式是,我预计该组中每个样本的 Cl 与 Na 的比率为 1.00 或 1.16。这给了我两个假设来测试我的 t 检验。

t 检验定义为:

t=|xknown|Ns

其中将给出一个值,用于将实验平均值与已知值进行比较,然后我们可以将其与相应的自由度 ( ) 和置信区间 (让我们选择 95%) 的列表 t 表进行比较。是标准偏差,是这个例子的平均 Cl 与 Na 比率,并且是我要测试的已知值或假设:tNsxknown

对于假设 1) ,每个样品的 Cl 与 Na 的比率等于 1.16。

我们的平均 Cl 与 Na 比率是(在 R 中)或 0.95。同样, =或 0.14。现在,如果我们插入并插入 t 检验方程,我们会得到 4.5 的,列表中对应的为 2.26。我们计算大于列表中的 t 值,因此平均值在 95% 置信区间内不同于 1.16。xmean(Cl/Na)ssd(Cl/Na)ttN=9tCl/Na

对于假设 2) ,每个样品的 Cl 与 Na 的比率等于 1.00。

我们将使用与假设 1 相同的步骤(仅更改),得到和 95% 的置信区间, 1.07 小于我们列出的 t 值 2.26 ,因此我们可以说我们的平均值在 95% 的置信区间内与 1.00 没有区别。knownt=1.07NCl/Na

因此,为了回答这个问题,我很可能根据 t 检验将食盐溶解在水溶液中。我希望一些统计爱好者可以评论这是否是一个有效的答案!

编辑:9 个自由度,10 个样本。

Edit2:Rt.test(Cl/Na,mu=1)显然没有得出与我上面所做的相同的结论。我不知道为什么。