这是一个非常简单的练习,我希望它可以帮助那些在统计分析方面知识有限的人(比如我自己)。我无法决定我可以执行哪些统计分析(在 R 中)以确定我的数据是否更接近一个线性模型或另一个。
例如:我测量了各种稀溶液中的钠和氯:
#
Na <- c(1.56, 1.00, 1.60, 3.23, 2.02, 2.81, 2.09, 26.24, 1.59, 0.42)
Cl <- c(1.40, 0.91, 1.22, 2.67, 1.67, 3.01, 2.17, 27.42, 1.45, 0.51)
为简单起见,该溶液是溶解在水或天然海水中的食盐的稀释液。对于每种情况,Cl/Na 将是反映原始溶液成分的特定比率。我们可以通过以下方式对此进行可视化:
plot(Na,Cl)
abline(0,1) # expected slope for table salt dissolved in water
abline(0,1.16) # expected slope for natural seawater.
我想知道哪种模型(水中或海水中的食盐)在统计上更准确地拟合所提供的数据。R 中的线性回归分析给出了一条斜率为 1.05 ( lm(Cl~Na)
) 的最佳拟合线,位于两个模型之间。
那么,我更有可能拥有哪种解决方案,为什么?最佳拟合斜率线更接近溶解在水中的食盐的斜率线,但这似乎在统计上不太合理。想法?
编辑:@whuber 提到数据集中有一个异常 - 实际上,提供的数据只是原始数据的一个子集。在明显的异常值和提供的其余数据之间实际上有数百个数据点。
此外,这里是log(Na)-log(Cl)
完整数据集的摘要:
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
-0.46870 -0.06186 0.02654 0.02218 0.12780 0.47510 183
Edit2:至于“我调查的真实性质”:有问题的“解决方案”可能是食盐水和天然海水的混合物。我想做的是找到一种明确的方法(通过统计分析)来表明我有更多的一种或另一种。我曾希望我的简化问题/数据集能从社区中得到答案,但似乎我离题了。如果有帮助,完整的数据集现在托管在下面:
http://www.filedropper.com/clna
查看完整数据的分布显示我有更多大约 1.00 的 Cl/Na,但这似乎不足以支持一个论点。我有一种或另一种解决方案的概率是未知的。我有 Cl to Na 的原始数据和相关模型可以运行。
为了澄清,最初的问题仍然是我想解决的问题。另一个问题可能是:我有更多的解决方案,我使用了什么分析来得出这个结论?