机器算法验证 - 线性模型比较 - 我的数据最适合哪个？ - 吾爱随笔录

线性模型比较 - 我的数据最适合哪个？

机器算法验证 r 回归模型线性的

2022-04-06 11:41:30

这是一个非常简单的练习，我希望它可以帮助那些在统计分析方面知识有限的人（比如我自己）。我无法决定我可以执行哪些统计分析（在 R 中）以确定我的数据是否更接近一个线性模型或另一个。

例如：我测量了各种稀溶液中的钠和氯：

#
Na <- c(1.56, 1.00, 1.60, 3.23, 2.02, 2.81, 2.09, 26.24, 1.59, 0.42)
Cl <- c(1.40, 0.91, 1.22, 2.67, 1.67, 3.01, 2.17, 27.42, 1.45, 0.51)

为简单起见，该溶液是溶解在水或天然海水中的食盐的稀释液。对于每种情况，Cl/Na 将是反映原始溶液成分的特定比率。我们可以通过以下方式对此进行可视化：

plot(Na,Cl)
abline(0,1)    # expected slope for table salt dissolved in water
abline(0,1.16) # expected slope for natural seawater.

我想知道哪种模型（水中或海水中的食盐）在统计上更准确地拟合所提供的数据。R 中的线性回归分析给出了一条斜率为 1.05 ( lm(Cl~Na)) 的最佳拟合线，位于两个模型之间。

那么，我更有可能拥有哪种解决方案，为什么？最佳拟合斜率线更接近溶解在水中的食盐的斜率线，但这似乎在统计上不太合理。想法？

编辑：@whuber 提到数据集中有一个异常 - 实际上，提供的数据只是原始数据的一个子集。在明显的异常值和提供的其余数据之间实际上有数百个数据点。

此外，这里是log(Na)-log(Cl)完整数据集的摘要：

    Min.  1st Qu.   Median     Mean  3rd Qu.     Max.     NA's 
-0.46870 -0.06186  0.02654  0.02218  0.12780  0.47510      183

Edit2：至于“我调查的真实性质”：有问题的“解决方案”可能是食盐水和天然海水的混合物。我想做的是找到一种明确的方法（通过统计分析）来表明我有更多的一种或另一种。我曾希望我的简化问题/数据集能从社区中得到答案，但似乎我离题了。如果有帮助，完整的数据集现在托管在下面：

http://www.filedropper.com/clna

查看完整数据的分布显示我有更多大约 1.00 的 Cl/Na，但这似乎不足以支持一个论点。我有一种或另一种解决方案的概率是未知的。我有 Cl to Na 的原始数据和相关模型可以运行。

为了澄清，最初的问题仍然是我想解决的问题。另一个问题可能是：我有更多的解决方案，我使用了什么分析来得出这个结论？

1个回答

所以在过去的 20 个小时左右，我一直在努力理解这个问题。有很多有用的讨论，但没有明确的答案。我找到了一些资源，可以帮助其他人理解我为什么选择走这条路。

1)土壤平衡：酸雨会发生什么？作者 Sharon Anthony、Michael Beug、Roxanne Hulet 和 George Lisensky 是一本很好的化学学习书，我认为它对如何使用t-test进行了彻底的解释，但不一定是为什么要使用它。

2) minitab.com 上的这篇博文解释了何时使用 t 检验以及有关如何使用它的其他信息。

我认为这里的关键在于，根据原始帖子，我预计斜率为 1.00 或 1.16，这取决于如果我散布图 Na 和 Cl，我有哪种解决方案。另一种表述方式是，我预计该组中每个样本的 Cl 与 Na 的比率为 1.00 或 1.16。这给了我两个假设来测试我的 t 检验。

t 检验定义为：

$t=\frac{|x-known| * \sqrt N}s$

其中将给出一个值，用于将实验平均值与已知值进行比较，然后我们可以将其与相应的自由度 ( ) 和置信区间 (让我们选择 95%) 的列表 t 表进行比较。是标准偏差，是这个例子的平均 Cl 与 Na 比率，并且是我要测试的已知值或假设： $t$ $N$ $s$ $x$ $known$

对于假设 1) ，每个样品的 Cl 与 Na 的比率等于 1.16。

我们的平均 Cl 与 Na 比率是（在 R 中）或 0.95。同样， =或 0.14。现在，如果我们插入并插入 t 检验方程，我们会得到 4.5 的。，列表中对应的为 2.26。我们计算大于列表中的 t 值，因此平均值在 95% 置信区间内不同于 1.16。 $x$ mean(Cl/Na) $s$ sd(Cl/Na) $t$ $t$ $N = 9$ $t$ Cl/Na

对于假设 2) ，每个样品的 Cl 与 Na 的比率等于 1.00。

我们将使用与假设 1 相同的步骤（仅更改），得到。和 95% 的置信区间， 1.07 小于我们列出的 t 值 2.26 ，因此我们可以说我们的平均值在 95% 的置信区间内与 1.00 没有区别。 $known$ $t = 1.07$ $N$ Cl/Na

因此，为了回答这个问题，我很可能根据 t 检验将食盐溶解在水溶液中。我希望一些统计爱好者可以评论这是否是一个有效的答案！

编辑：9 个自由度，10 个样本。

Edit2：Rt.test(Cl/Na,mu=1)显然没有得出与我上面所做的相同的结论。我不知道为什么。

其它你可能感兴趣的问题

上一篇如果您知道数据的中心矩，请找到具有任意中心矩的XXFfF( X)f(X) 下一篇用于全连接 LSTM 的 Garson 算法