如何确定一种拟合是否明显优于略有不同的拟合?

机器算法验证 卡方检验 拟合优度 曲线拟合
2022-03-28 14:19:20

背景:在行星天文学中,我们必须估计太阳系中固体物体(地球除外)表面年龄的唯一方法是识别陨石坑。然后,我们将这些与既定的年表进行比较,该年表将陨石坑的数量密度与直径联系起来D1公里(通常写为N(1)) 具有从阿波罗月球样本返回任务确定的绝对年龄。

连接年龄的函数TN(1)历史上一直适合以下形式:

N(1)=α(exp(βT)1)+γT

在哪里α,β, 和γ是拟合的参数。定性地说,这表达了这样一种想法,即在早期,陨石坑呈指数下降,而在一定时间之后,直到今天为止都是线性速率。

这种拟合最多受到大约 15 个点的限制,对于超过大约 39.5 亿年的年龄,它完全不受限制(除了物体的最大质量),并且在大约 1 到 30 亿年前没有数据点。

问:作为我研究的一部分,我正在重新做一些旧的工作。我正在使用已建立的辐射年龄并重新计算陨石坑计数以适应新功能。我的问题是,从我的新数据来看,这个版本的 fit 函数“看起来”很糟糕。一个研究小组在 2007 年提出了更多的二次下降,因此将函数修改为:

N(1)=α(exp(βT)1)+γT2+δT

添加二次项大大增加了拟合“看起来”的好坏程度,但只有 11 分,我担心我可能会进入一个我刚刚获得改进拟合的区域,因为我正在添加更多自由参数。而且,审稿人可能会想要更定量的东西,尤其是因为每个人为此使用的论文都有第一个版本。

请注意,数据范围大致为0<T<4.5106<N(1)<100,虽然它们表现得有些乖巧,但它是非线性的(正如函数所暗示的那样)。

我计算了减少的χ2每个版本,它分别是 2.8 和 1.7。但是,这是一个高度非线性的函数,根据我所做的一些阅读,χ2可能不是一个有意义的指标来确定拟合到底有多好。有人建议我做一个不完全伽马函数测试来确定是否χ2是有意义的,但其结果是 0.00018 与 0.017 ......我不知道这些意味着什么,除了我认为更大(如果仍然很小)的数字更好地表明二次方更有意义。

那么......用这种数据确定一个拟合函数在统计上是否优于另一个拟合函数的一种(或几种)好方法是什么? χ2? 或者是其他东西?

数据:作为编辑,我被要求分享数据,因为它们只是几个点......我将不得不拒绝,因为数据未发表,未审查,未审查,这是一个非常我正准备在《科学》杂志上发表的可挖掘项目……我将在两周后参加一个会议,希望能让我更好地了解我是否疯了。

在这一点上,我可以分享的是已发布的数据,这些数据是我的更新。

+------+-------+
|    T | N(1)  |
+------+-------+
|-3.92 |0.034  |
+------+-------+
|-3.84 |0.057  |
+------+-------+
|-3.85 |0.037  |
+------+-------+
| -3.8 |0.009  |
+------+-------+
|-3.75 | 0.01  |
+------+-------+
|-3.58 |0.0064 |
+------+-------+
|-3.41 |0.0033 |
+------+-------+
| -3.3 |0.0032 |
+------+-------+
|-3.22 | 0.003 |
+------+-------+
|-3.15 |0.0036 |
+------+-------+
| -0.8 |0.0013 |
+------+-------+
|-0.109| 9e-05 |
+------+-------+
|-0.053|4.4e-05|
+------+-------+
|-0.025|2.1e-05|
+------+-------+

从这些或非常细微的变化中,该领域的每个人都使用的参数是α=5.441014,β=6.93,γ=8.38104. 对于我的修订和新的配合,我的参数是α=2.611035,β=19.4,γ=1.46104,δ=1.71103. 而且,由于我从今天早上开始在两周内介绍这个,我确实有一个 2 页的摘要,其中更详细地讨论了这个,并且确实包含一个或三个带有所示功能的图表

请注意,从物理上讲,没有充分的理由期望它在一定时间后是线性的,而不是二次的。但是 exp-lin 模型只是人们为了合理而简单地拟合可用数据而提出的东西。如果我们有无限的分辨率,很可能需要一个更复杂的模型,并且由于小行星家族的形成,整个地方都会出现洛伦兹尖峰。但在这一点上,这些低于噪音。

1个回答

正如 Peter Flom 建议的那样,给定您的模型,您有一个似然函数,并且这些信息标准可以将基于似然函数的模型与使用的参数的惩罚进行比较,当信息标准最大化时,这些惩罚可以导致“最佳”拟合。AIC 和 BIC 的形式为 -2 对数似然 + 惩罚,并且在惩罚的选择上有所不同。所以最好的标准意味着最大。从某种意义上说,这可能会有所帮助,因为它可以绕过选择过度拟合的模型。但有可能你仍然有两个接近的模型。你真的应该选择最大的那个吗?如何在它们之间做出决定的问题仍然存在。可能真的需要更大的数据集来区分两者。