如何比较相关数据集中的黄土模型?

机器算法验证 r 黄土
2022-03-17 10:39:04

我正在比较一系列患者的匹配数据,研究精神压力对心脏传导的影响。我正在使用 loess 函数来直观地描述我的数据,并且有 2 条曲线:一条用于有精神压力,一条用于没有精神压力。我想比较这些曲线。

是否可以比较来自不同(思想相关)数据集的两个黄土模型。或者,我可以用 1/0 编码 +/- 心理压力并使用它来获得两个模型之间的统计关系吗?

任何指针都会受到高度赞赏。

4个回答

不幸的是,黄土拟合没有可比性。loess(或lowess)曲线不像基于线性或二次或三次方程的曲线。我知道没有统计软件包可以提供定义黄土曲线的方程,也没有拟合统计量,例如R平方。这样的曲线完全是机会主义的,因此对于每个数据集都是独一无二的。黄土拟合是理论上的;人们不想用它来尝试在数据集之间正式复制一种模式。您可能会说它“仅用于探索性目的”,即使在那里也必须小心,因为您可以通过阅读诸如此类的线程来查看

数据和曲线之间的方差是否大于两条曲线之间的方差,对患者进行平均?如果你想要一个 p 值,我想你可以假设误差的正态性并使用方差比的 F 检验。黄土合身不是正式合身,所以这不是正式测试。你能用正式的合身吗?看看图表。它们在患者中看起来是否相同?

R中的predict.loess有一个se参数,如果 TRUE 则返回所有预测点的标准误差。这些是残差的通常标准误。也可以简单地取预测值与原始值之间差异的绝对值,从而得到一系列绝对误差。这些通常比标准错误更稳健。

无论如何,有了这些,您就可以进行交叉验证或折刀,以了解一组参数中的哪一个能更好地描述数据集。

请注意,在时间序列应用程序中,这些是相关数据,因此交叉验证或折刀点是不合适的:您需要以某种原则性的方式选择原始父级的随机子序列并交叉验证这些子序列。这些的长度或窗口应该与原始数据集或问题中的某些现象范围相关联。如果做不到这一点,可以考虑使用在tseries包的tsbootstrap函数中实现的 Politis 和 Romano 的固定引导程序。这为相关序列提供了更多的灵活性,但分析人员仍然需要指定平均块长度。

一般来说,当比较两条不同的拟合曲线时,要走的路是一种性能测量。它不允许您得出强有力的结论,但是如果您有两个选项,例如可以计算 R 平方,并且至少知道您的拟合程度如何。