这个问题是关于解释非线性回归模型的结果,特别是在使用回归样条曲线时。在解释效果时,数值输出的信息量不是很大,因此我们必须依靠图表。
我做了一个带有二元因变量、logit 链接和一些自变量的广义加性回归模型。因变量是成年时饮酒的当前风险,而对这个问题感兴趣的自变量是受试者第一次饮酒的年龄。这是基于横截面数据和饮酒开始年龄的回顾性报告,这当然会带来很多问题,但这不是这里的问题。我的问题是关于下图的解释:
我想知道我的解释是否正确。首先,我们可以看到置信区间在 13-18 岁左右很窄,而在早期和晚期则非常宽。
- 是否可以得出这样的结论,即较低和较高范围内的宽置信区间部分是由于这些年龄范围内的观察结果很少?如果观察的数量分布更均匀,曲线在这方面是否会有所不同?
编辑:哎呀,忍不住,我不得不尝试一下:
该图所基于的模型包含相同数量的观测值,但加权后,每个年龄组(年龄记录为 6-30 范围内的整数)的贡献均等。
这回答了我自己的问题,这里的置信区间通常要窄得多,但不是在 13-18 岁的年龄范围内,因为该图中的数据较少。我会保留它,因为它为我下面的下一个问题提供了很好的扩展:
下一个问题:
- 在考虑第一张图时,我们可以得出什么结论(假设没有召回偏差和选择偏差等问题)?我想说的是,这张图表明,早期开始的年龄与成年期饮酒的风险更大有关,并且在 12 岁时风险最大,而在此之下,置信区间太宽,无法得出任何确定的结论。13-18 岁的置信区间非常窄,因此可以肯定地说,将开始饮酒的时间推迟到至少 18 岁似乎可以防止成年后的饮酒风险(再次,假装没有偏见问题ETC)。18 岁以上,趋势似乎向上,但置信区间非常宽,无法得出任何结论。
这是对图表的可接受解释吗?当使用平滑器来说明非线性效果时,没有我们可以报告的有意义的数字,所以我试图了解如何向读者报告这些类型的结果。
所以这个问题的扩展基于上面的第二张图。如果该图是我的研究结果,是否可以说基于置信区间,似乎存在三个峰值,即开始饮酒的年龄似乎会增加以后冒险饮酒行为的风险:年龄10-13 岁、21-22 岁和 28 岁及以上。这当然是不现实的,但是通过这个图表和上面的解释,我们可以继续推测为什么这些年龄范围似乎与饮酒风险如此密切相关。对我来说,这张图似乎表明,基于置信区间,这些峰和谷的证据非常有力。
在解释这些非线性效应时,严重依赖置信区间而不是 p 值是否正确?