使用分段线性回归作为人类寿命极限的证据

机器算法验证 回归 分段回归
2022-03-22 03:51:35

《自然》杂志今年发表了以下论文:人类寿命极限的证据1,其中作者争辩说,他们的“结果强烈表明人类的最长寿命是固定的,并且受到自然约束。”

本文的其中一项统计分析已经在一些网站上被淘汰,包括《自然》关于人类寿命的 115 年限制有效同行评审限制的证据的文章是错误的,因为它出现在一些流行媒体上。

该研究主要基于数据库中的数据,这些数据详细说明了每年的最大死亡年龄。在他们的分析中,包括下图

http://www.nature.com/nature/journal/v538/n7624/images/nature19793-sf6.jpg

基本上,作者认为存在一个断点,因此他们在大约 1995 年之前和该点之后执行了分段回归。回归被用作人类寿命极限的证据。

这有意义吗?如果不是,用什么方法可以更好地研究这些数据?

[1] 董、肖、布兰登·米尔霍兰和扬·维格。“人类寿命有限的证据。” 自然 538.7624(2016):257-259。

2个回答

我认为结论的性质完全是胡说八道。我们看到 1950 年至 2015 年期间呈上升趋势,然后呈下降趋势。这是一个经典的谬误,即应用暗示与测试假设不同的假设的数据并将其呈现出来。使用这些数据,分段回归可以插值并预测 1995 年的局部寿命最大值约为 115 年±他们从分段回归中估计的任何错误。这并不排除 2020 年或 2030 年的趋势会取代该值。

  1. 自然寿命的概念与衰老、遗传学和端粒研究的优势相冲突。
  2. 需要使用“芯片上的身体”技术来解决人类自然寿命的实验设计。
  3. 50年在人类历史进程中是微不足道的。过去有很多时候,寿命的上升趋势之后是下降的趋势。
  4. 可以从具有不可测量的不连续性和/或渐近线的非线性模型模拟出诸如所呈现的数据。
  5. 由于模型的目标是预测,因此需要分布假设和均值模型的正确性,而且(似乎)这些都没有被检查过,也没有得到满足。

首先,让我们从原始图 2 中手动提取值并绘制数据,不要使用任何颜色或回归线来影响我们对原始数据的第一次视觉检查。

year <- c(1968, 1970, 1973, 1975, 1978, 1979, 1980, 1981, 1982, 
          1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 
          1992, 1994, 1993, 1995, 1996, 1998, 1997, 1999, 2000, 
          2001, 2002, 2003, 2004, 2005, 2006)
age <- c(111, 111, 112, 111, 111, 110, 111, 113, 113, 113, 111, 
         114, 113, 114, 114, 112, 112, 112, 114, 115, 117, 112, 
         114, 115, 121, 119, 114, 115, 115, 114, 113, 114, 112)

plot(year,age,xlab="Year",
     ylab="Yearly maximum reported age at death (years)", 
     pch=20,cex=2,ylim=c(108,124),xlim=c(1960,2010))

我们获得:

散点图年龄与年份

而且,让我们对图 6 中的数据做同样的事情(如上面的问题所示):

age <- c(113, 109, 109, 110, 113, 109, 110, 111, 111, 111, 
         112, 112, 113, 111, 111, 113, 113, 113, 114, 115, 
         113, 114, 122, 119, 117, 114, 115, 115, 114, 114, 
         115, 116, 115, 115, 114, 114, 116, 116, 117)
year <- c(1954, 1957, 1958, 1958, 1963, 1964, 1965, 1967,
          1968, 1970, 1975, 1972, 1976, 1976, 1977, 1980, 
          1981, 1982, 1984, 1985, 1986, 1987, 1997, 1998, 
          1998, 1999, 2001, 2001, 2002, 2003, 2006, 2006,
          2008, 2007, 2010, 2011, 2011, 2012, 2015)

plot(year,age,xlab="Year",
     ylab="MRAD from GRG", 
     pch=20,cex=2,ylim=c(108,124),xlim=c(1950,2020))

在此处输入图像描述

似乎一个简单的线性回归模型将是挑战作者提出的不那么简约的变化点模型的自然候选者。事实上,Philipp Berens 和 Tom Wallis 已经这样做了,并在 github 上发表了他们的重新分析:https ://github.com/philippberens/lifespan