创建增长图表的最佳方法

机器算法验证 序数数据 分位数 回归策略 广义最小二乘法 增长模式
2022-03-11 19:56:08

我必须为 5 到 15 岁的儿童(只有 5、6、7 等;没有像 2.6 岁这样的小数值)为非负的、连续的、连续的健康变量创建图表(类似于成长图表) 50-150 的范围(只有少数值超出此范围)。我必须创建第 90、第 95 和第 99 个百分位曲线,并为这些百分位创建表格。样本量约为 8000。

我检查并发现了以下可能的方法:

  1. 找到分位数,然后用黄土法从这些分位数中得到一条平滑的曲线。平滑度可以通过“span”参数进行调整。

  2. 使用 LMS (Lambda-Mu-Sigma) 方法(例如在 R 中使用 gamlss 或 VGAM 包)。

  3. 使用分位数回归。

  4. 使用每个年龄组的平均值和 SD 来估计该年龄的百分位数并创建百分位数曲线。

最好的方法是什么?我所说的“最佳”是指作为创建此类增长曲线的标准方法并且所有人都可以接受的理想方法。或者一种更容易实现的方法,它可能有一些限制,但是是一种可以接受的更快的方法。(例如,在百分位值上使用 loess 比使用 gamlss 包的 LMS 快得多)。

此外,该方法的基本 R 代码是什么。

谢谢你的帮助。

2个回答

有大量关于增长曲线的文献。在我看来,有三种“顶级”方法。在所有三个中,时间都被建模为具有足够数量(例如,6 个)结的受限三次样条。这是一个参数平滑器,具有出色的性能和易于解释。

  1. 具有合理相关模式的纵向数据的经典增长曲线模型(广义最小二乘法),例如连续时间 AR1。如果您可以证明残差是高斯分布的,则可以使用估计的均值和共同标准差获得分位数的 MLE。
  2. 分位数回归。这对于非大无效。即使精度不是最佳的,该方法也做出了最小的假设(因为一个分位数的估计与不同分位数的估计没有联系)并且是无偏的。n
  3. 序数回归。这使用半参数模型(例如比例优势模型)将连续视为序数以便稳健。从序数模型中,您可以估计平均值和任何分位数,后者仅在是连续的情况下。YY

高斯过程回归从平方指数内核开始,尝试通过眼睛调整参数。稍后,如果您想正确地做事,请尝试不同的内核并使用边际似然来优化参数。

如果您想要比上面链接的教程提供的更多详细信息,这本书很棒