根据一系列观察估计潜在的性能潜力

机器算法验证 时间序列 贝叶斯 潜变量 等渗
2022-03-15 16:39:32

语境

  • 您有 200 次观察个人跑步时间的 100 米,每天测量一次,持续 200 天。
  • 假设个人在开始练习之前不是跑步者
  • 根据观察到的数据和其他 199 个观察结果,您想估计个人在 (a) 施加最大努力时跑步所需的潜伏时间;(b) 对他们来说有相当好的运行(即运行没有重大问题;但仍然是典型的运行)。让我们称之为潜在的潜力

当然,实际数据不会直接测量潜在潜力。数据会很嘈杂:

  • 时间会因运行而异
  • 在某些日子里,由于一个或多个可能的问题(例如,开始时绊倒,中途抽筋,没有付出太多努力),个人会特别慢。此类问题将导致大量异常值
  • 在某些日子里,这个人会比你预期的要慢,可能是因为更多的小问题。
  • 一般来说,通过练习,预计跑步者的潜在潜力会变得更快。
  • 在极少数情况下,跑步者的潜在潜力可能会变慢(例如,受伤)

这样做的影响:

  • 偶尔的缓慢时间可能会提供有关个人能力的最少信息。
  • 一个人的快时间表明这个人有能力这么快,但是这种快时间的一小部分可能是当天的好运(例如,正确的风,开始时有一点运气)。

问题: 因此,如何根据可用数据和一些关于运行时间性质的假设来估计 200 个时间点中的每一个的潜在潜力?

初步想法:我想会有某种形式的贝叶斯方法将可用信息和假设结合起来形成估计,但我不确定在哪里可以找到这样的模型。我也不太清楚如何评估这种模型的有效性。

3个回答

您需要执行等渗(即单调非递减)非参数回归(参见文档第 6 页的示例),然后使用为上势。在 R 中有许多包可以做到这一点。我喜欢这个简单的包。E^(y|x)+δσ^(y|x)δ>0

等渗非参数只是您的常规散点图更平滑,添加了更多的不能减少平滑(即药物剂量与效果)。xy

从下面的第一条评论开始,您的设计包括一个向量虚拟变量(控制伤害、跑步方式)和一个连续变量(天),假设(潜在性能)由下式给出:其中是单调散点图平滑器,已知且这种类型的模型可以通过等渗 GAM 进行估计(请参阅此处实现的本文)。kzxyE(y|x,z)=m(x)+αz+δm(x)δ>0αRk

编辑:我更改了论文的链接,(旧链接指向同一作者的方法的派生)。

只是一个猜测。

首先,我将探索数据的转换,例如将时间转换为速度或加速度。然后我会考虑那个日志,因为它显然不会是负数。

然后,由于您对渐近线感兴趣,我会尝试(通过最小二乘法)对转换后的数据拟合一个简单的指数,时间 t 是 x 轴,对数转换后的速度(或加速度)是 y 轴。看看随着时间的增加,它如何预测新的测量值。

指数函数的一个可能替代方案是 Michaelis-Menten 类型的双曲线。

实际上,我会首先强烈考虑混合效应总体方法(与 NONMEM 一样),因为每个人可能没有显示足够的信息来评估不同的模型。

如果你想去贝叶斯,你可以使用 WinBugs,并为指数函数的参数提供任何你想要的先验分布。我发现有用的书是 Gilks​​、Richardson、Spiegelhalter,“Markov Chain Monte Carlo in Practice”,Chapman & Hall,1996 年。

人们可以将记录的时间视为对跑步者潜在能力的有偏见的估计。很多因素会导致时间比潜在最佳时间差,例如糟糕的开始,逆风,绊倒,错误判断速度等,而很少有因素会导致记录时间优于潜在最佳时间,例如强顺风或下坡跑。我对带有偏误的回归不是很熟悉,但显然在执行 GLM 回归时可以使用 gamma 系列;有人会将时间用作因变量,将观察到的时间用作因变量。