从不连续的时间预测比例

机器算法验证 时间序列 部分 变化点 S形曲线
2022-04-06 15:16:41

想象

  • 有一个因变量,它是一个比例(即,在给定时间点进行的满足条件的观察的比例,其中每个时间点涉及 50 到 250 个观察)Y
  • Y在一系列时间点处测量,其中,通常为 400 左右。XX=1,2,3,...
  • 在初始时间点,通常等于零或接近零Y
  • 经过一段延长的时间后,通常等于 1 或接近 1Y
  • 值增加的过渡之间的某个点Y
  • 在整个过程中,存在相当大的时间点到时间点的可变性,并且鉴于 Y 是一个比例,误差的分布是不正常的。另请注意,零和一的值是常见的。

数据的属性因研究而异,例如:

  • 的初始值Y
  • 值开始增加的时间点Y
  • 从值主要在 0 左右过渡到主要在 1 左右的过渡持续时间

问题

  • 对此类数据有什么好的建模方法?
  • 如何检测从接近零的值到接近一的值的转变开始,尤其是考虑到非正态误差?
3个回答

在我看来,Y(X) 是一个sigmiodal过程。因此逻辑回归应该适用于这些数据。如果您在 R 中对此建模:

glm(Y~X,family=binomial)

你会发现过渡的“锐度”是由 X 系数的大小决定的,而过渡点(技术上是中点)是截距系数与 X 系数乘以 -1 的比值。我制作了一张图片来说明这一点,但由于某种原因似乎无法上传。

忽略“变化点”,您的描述向我建议了以下形式的(非线性)混合效应模型:

g(E(Yi)) = Xi*beta + Zi*U

其中 beta 是固定效应,U 是随机效应,g(E(yi)) 是与二项式均值的 (logit) 链接。

这将处理数据的对数相关性和非高斯分布问题。

这必须与某种形式的变化点模型相结合,可能是隐马尔可夫模型 (HMM)。

http://en.wikipedia.org/wiki/Hidden_​​markov_model

可能需要将模型设置为 MCMC 格式的有向无环图 (DAG),甚至使用 WinBUGS 等软件在贝叶斯框架中完全指定它。

看:

http://en.wikipedia.org/wiki/Directed_Acyclic_Graph

http://en.wikipedia.org/wiki/MCMC

http://en.wikipedia.org/wiki/WinBUGS

詹姆斯的方法看起来不错:根据您的描述,每个观察结果都可能具有二项式(n[i],p[i])分布,其中 n[i] 是已知的并且——完全通用——p[i]是一个完全未知的函数,它随着 i 的增加从接近 0 上升到接近 1。仅针对 X[i]==i 作为解释变量的逻辑回归(具有二项式响应和逻辑链接的 GLM)甚至可能有效。如果不合适,您可以引入其他术语,例如更高的幂或(更好的是,考虑到非参数精神)样条曲线。这也很容易将任何协变量合并到模型中。

实际上,响应的突然变化实际上可能只是 logit(p) 的自然线性(或接近线性)级数,其上叠加了二项式可变性。正是这种可能性使我稍微偏离了 Thylacoleo 所指出的方向,他的方法显然是有效的并且可能是有效的。我只是怀疑(希望?)您的情况可能适合这种稍微简单的分析。

一个复杂的可能性涉及响应的可能自相关,但只有在逻辑残差看起来过度分散或分散不足时才需要进行调查。

作为 EDA 的问题,您可以以自然的方式平滑连续的观察结果,并根据 i 绘制它们的logits例如,要平滑观察 y[i] 和 y[i+1],您将构造 (n[i]*y[i] + n[i+1]*y[i+1])/(n[i ] + n[i+1]),有效地合并两个连续批次;可以用相同的方式构建更长的平滑窗口。(这也将自动消除任何负的短期时间相关性。)对平滑的拟合不会完全正确——它会比适当的陡峭——但它会建议对一般形式的选择用于回归的协变量(即 i 的函数)。

当然,这只是众多可能模型中的一种。例如,每个时间点的观察结果可能是二项式混合,这将允许过度分散和在 logit 尺度上获得非线性拟合的另一种方式。