詹姆斯的方法看起来不错:根据您的描述,每个观察结果都可能具有二项式(n[i],p[i])分布,其中 n[i] 是已知的并且——完全通用——p[i]是一个完全未知的函数,它随着 i 的增加从接近 0 上升到接近 1。仅针对 X[i]==i 作为解释变量的逻辑回归(具有二项式响应和逻辑链接的 GLM)甚至可能有效。如果不合适,您可以引入其他术语,例如更高的幂或(更好的是,考虑到非参数精神)样条曲线。这也很容易将任何协变量合并到模型中。
实际上,响应的突然变化实际上可能只是 logit(p) 的自然线性(或接近线性)级数,其上叠加了二项式可变性。正是这种可能性使我稍微偏离了 Thylacoleo 所指出的方向,他的方法显然是有效的并且可能是有效的。我只是怀疑(希望?)您的情况可能适合这种稍微简单的分析。
一个复杂的可能性涉及响应的可能自相关,但只有在逻辑残差看起来过度分散或分散不足时才需要进行调查。
作为 EDA 的问题,您可以以自然的方式平滑连续的观察结果,并根据 i 绘制它们的logits。例如,要平滑观察 y[i] 和 y[i+1],您将构造 (n[i]*y[i] + n[i+1]*y[i+1])/(n[i ] + n[i+1]),有效地合并两个连续批次;可以用相同的方式构建更长的平滑窗口。(这也将自动消除任何负的短期时间相关性。)对平滑的拟合不会完全正确——它会比适当的陡峭——但它会建议对一般形式的选择用于回归的协变量(即 i 的函数)。
当然,这只是众多可能模型中的一种。例如,每个时间点的观察结果可能是二项式混合,这将允许过度分散和在 logit 尺度上获得非线性拟合的另一种方式。