看起来简单的逻辑回归会很好用。希望这与您拥有的数据非常匹配。我试图尽可能地减少行话。
为简单起见,让我们将分析限制在一条公交路线上(您可以简单地对其他路线重复此过程)。您尝试测量的因/预测变量是二元变量y; 那是,y=0如果公共汽车错过了车站,并且y=1如果公共汽车停下来。
从您的 GPS 数据中,您可以提取y一堆以前的公共汽车运行。假设你有N在这个数据中的观察。最好将其概念化为向量/列表,y={y1,y2,...,yN}. 例如,y={0,1,0,0,1}将对应于五次观察的错过、停止、错过、错过、停止。
现在您想开发一系列可用于预测的预测变量/自变量y以备将来观察。AccidentalStatistician 提到了一些可能性。这里有几个简单的:
公交车是停了还是错过了上一个公交车站(调用这个变量x1)。这也是一个二进制变量。例如,这可能会提供非常丰富的信息 x1={0,1,0,0,1}, 会证明y=x1. 当然,没有理由只检查前一个巴士站。为了完整起见,您可以尝试使用该线路上所有以前的公交车站作为预测变量。每个都将是一个二进制向量,例如x1以上。
公共汽车和它前面的公共汽车之间的距离(称之为x2)。相比之下x1,这个变量是连续的,可能看起来像x2={0.53,0.9,0.72,0.81,0.62}其中每个条目对应于停车时两辆公共汽车之间的距离(例如,以英里为单位)(或在停车前的某个时间段内取平均值)。以分钟为单位测量此距离可能比以英里为单位提供更多信息。
一天中的时间。x3={8.5,9.2,10.1,11.2,14.9}在几小时内。
- 一年中的一天……希望你现在得到食谱。随意提出更多想法。
重要的一步是找出您认为在您的数据中可能重要的内容,并将其提炼成一些简单的形式(例如零和一)。
一旦你有了这种形式的数据,你就可以运行逻辑回归来预测概率y=1对于任何观察值x1,x2,...,xp(在哪里p是自变量的数量)。如果你只有一个自变量,x,结果看起来像这样(图片来源)

在这里,黑点是您的观察值y根据您的观察值绘制x. 红线是预测的概率y=1对于任意值x(这里x是一个连续变量)。
以下来源解释了如何在 R 中拟合逻辑模型:LINK。我推荐以下教科书作为逻辑回归和多元线性回归(具有非常相似的动机)的介绍LINK。以及以下书籍,用于深入了解逻辑回归和其他分类方法:LINK。最后的参考资料将涵盖许多非常重要的变量选择方法——很容易提出过多的自变量并过度拟合您的数据:LINK。不要这样做!