我正在研究commaai speedchallenge。挑战的目标是根据行车记录仪视频预测汽车的速度。到目前为止,我发现的所有示例(示例 1、示例 2)都使用了某种在帧中获取信息的方法当试图预测帧的速度时. 我认为这是有道理的,因为您可以通过查看两帧之间的差异来了解速度。如果没有参考点(只有一帧),就很难预测车速。
好吧显然不是!在寻找解决方案时,我还找到了这个存储库。我将总结使用的方法:
- 将帧重新缩放为 50x50 图像,并将它们分成两组:
X_train和X_test. - 取
X_train,X_test并将它们传递给已经训练过的称为VGG16的卷积网络的前两个块,这样你就可以得到输出X_train_features和X_test_features。代码的作者解释说他想使用迁移学习,因为他的计算机规格不足以自己训练网络。 - 根据提取的特征训练线性回归器并计算均方误差。
如果我理解正确的话,这段代码的作者只是单独查看每一帧,将帧通过网络VGG16的前两个卷积块,并根据提取的特征预测汽车的速度,而不看前面帧!
我已经测试了代码并且它可以工作,它的均方误差略高于 1!
问题:我是否遗漏了什么,或者你能仅通过查看单帧的特征来预测汽车的速度吗?如果答案是肯定的;那怎么办?
我知道你可以从训练有素的卷积网络的早期层中获取权重并将它们用于其他目的。这是可能的,因为卷积网络的早期层通常只过滤非常一般/粗略的形状。我只是不明白的是,您如何仅基于那些低级特征来预测与其他帧相关的事物。如果人类只看数据中的一帧,他就无法正确预测汽车的速度,对吧?