预测汽车的速度

数据挖掘 机器学习 神经网络 喀拉斯 线性回归
2022-02-09 12:27:46

我正在研究commaai speedchallenge挑战的目标是根据行车记录仪视频预测汽车的速度。到目前为止,我发现的所有示例(示例 1示例 2)都使用了某种在帧中获取信息的方法xth,,xt2,xt1当试图预测帧的速度时xt. 我认为这是有道理的,因为您可以通过查看两帧之间的差异来了解速度。如果没有参考点(只有一帧),就很难预测车速。

好吧显然不是!在寻找解决方案时,我还找到了这个存储库我将总结使用的方法:

  • 将帧重新缩放为 50x50 图像,并将它们分成两组:X_trainX_test.
  • X_trainX_test并将它们传递给已经训练过的称为VGG16的卷积网络的前两个块,这样你就可以得到输出X_train_featuresX_test_features代码的作者解释说他想使用迁移学习,因为他的计算机规格不足以自己训练网络。
  • 根据提取的特征训练线性回归器并计算均方误差。

如果我理解正确的话,这段代码的作者只是单独查看每一帧,将帧通过网络VGG16的前两个卷积块,并根据提取的特征预测汽车的速度,而不看前面帧!

我已经测试了代码并且它可以工作,它的均方误差略高于 1!

问题:我是否遗漏了什么,或者你能仅通过查看单帧的特征来预测汽车的速度吗?如果答案是肯定的;那怎么办?

我知道你可以从训练有素的卷积网络的早期层中获取权重并将它们用于其他目的。这是可能的,因为卷积网络的早期层通常只过滤非常一般/粗略的形状。我只是不明白的是,您如何仅基于那些低级特征来预测与其他帧相关的事物。如果人类只看数据中的一帧,他就无法正确预测汽车的速度,对吧?

1个回答

即使在一帧中也应该存在一些速度的视觉指标。一个容易想到的例子是“模糊”,如果图片是模糊还是绝对清晰,看着静态图像,您仍然可以确定“运动”(以及因此速度)。

此外,其他物体的透视、深度和形状可能会因速度而异。

因此,当然可以仅基于静态图像训练模型,但它肯定不应该优于同时使用静态图像特征和帧之间差异的模型。

编辑:

我还看了一些 repo 和提出的方法。在使用的方法中,如果视频只有一个驱动器,则可能存在巨大的过拟合问题!

在这种情况下,图像检测只会识别照片拍摄的“位置”,并且由于沿驱动器的任何点都与单一速度相关联,因此它可以从那里工作,即:当卡车驶过一棵棕榈树时,他正以 30 英里/小时的速度行驶所以识别图片中的手掌应该预测 30mph,这适用于单个驱动器数据集,但显然无法概括。