关于我的数据集的一般信息:我有 40k 个数据点和 5 个特征。我正在做回归并尝试建立一个可以预测 GPS 错误的模型。例如,假设您的车辆 GPS 出现 10 米的误差,而您想要纠正它。所以我带来了另一个超级 GPS,它非常准确,在驾驶时测量了 40k 数据,所以在我的数据集中我有一些车辆信息,它们是速度、加速度、偏航率、时间戳和车轮角度,我有位置信息,它们是地面真实经度纬度以及我正常 GPS 中的错误经度和纬度。我将这些纬度和经度转换为 x 和 y 只是为了知道我应该将我的虚假经度和纬度移动多少,以便我的位置可以更准确并类似于地面实况值。在这种情况下,我的数据会变坏吗?我正在尝试预测 GPS 产生的经纬度误差,以便我以后可以纠正它,所以这是一个回归问题,我正在使用上面的这些功能来做我认为它们提供的信息,因为速度、加速度、偏航率和车轮角度与位置有关(我错了吗?)
我一般问这个,我在网上看了一些文章,说数据有时不好或数据质量不好,但我不知道神秘句子的真正含义。
我在训练神经网络时也遇到了问题,我的损失在前 10-20 个时期开始减少,然后它停留在某个高值上,网络停止学习,就像它正在努力摆脱那个损失值一样,但它可以不。我尝试只使用 100 个数据点而不是全部 40k,我注意到它工作得很好,NN 实现了适应这些,但是随着我增加数据点的数量,性能变得更差(你对此有什么想法吗?)
有些人建议我没有很多数据和很多特征,在这种情况下,最好使用一些机器学习方法,因为它在小数据集的情况下优于 NN,或者如果我的情况像我这样的特征很少,所以我也尝试使用随机森林,我注意到它比神经网络提供了更好的结果,但它也不能很好地概括,即使它在训练和验证集上给了我很好的结果,当我在测试数据(随机森林的数据没见过),它的表现真的很糟糕。
所以我在互联网上阅读可能导致这些问题的原因,我注意到有时我看到有人或文章声称数据质量可能很差!但这究竟意味着什么?我认为神经网络可以映射任何类型的数据,如果我有一个特征和一个目标,那么神经网络可以将这两者映射在一起,至少它可以过度拟合数据,对吧?
所以有人可以告诉我什么是坏数据或更好我怎么知道我的数据是否坏?好吧,如果有办法知道这一点,那么我可能会节省时间,而不是开始从事一个需要我一个月才能完成然后发现我的数据不好的项目。你能告诉我我的案子是否有意义吗?我的意思是我觉得奇怪的是,NN 的性能比随机森林差得多。至少我的神经网络应该过度拟合数据还是我错了?