数据挖掘 - 在这种情况下，我可以说数据很糟糕，并且使用机器学习我将一事无成 - 吾爱随笔录

在这种情况下，我可以说数据很糟糕，并且使用机器学习我将一事无成

数据挖掘机器学习神经网络数据集数据随机森林

2022-02-12 10:42:43

关于我的数据集的一般信息：我有 40k 个数据点和 5 个特征。我正在做回归并尝试建立一个可以预测 GPS 错误的模型。例如，假设您的车辆 GPS 出现 10 米的误差，而您想要纠正它。所以我带来了另一个超级 GPS，它非常准确，在驾驶时测量了 40k 数据，所以在我的数据集中我有一些车辆信息，它们是速度、加速度、偏航率、时间戳和车轮角度，我有位置信息，它们是地面真实经度纬度以及我正常 GPS 中的错误经度和纬度。我将这些纬度和经度转换为 x 和 y 只是为了知道我应该将我的虚假经度和纬度移动多少，以便我的位置可以更准确并类似于地面实况值。在这种情况下，我的数据会变坏吗？我正在尝试预测 GPS 产生的经纬度误差，以便我以后可以纠正它，所以这是一个回归问题，我正在使用上面的这些功能来做我认为它们提供的信息，因为速度、加速度、偏航率和车轮角度与位置有关（我错了吗？）

我一般问这个，我在网上看了一些文章，说数据有时不好或数据质量不好，但我不知道神秘句子的真正含义。

我在训练神经网络时也遇到了问题，我的损失在前 10-20 个时期开始减少，然后它停留在某个高值上，网络停止学习，就像它正在努力摆脱那个损失值一样，但它可以不。我尝试只使用 100 个数据点而不是全部 40k，我注意到它工作得很好，NN 实现了适应这些，但是随着我增加数据点的数量，性能变得更差（你对此有什么想法吗？）

有些人建议我没有很多数据和很多特征，在这种情况下，最好使用一些机器学习方法，因为它在小数据集的情况下优于 NN，或者如果我的情况像我这样的特征很少，所以我也尝试使用随机森林，我注意到它比神经网络提供了更好的结果，但它也不能很好地概括，即使它在训练和验证集上给了我很好的结果，当我在测试数据（随机森林的数据没见过），它的表现真的很糟糕。

所以我在互联网上阅读可能导致这些问题的原因，我注意到有时我看到有人或文章声称数据质量可能很差！但这究竟意味着什么？我认为神经网络可以映射任何类型的数据，如果我有一个特征和一个目标，那么神经网络可以将这两者映射在一起，至少它可以过度拟合数据，对吧？

所以有人可以告诉我什么是坏数据或更好我怎么知道我的数据是否坏？好吧，如果有办法知道这一点，那么我可能会节省时间，而不是开始从事一个需要我一个月才能完成然后发现我的数据不好的项目。你能告诉我我的案子是否有意义吗？我的意思是我觉得奇怪的是，NN 的性能比随机森林差得多。至少我的神经网络应该过度拟合数据还是我错了？

2个回答

NN不是灵丹妙药

不是每个模型都适用于每个数据集，这是精神。

对于某些任务，即使是强硬的神经网络也非常强大，您可以找到线性回归是更好选择的任务。

数据质量可能意味着两件事：

a) 数据是非结构化的且未经处理。想想一些超级丑陋的文字日志

b) 数据不具信息性。无论您尝试什么，都没有可以提取的模式。

总而言之，尝试不同的方法，并且总是有一个保留数据集来进行完整性检查

添加到前面的答案中，您应该知道使用合理数量的特征应该给出的分数有点接近它在最佳设置下所能给出的分数。

如果您的数据没有提供信息，并且其中没有要捕获的模式，那么无论您使用什么算法或模型，它都应该使您的主管向您提出的要求有一个分数。

我遇到过类似的问题，我得出的结论是缺乏数据质量（因为数据的内容很糟糕，它包含很多随机性，也缺乏可以更好地解释目标的预测因子）。

编辑：设置适当的验证方案以消除过度拟合的威胁，这可能是您在验证中获得高分而在测试中获得低分的原因。如果即便如此，您的测试分数仍与您的预期相差甚远，请考虑问问自己是否为该测试集使用了正确的训练数据。

希望这可以帮助！

其它你可能感兴趣的问题

上一篇水平和垂直合奏有什么区别？下一篇如何解释逻辑回归的系数？