数据挖掘 - 生成额外数据时应该关注哪些主要问题？ - 吾爱随笔录 - 问答

生成额外数据时应该关注哪些主要问题？

数据挖掘机器学习数据挖掘数据清理

2022-02-16 09:32:54

我一直在参与一个项目，由于测量错误/无效值，我不得不削减大部分数据集，最终我们得到了一个小数据集。

数据集涉及以下内容：

工具挠度：计量 - 传感器测量
工具磨损：计量 - 传感器测量
件 - 形状精度：计量 - 传感器测量
工件 - 粗糙度：计量 - 传感器测量
机器输入 - 参数：系统输入

我想为每个计量数据集生成更多数据，使用机器输入作为参考，但是，我觉得它可能会使我的模型产生偏差。

如您所见，我对这个主题很困惑。

如果我转向这个解决方案，我应该期待什么？
有什么我应该注意的限制吗？

1个回答

正如您所说，数据集中可能存在偏差。为避免这种情况，您必须遵守生成数据的算法。马上，我提出的解决方案是参数化方法。找到数据的统计分布，并根据该分布相应地填写数据。

如果您想了解更多关于参数化方法的信息，可以在此处查看我的答案。

通过数据集上的概率分布生成训练数据意味着什么

对于某些机器学习方法，请查看我在此处发布的答案。

处理缺失值的最佳方法是什么

从来没有一种正确的方法可以满足您的要求，但是有很多好的方法，这取决于您数据的细微差别。

其它你可能感兴趣的问题

上一篇将短语分类为生物医学或非生物医学下一篇如何合并列，对它们进行计数，然后绘制结果？