生成额外数据时应该关注哪些主要问题?

数据挖掘 机器学习 数据挖掘 数据清理
2022-02-16 09:32:54

我一直在参与一个项目,由于测量错误/无效值,我不得不削减大部分数据集,最终我们得到了一个小数据集。

数据集涉及以下内容:

  • 工具挠度:计量 - 传感器测量
  • 工具磨损:计量 - 传感器测量
  • 件 - 形状精度:计量 - 传感器测量
  • 工件 - 粗糙度:计量 - 传感器测量
  • 机器输入 - 参数:系统输入

我想为每个计量数据集生成更多数据,使用机器输入作为参考,但是,我觉得它可能会使我的模型产生偏差。

如您所见,我对这个主题很困惑。

  1. 如果我转向这个解决方案,我应该期待什么?
  2. 有什么我应该注意的限制吗?
1个回答

正如您所说,数据集中可能存在偏差。为避免这种情况,您必须遵守生成数据的算法。马上,我提出的解决方案是参数化方法。找到数据的统计分布,并根据该分布相应地填写数据。

如果您想了解更多关于参数化方法的信息,可以在此处查看我的答案。

通过数据集上的概率分布生成训练数据意味着什么

对于某些机器学习方法,请查看我在此处发布的答案。

处理缺失值的最佳方法是什么

从来没有一种正确的方法可以满足您的要求,但是有很多好的方法,这取决于您数据的细微差别。