我一直在参与一个项目,由于测量错误/无效值,我不得不削减大部分数据集,最终我们得到了一个小数据集。
数据集涉及以下内容:
- 工具挠度:计量 - 传感器测量
- 工具磨损:计量 - 传感器测量
- 件 - 形状精度:计量 - 传感器测量
- 工件 - 粗糙度:计量 - 传感器测量
- 机器输入 - 参数:系统输入
我想为每个计量数据集生成更多数据,使用机器输入作为参考,但是,我觉得它可能会使我的模型产生偏差。
如您所见,我对这个主题很困惑。
- 如果我转向这个解决方案,我应该期待什么?
- 有什么我应该注意的限制吗?
我一直在参与一个项目,由于测量错误/无效值,我不得不削减大部分数据集,最终我们得到了一个小数据集。
数据集涉及以下内容:
我想为每个计量数据集生成更多数据,使用机器输入作为参考,但是,我觉得它可能会使我的模型产生偏差。
如您所见,我对这个主题很困惑。
正如您所说,数据集中可能存在偏差。为避免这种情况,您必须遵守生成数据的算法。马上,我提出的解决方案是参数化方法。找到数据的统计分布,并根据该分布相应地填写数据。
如果您想了解更多关于参数化方法的信息,可以在此处查看我的答案。
对于某些机器学习方法,请查看我在此处发布的答案。
从来没有一种正确的方法可以满足您的要求,但是有很多好的方法,这取决于您数据的细微差别。