如何对统计数据进行机器学习的数据增强?

数据挖掘 机器学习 深度学习 数据挖掘 机器学习模型 数据增强
2022-03-06 16:02:48

我正在训练机器学习分类模型。我有 csv 格式的数据,可以说 5 个特征(或列)和 100 个这样的观察值(或行)。

我想添加更多类似的数据来提高我的模型准确性。我没有来自原始来源的更多数据。

我在深度学习中对图像进行了数据增强,我执行了亮度(-/+)、旋转、翻转。但我不知道如何在 ML 中进行这样的练习。

请帮忙。

1个回答

您可以主要做两件事:引导或过采样。

使用统计数据,您可以进行引导(带替换的随机抽样)

Bagging 方法有助于提高模型的准确性。伪代码会有点像这样。

for estimator in range(number of estimators):
    Sampling some data
    Fitting a model
    Predicting
mean(predictions)

通过这种方式,您可以使用相同的数据样本训练不同的模型,并有助于提高准确性。众所周知的随机森林使用这种技术。

还有其他方法可以创建合成数据,它们是过采样/欠采样技术,您可以在 imblearn 文档中查看。有时会使用诸如SMOTE (合成少数过采样技术)之类的技术,但它们会生成合成数据。

用统计数据你不能旋转,添加亮度...