数据挖掘 - 如何对统计数据进行机器学习的数据增强？ - 吾爱随笔录

数据挖掘机器学习深度学习数据挖掘机器学习模型数据增强

2022-03-06 16:02:48

我正在训练机器学习分类模型。我有 csv 格式的数据，可以说 5 个特征（或列）和 100 个这样的观察值（或行）。

我想添加更多类似的数据来提高我的模型准确性。我没有来自原始来源的更多数据。

我在深度学习中对图像进行了数据增强，我执行了亮度（-/+）、旋转、翻转。但我不知道如何在 ML 中进行这样的练习。

请帮忙。

1个回答

您可以主要做两件事：引导或过采样。

使用统计数据，您可以进行引导（带替换的随机抽样）

Bagging 方法有助于提高模型的准确性。伪代码会有点像这样。

for estimator in range(number of estimators):
    Sampling some data
    Fitting a model
    Predicting
mean(predictions)

通过这种方式，您可以使用相同的数据样本训练不同的模型，并有助于提高准确性。众所周知的随机森林使用这种技术。

还有其他方法可以创建合成数据，它们是过采样/欠采样技术，您可以在 imblearn 文档中查看。有时会使用诸如SMOTE （合成少数过采样技术）之类的技术，但它们会生成合成数据。

用统计数据你不能旋转，添加亮度...

其它你可能感兴趣的问题