我正在训练机器学习分类模型。我有 csv 格式的数据,可以说 5 个特征(或列)和 100 个这样的观察值(或行)。
我想添加更多类似的数据来提高我的模型准确性。我没有来自原始来源的更多数据。
我在深度学习中对图像进行了数据增强,我执行了亮度(-/+)、旋转、翻转。但我不知道如何在 ML 中进行这样的练习。
请帮忙。
我正在训练机器学习分类模型。我有 csv 格式的数据,可以说 5 个特征(或列)和 100 个这样的观察值(或行)。
我想添加更多类似的数据来提高我的模型准确性。我没有来自原始来源的更多数据。
我在深度学习中对图像进行了数据增强,我执行了亮度(-/+)、旋转、翻转。但我不知道如何在 ML 中进行这样的练习。
请帮忙。
您可以主要做两件事:引导或过采样。
使用统计数据,您可以进行引导(带替换的随机抽样)
Bagging 方法有助于提高模型的准确性。伪代码会有点像这样。
for estimator in range(number of estimators):
Sampling some data
Fitting a model
Predicting
mean(predictions)
通过这种方式,您可以使用相同的数据样本训练不同的模型,并有助于提高准确性。众所周知的随机森林使用这种技术。
还有其他方法可以创建合成数据,它们是过采样/欠采样技术,您可以在 imblearn 文档中查看。有时会使用诸如SMOTE (合成少数过采样技术)之类的技术,但它们会生成合成数据。
用统计数据你不能旋转,添加亮度...