在许多机器学习应用中,所谓的数据增强方法允许构建更好的模型。例如,假设一个训练集猫和狗的图像。通过旋转、镜像、调整对比度等,可以从原始图像生成附加图像。
在图像的情况下,数据增强相对简单。但是,假设(例如)一个人有一个训练集样本和数百个代表不同事物的连续变量。数据增强似乎不再那么直观。在这种情况下可以做些什么?
在许多机器学习应用中,所谓的数据增强方法允许构建更好的模型。例如,假设一个训练集猫和狗的图像。通过旋转、镜像、调整对比度等,可以从原始图像生成附加图像。
在图像的情况下,数据增强相对简单。但是,假设(例如)一个人有一个训练集样本和数百个代表不同事物的连续变量。数据增强似乎不再那么直观。在这种情况下可以做些什么?
我将这个问题理解为涉及特征构建和处理您已经拥有的大量特征 + 将构建,相对于您的观察 ( N << P
)。
特征构造
扩展@yasin.yazici 的评论,增加数据的一些可能方法是:
我敢肯定还有很多我想念的。
特征选择/降维
您可以使用诸如 PCA 之类的技术来降低维度(尽管在使用 PCA 变量扩充数据之后可能不会)。或者,您可以使用为您执行特征选择的算法,例如套索、随机森林等。
我遇到了类似的问题,我想增加未标记的数字数据。我通过以下方式扩充数据:(假设我有一个大小为 100*10 的数据集。)