我刚开始读博士,我们想从电荷等基本化学性质中找到合适的材料(具有某些品质)。类似的工作中有很多模型和数据集,但由于我们的工作非常新颖,我们有自己制作和测试每个数据样本。这使得数据采集非常非常缓慢并且非常昂贵。我们估计的样本将在一段时间内为 10-15 个样本,直到我们可以扩展它。
现在我想使用这些样本来制作一个基本的预测模型,但要尽可能多地进行“良好的泛化”。我将使用此模型从大量属性中筛选其他可能的候选材料,以找到最可能的材料,然后继续制作它们以进行测试。
现在我显然不希望性能接近 95% 左右,但我想要一个具有预测能力的工作模型,它实际上将帮助我找到一些最可能的材料候选者,这样我们就可以扩展我们的工作。我不确定我是否可以(或者应该)使用一些常规的 ML 方法,例如数据集拆分和交叉验证。所以我很感激你的想法。
由于我们的数据量很小,我一直在寻找提高其稳健性的方法。这些是我们的想法:
1- 使用集成模型来避免过度拟合并避免偏斜(使用弹性网络、SVM、随机森林等算法)。
2- 设置重正则化以避免小数据可能产生的某些偏差。
3- 使用更快到达最小外围的算法。
对于如何尽可能改进此模型以达到最佳泛化性能的任何建议,我将不胜感激。
我也考虑过很多合成数据的生成。你对我该如何去做有什么建议吗?