我正在尝试一些不同的技术来优化 Boosted Gradient Regressor,方法是使用进化编程技术来尝试找到最有效的特征集。到目前为止,我已经取得了一些不错的结果(能够删除 65% 的特征并提高了准确性),但我对每个 epoch 的运行成本(就时间而言)印象不深。目前,这是一个非常昂贵的优化问题,2^79因为最多有 79 个特征可供选择,这6.0446291e+23可能是特征排列。
到目前为止,我的种群中的每个个体都有一个二进制编码的基因,其中1= 使用此功能,并且0= 不使用此功能。通过使用所选特征运行增强回归器来评估群体中的每个个体,然后计算 RMSLE。在优化功能大约 3 小时后,我开始看到良好的结果(我没有进行任何并行计算)。
我一直在做一些研究,以尝试“预测”我的增强回归器的性能,而无需实际评估其性能。到目前为止,我发现了以下技术:
- 问题逼近。我可以看到这在某些特定情况下是如何有用的,但由于我无法真正降低评估我的提升回归量的准确性的复杂性,这似乎无关紧要。
- 函数逼近。我认为这是一个非常有趣的技术。他们的整个前提是在不需要实际评估函数的情况下近似个人的适应度
- 健身传承。这似乎也很有趣,也许是上面列出的最有效的方法?个体被聚集到特定的组中,然后每个集群的“代表”个体对其适应度进行评估,然后通过距离测量来近似剩余个体的适应度。
不过,我可以看到这些技术存在一些问题。如果使用的特征组合与输出没有线性关系,那么函数逼近肯定很难逼近个人的潜在适应度吗?我对进一步看什么有点难过。