我刚刚看到一篇使用了一些机器学习方法的生物运动学论文,但我认为他们的方法存在缺陷。
作者拥有中风患者的数据,并使用 Lasso 回归来发现中风患者的哪些特征是其中风后运动功能恢复的最佳预测指标。他们改变了他们的超参数(Lasso 的 lambda,是否使用了特征的多项式次数)并使用交叉验证 (CV) 来测试许多不同的模型,并找出哪个模型表现最好。在从 CV 中挑选出表现最好的模型之后,作者继续从这个回归模型中进行推断,得出的结论是,患者的某些特征是他们康复的最佳预测指标。
但是,我认为在做出这样的推论之前,应该首先对未使用的测试数据评估模型性能,以确保它仍然是一个好的模型。如果作者使用 20 倍的 CV 来找到一个好的模型,我认为这些模型中的一个可能只是偶然地表现良好。因此,应该首先在测试集上评估该模型,以确保该模型仍然以低误差进行预测,然后开始从该模型中进行任何推断。我的推理正确吗?