假设我正在运行一个机器学习模型,该模型会产生一定的结果(比如 80% 的准确度)。我现在更改模型中的一个小细节(例如,在深度学习模型中,增加一个卷积层中的内核大小)并再次运行模型,从而获得 0.8+x 的准确度。
我的问题是我将如何确定性能的哪个下降/下降可以让我说新的网络架构比我的旧网络架构更好?我假设 x=.0001 在合理的误差范围内,而 x=-.2 是性能的显着下降 - 但是,此处使用“显着”将纯属口语化,没有任何科学依据。
我知道理论上某种假设检验在这里是合适的,但据我所知,这些需要多个样本(即多次运行网络),如果大型 ML 模型有时需要几天的时间来训练,则不是t 真的可行。