最近我对深度学习的 NLP 应用非常感兴趣。深入研究文献(例如关于 arXiv),我注意到引用和估计机器学习任务分数的不确定性是非常不受欢迎的。在预训练语言模型(即 bert、gpt 等)时代,论文中引用的所有进一步改进似乎在 1 个或更少的标准差内相互兼容,使得所有结果在统计上与神经网络随机优化引起的波动兼容网络训练程序(在固定数据集)。我是一名物理学家,与实验室常规对实验数据进行的统计处理相比,这让我感到非常困惑。我确信这个问题过去已经在 ML/数据科学社区讨论过,你能给我一些评论或论文来解决这个问题吗?另外,你能和我分享一下你的想法吗?
假设具有相同数据集的设置,只是不同的模型结构,其中随机性完全由优化过程 (SGD) 的内在随机性给出。我要问的是:
- 为什么不确定性通常不与 ml 分数相关联?
- 如果不引用不确定性,如何在没有统计置信度的情况下比较不同的方法并声称可能的改进?
让我举一个简单的例子:我在一些数据上训练模型 A,在测试集上我得到 80.0+-2.0 的 f1 分数,其中我引用中心值作为 N 次训练的平均值,2.0 是标准差(假设 N 足够大)。然后我训练模型 B,它与模型 A 相似,但具有不同的拓扑结构(与模型 A 相同的自由度)并测量 f1 = 82.0+-(5.0)。你会声称 B 型比 A 型更好吗?或者您是否认为这两个分数在统计上无法区分,因为它们在小于 1 sigma 的时间内彼此兼容?